Versioning dei Dati Scienza Soluzioni

io vengo da un background accademico, in modo che quando parlo di come il controllo delle versioni è fatto all’interno di una data scienza, parlo per esperienza. Tuttavia, nel corso della mia carriera, ho affinato le mie abilità come ingegnere del software, architetto e leader dell’innovazione tecnologica. Questo mi dà una prospettiva unica su come le cose sono e sono state fatte e su come possono essere fatte meglio, molto meglio.

La scienza dei dati ha ereditato la sua pratica di versioning dal mondo accademico. E questo approccio è ciò che la maggior parte qualsiasi campo scientifico computazionalmente ha fatto per molti anni. Non fraintendetemi, l’informatica è andata in questo modo nei primi giorni digitali (e in molti casi, questo è ancora prevalente nel mondo accademico), ma si è spostato su pratiche più avanzate.

Evita il falso Versioning

Qual è questa pratica? È la pratica di creare schemi di “versioning” attraverso la denominazione dei file “intelligenti”. Questi schemi generalmente producono il seguente tipo di file

  • _new, _old, _old_new, _new_1, …
  • _1, _2, _1_1

Questo approccio al versioning, che mi riferisco a come finto versioning, è una malattia ed è endemico. Ma rompere da queste pratiche può essere fatto, e dovrebbe, come le pratiche moderne, come la gestione del modello, richiederlo. Questo può essere ottenuto utilizzando un sistema di controllo di versione (VCS)-con una preferenza del settore per una soluzione basata su git.

Vai con un VCS basato su Git

Utilizzando un VCS basato su git con una strategia di ramificazione appropriata, è possibile tracciare immutabilmente la versione dei modelli ML e altri artefatti nel ciclo di vita dello sviluppo della scienza dei dati. Ma, il controllo delle versioni del codice, a differenza di altre discipline di ingegneria del software, è necessario ma non sufficiente.

Ulteriori problemi devono essere considerati:

  • versioning dei dati
  • versioning dei modelli
  • memorizzazione dei metadati di modellazione
  • ecc.

Mentre queste preoccupazioni aggiuntive possono essere gestite, un’implementazione di vanilla non sarà sufficiente a lungo termine e potrebbe causare più danni che aiuto. Hashmap può aiutarti su questa strada e mettere in atto una soluzione che si adatta meglio alle tue esigenze aziendali.

Questo fa parte della serie Evolving Data Science.

Sentitevi liberi di condividere su altri canali ed essere sicuri e tenere il passo con tutti i nuovi contenuti da Hashmap qui. Per ascoltare in su una conversazione casuale su tutte le cose di ingegneria dei dati e il cloud, controllare Hashmap podcast di Hashmap alla spina, nonché su Spotify, Apple, Google, e altre applicazioni di streaming popolari.

Se ti è piaciuto leggere questo, alcune delle altre storie recenti di John sono di seguito:

John Aven, Ph. D., è il direttore dell’ingegneria di Hashmap che fornisce soluzioni di dati, cloud, IoT e AI/ML e consulenza in tutti i settori con un gruppo di tecnologi innovativi ed esperti di dominio che accelerano i risultati di Assicurati di connetterti con John su LinkedIn e raggiungi ulteriori prospettive e informazioni per accelerare i risultati di business basati sui dati.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.