soluții de știință a datelor pentru versiuni

provin dintr-un mediu academic, așa că atunci când vorbesc despre modul în care se face versionarea în știința datelor, vorbesc din experiență. Cu toate acestea, de-a lungul carierei mele, mi-am perfecționat abilitățile de inginer software, arhitect și lider de inovație tehnologică. Acest lucru îmi oferă o perspectivă unică asupra modului în care lucrurile sunt și au fost făcute, precum și a modului în care pot fi făcute mai bine, mult mai bine.

știința datelor a moștenit practica versiunilor din mediul academic. Și această abordare este ceea ce majoritatea oricărui domeniu științific computațional a făcut de mulți ani. Nu mă înțelegeți greșit, informatica a mers așa în primele zile digitale (și în multe cazuri, acest lucru este încă răspândit în mediul academic), dar a trecut la practici mai avansate.

evitați versiunile false

care este această practică? Este practica de a crea’ versionare ‘scheme prin’ inteligent ‘ fișier denumire. Aceste scheme produc în general următoarele tipuri de fișiere

  • _new, _old, _old_new, _new_1, …
  • _1, _2, _1_1

această abordare a versiunilor, pe care o numesc versiune falsă, este o boală și este endemică. Dar ruperea de la aceste practici se poate face și ar trebui, așa cum practicile moderne, cum ar fi managementul modelului, să o solicite. Acest lucru poate fi realizat folosind un sistem de control al versiunii (VCS)— cu o preferință a industriei pentru o soluție bazată pe git.

mergeți cu un VCS bazat pe Git

folosind un VCS bazat pe git cu o strategie de ramificare adecvată, puteți urmări imuabil versiunea modelelor ML și alte artefacte din ciclul de viață al dezvoltării științei datelor. Dar, versionarea codului, spre deosebire de alte discipline de inginerie software, este necesară, dar nu suficientă.

trebuie luate în considerare aspecte suplimentare:

  • versiunea datelor
  • versiunea modelelor
  • modelarea stocării metadatelor
  • etc.

în timp ce aceste preocupări suplimentare pot fi gestionate, o implementare vanilla nu va fi suficientă pe termen lung și poate provoca mai mult rău decât ajutor. Hashmap vă poate ajuta pe această cale și poate pune în aplicare o soluție care se potrivește cel mai bine nevoilor dvs. unice de afaceri.

aceasta face parte din seria evolutivă a științei datelor.

Simțiți-vă liber pentru a partaja pe alte canale și să fie sigur și ține pasul cu tot conținutul nou de la Hashmap aici. Pentru a asculta o conversație obișnuită despre toate lucrurile ingineria datelor și cloud, consultați HashMap Podcast Hashmap la robinet, precum și pe Spotify, Apple, Google și alte aplicații populare de streaming.

dacă v-a plăcut să citiți acest lucru, câteva dintre celelalte povești recente ale lui John sunt mai jos:

John Aven, Ph.D., este directorul de inginerie la Hashmap, oferind soluții de date, Cloud, IoT și AI/ML și consultanță în întreaga industrie, cu un grup de tehnologi inovatori și experți în domeniu care accelerează rezultatele de afaceri de mare valoare pentru clienții noștri. Asigurați-vă că vă conectați cu John pe LinkedIn și ajungeți la mai multe perspective și informații despre accelerarea rezultatelor afacerii dvs. bazate pe date.

Lasă un răspuns

Adresa ta de email nu va fi publicată.