versionering Data videnskab løsninger

jeg kommer fra en akademisk baggrund, så når jeg taler om, hvordan versionering foregår inden for datalogi, taler jeg af erfaring. Imidlertid, i løbet af min karriere, jeg har finpudset mine færdigheder som programmelingeniør, arkitekt, og teknologisk innovationsleder. Dette giver mig et unikt perspektiv på, hvordan tingene er og er blevet gjort, samt hvordan de kan gøres bedre, meget bedre.

datavidenskab arvede sin praksis med versionering fra den akademiske verden. Og denne tilgang er, hvad de fleste ethvert beregningsmæssigt videnskabeligt felt har gjort i mange år. Misforstå mig ikke, datalogi gik denne vej i de tidlige digitale dage (og i mange tilfælde er dette stadig udbredt i den akademiske verden), men er flyttet til mere avanceret praksis.

undgå falsk versionering

Hvad er denne praksis? Det er praksis at skabe ‘versionering’ ordninger gennem ‘smart’ fil navngivning. Disse ordninger producerer generelt følgende slags filer

  • _ny, _old, _old_ny, _ny_1, …
  • _1, _2, _1_1

denne tilgang til versionering, som jeg omtaler som falsk versionering, er en sygdom, og den er endemisk. Men at bryde fra denne praksis kan gøres, og bør, som moderne praksis, såsom modelstyring, kræver det. Dette kan opnås ved hjælp af en version control system (VCS)— med en industri præference for en git-baseret løsning.

gå med en Git-baseret VCS

ved hjælp af en git-baseret VCS med en passende forgreningsstrategi er du i stand til uforanderligt at spore versionen af dine ML-modeller og andre artefakter i din livscyklus for udvikling af datavidenskab. Men versionering af kode, i modsætning til andre ingeniørdiscipliner, er nødvendig, men ikke tilstrækkelig.

yderligere spørgsmål skal overvejes:

  • versionering af data
  • versionering af modeller
  • modellering af metadatalagring
  • etc.

selvom disse yderligere bekymringer kan styres, vil en vaniljeimplementering ikke være tilstrækkelig på længere sigt og kan forårsage mere skade end hjælp. Hashmap kan hjælpe dig ned ad denne vej og indføre en løsning, der bedst passer til dine unikke forretningsbehov.

dette er en del af den udviklende Datavidenskabsserie.

du er velkommen til at dele på andre kanaler og være sikker og holde trit med alt nyt indhold fra Hashmap her. For at lytte ind på en afslappet samtale om alle ting Datateknik og skyen, tjek Hashmap podcast Hashmap på Tap samt på Spotify, Apple, Google, og andre populære streaming apps.

hvis du nød at læse dette, er nogle af Johns andre nylige historier nedenfor:

John Aven, Ph. D., er direktør for teknik hos Hashmap, der leverer Data -, Cloud -, IoT-og AI/ML-løsninger og konsulentekspertise på tværs af brancher med en gruppe innovative teknologer og domæneeksperter, der fremskynder forretningsresultater af høj værdi for vores kunder. Vær sikker og kontakt John på LinkedIn og nå ud til flere perspektiver og indsigt i at fremskynde dine datadrevne forretningsresultater.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.