versionshantering av Datavetenskapslösningar

jag kommer från en akademisk bakgrund, så när jag pratar om hur versionshantering görs inom datavetenskap talar jag av erfarenhet. Men under min karriär har jag finslipat mina färdigheter som mjukvaruingenjör, arkitekt och teknisk innovationsledare. Detta ger mig ett unikt perspektiv på hur saker är och har gjorts samt hur de kan göras bättre, mycket bättre.

Data science ärvde sin praxis för versionshantering från akademin. Och detta tillvägagångssätt är vad de flesta beräkningsvetenskapligt fält har gjort i många år. Missförstå mig inte, datavetenskap gick så här i de tidiga digitala dagarna (och i många fall är det fortfarande vanligt i akademin), men har flyttat till mer avancerade metoder.

Undvik Faux versionshantering

Vad är denna praxis? Det är praxis att skapa ’versionshantering’ system genom ’smart’ filnamn. Dessa system producerar i allmänhet följande typ av filer

  • _new, _old, _old_new, _new_1, …
  • _1, _2, _1_1

detta tillvägagångssätt för versionshantering, som jag kallar faux versionering, är en sjukdom och den är endemisk. Men att bryta från dessa metoder kan göras, och bör, som moderna metoder, såsom modellhantering, kräva det. Detta kan åstadkommas med hjälp av ett versionshanteringssystem (VCS)-med en branschpreferens för en git-baserad lösning.

gå med en Git-baserad VCS

med hjälp av en git-baserad VCS med en lämplig förgreningsstrategi kan du oföränderligt spåra versionen av dina ML-modeller och andra artefakter i din datavetenskapsutvecklingslivscykel. Men versionshantering av kod, till skillnad från andra programvarutekniska discipliner, är nödvändig men inte tillräcklig.

ytterligare frågor måste beaktas:

  • versionshantering av data
  • versionshantering av modeller
  • modellering av metadatalagring
  • etc.

även om dessa ytterligare problem kan hanteras, kommer en vaniljimplementering inte att räcka längre och kan orsaka mer skada än hjälp. Hashmap kan hjälpa dig på den här vägen och införa en lösning som bäst passar dina unika affärsbehov.

Detta är en del av den utvecklande Datavetenskapsserien.

dela gärna på andra kanaler och var säker och fortsätt med allt nytt innehåll från Hashmap här. För att lyssna på en avslappnad konversation om allt datateknik och molnet, kolla in Hashmaps podcast Hashmap on Tap också på Spotify, Apple, Google och andra populära streamingappar.

om du gillade att läsa detta finns några av Johns andra senaste berättelser nedan:

John Aven, Ph.D., är Ingenjörsdirektör på Hashmap som tillhandahåller Data -, moln -, IoT-och AI/ML-lösningar och konsultkompetens inom branscher med en grupp innovativa tekniker och domänexperter som accelererar högt värde affärsresultat för våra kunder. Var säker och få kontakt med John på LinkedIn och nå ut för fler perspektiv och insikt i att påskynda dina datadrivna affärsresultat.

Lämna ett svar

Din e-postadress kommer inte publiceras.