adattudományi megoldások verziószámozása

tudományos háttérből származom, tehát amikor arról beszélek, hogy a verziószámozás hogyan történik az adattudományon belül, tapasztalatból beszélek. Karrierem során azonban szoftvermérnökként, építészként és Technológiai Innovációs vezetőként csiszoltam képességeimet. Ez egyedülálló perspektívát ad nekem arról, hogy a dolgok hogyan vannak és történtek, valamint hogyan lehet őket jobban, sokkal jobban csinálni.

az Adattudomány az egyetemektől örökölte a verziószámozás gyakorlatát. És ez a megközelítés az, amit a legtöbb számítástechnikai tudományterület sok éven át tett. Ne érts félre, a számítástechnika így ment a korai digitális időkben (és sok esetben ez még mindig elterjedt az egyetemen), de fejlettebb gyakorlatokra költözött.

kerülje a Faux verziót

mi ez a gyakorlat? Ez a gyakorlat a ‘verziókezelő’ sémák létrehozása az ‘intelligens’ fájlnévvel. Ezek a sémák általában a következő típusú fájlokat állítják elő

  • _new, _old, _old_new, _new_1, …
  • _1, _2, _1_1

a verziószámozásnak ez a megközelítése, amelyet faux verziószámozásnak nevezek, egy betegség, amely endémiás. De meg lehet szakítani ezeket a gyakorlatokat, és meg kell, mivel a modern gyakorlatok, mint például a modellmenedzsment, megkövetelik. Ez egy verziókezelő rendszer (VCS) segítségével valósítható meg— az iparág előnyben részesíti a git-alapú megoldást.

Git-alapú VCS

megfelelő elágazási stratégiával rendelkező git-alapú VCS használatával megváltoztathatatlanul nyomon követheti az ML-modellek verzióját és az adattudományi fejlesztési életciklus egyéb melléktermékeit. De a kód verziószámozása, ellentétben más szoftverfejlesztési tudományágakkal, szükséges, de nem elegendő.

további kérdéseket kell figyelembe venni:

  • adatok verziószámozása
  • modellek verziószáma
  • metaadat-tároló modellezése
  • stb.

bár ezek a további aggályok kezelhetők, a vanília végrehajtása hosszabb távon nem elegendő, és több kárt okozhat, mint segítséget. A Hashmap segíthet ezen az úton, és olyan megoldást hozhat létre, amely a legjobban megfelel az Ön egyedi üzleti igényeinek.

ez része az Evolving Data Science sorozatnak.

nyugodtan ossza meg más csatornákon, és győződjön meg róla, és lépést tartani az összes új tartalmat Hashmap itt. Ha egy hétköznapi beszélgetést szeretne hallgatni az adattechnikáról és a felhőről, nézze meg a Hashmap podcast Hashmap csapját, valamint a Spotify, az Apple, a Google és más népszerű streaming alkalmazásokat.

Ha élvezte ezt az olvasást, John néhány újabb története az alábbiakban található:

John Aven, Ph.D., a Hashmap mérnöki igazgatója, adat -, felhő -, IoT-és AI/ML-megoldásokat nyújt, és szakértelmet nyújt az iparágakban innovatív technológusok és domain szakértők csoportjával, amelyek felgyorsítják ügyfeleink számára a nagy értékű üzleti eredményeket. Győződjön meg róla, hogy kapcsolatba lép John-nal a LinkedIn-en, és több perspektívát és betekintést nyerhet az adatközpontú üzleti eredmények felgyorsításába.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.