verzování dat vědecká řešení

pocházím z akademického prostředí, takže když mluvím o tom, jak se provádí verzování v datové vědě, mluvím ze zkušenosti. Během své kariéry jsem však zdokonalil své dovednosti softwarového inženýra, architekta a vedoucího technologických inovací. To mi dává jedinečný pohled na to, jak se věci dělají a byly provedeny, a jak je lze udělat lépe, mnohem lépe.

datová věda zdědila svou praxi verzování z akademické obce. A tento přístup je to, co většina výpočetně vědeckých oborů dělá po mnoho let. Nechápejte mě špatně, počítačová věda šla tímto způsobem v raných digitálních dnech (a v mnoha případech to stále převládá v akademické sféře), ale přešla na pokročilejší postupy.

Vyhněte se Faux verzování

jaká je tato praxe? Je to praxe vytváření schémat „verzování“ pomocí „inteligentního“ pojmenování souborů. Tato schémata obecně produkují následující typy souborů

  • _new, _old, _old_new, _new_1, …
  • _1, _2, _1_1

tento přístup k verzování, který označuji jako faux verzování, je nemoc a je endemický. Ale vymanit se z těchto praktik lze a mělo by to, jak to vyžadují moderní postupy, jako je správa modelů. Toho lze dosáhnout pomocí systému pro správu verzí— VCS)-s průmyslovou preferencí pro řešení založené na git.

jděte s VCS založeným na Git

pomocí VCS založeného na git s vhodnou strategií větvení můžete neměnně sledovat verzi svých modelů ML a dalších artefaktů v životním cyklu vývoje vědy o datech. Verze kódu je však na rozdíl od jiných oborů softwarového inženýrství nezbytná, ale ne dostatečná.

je třeba zvážit další problémy:

  • verze dat
  • verze modelů
  • modelování úložiště metadat
  • atd.

i když tyto dodatečné obavy lze zvládnout, implementace vanilky nebude stačit dlouhodoběji a může způsobit více škody než pomoci. Hashmap vám může pomoci touto cestou a zavést řešení, které nejlépe vyhovuje vašim jedinečným obchodním potřebám.

Toto je součást vyvíjející se série datových věd.

neváhejte sdílet na jiných kanálech a ujistěte se a držte krok se všemi novými obsahy z Hashmap zde. Chcete-li poslouchat příležitostnou konverzaci o všech věcech datového inženýrství a cloudu, podívejte se na podcast Hashmap Hashmap také na Spotify, jablko, Google, a další populární aplikace pro streamování.

pokud jste si to užili, některé Johnovy další nedávné příběhy jsou níže:

John Aven, Ph.D., je ředitelem inženýrství v Hashmap, který poskytuje řešení dat, Cloud, IoT a AI / ML a konzultuje odborné znalosti napříč průmyslovými odvětvími se skupinou inovativních technologů a odborníků na domény, kteří urychlují vysoce hodnotné obchodní výsledky pro naše zákazníky. Ujistěte se a spojte se s Johnem na LinkedIn a oslovte více perspektiv a nahlédnutí do urychlení obchodních výsledků založených na datech.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.