wersjonowanie rozwiązań Data Science

pochodzę z wykształcenia akademickiego, więc kiedy mówię o tym, jak odbywa się wersjonowanie w Data science, mówię z doświadczenia. Jednak w trakcie mojej kariery zawodowej doskonaliłem swoje umiejętności jako inżynier oprogramowania, architekt i lider innowacji technologicznych. Daje mi to unikalną perspektywę na to, jak rzeczy są i zostały zrobione, a także jak można je zrobić lepiej, znacznie lepiej.

Data science odziedziczyła praktykę wersjonowania po środowisku akademickim. I takie podejście jest tym, co większość obliczeniowo naukowej dziedziny robi od wielu lat. Nie zrozumcie mnie źle, Informatyka szła w ten sposób we wczesnych czasach cyfrowych (a w wielu przypadkach jest to nadal powszechne w środowisku akademickim), ale przeszła na bardziej zaawansowane praktyki.

unikaj fałszywej wersji

co to za praktyka? Jest to praktyka tworzenia schematów „wersjonowania” poprzez „inteligentne” nazewnictwo plików. Schematy te zazwyczaj wytwarzają następujący rodzaj plików

  • _new, _old, _old_new, _new_1, …
  • _1, _2, _1_1

takie podejście do wersjonowania, które nazywam sztucznym wersjonowaniem, jest chorobą i jest endemiczne. Ale zerwanie z tymi praktykami może być zrobione i powinno, ponieważ nowoczesne praktyki, takie jak zarządzanie modelami, tego wymagają. Można to osiągnąć za pomocą systemu kontroli wersji (VCS)— z preferencjami branżowymi dla rozwiązania opartego na git.

korzystaj z wirtualnych systemów opartych na Gita

korzystając z wirtualnych systemów opartych na Gita z odpowiednią strategią rozgałęziania, jesteś w stanie niezmiennie śledzić wersję swoich Modeli ML i inne artefakty w cyklu życia rozwoju data science. Ale wersjonowanie kodu, w przeciwieństwie do innych dyscyplin inżynierii oprogramowania, jest konieczne, ale nie wystarczające.

należy wziąć pod uwagę dodatkowe kwestie:

  • wersjonowanie danych
  • wersjonowanie modeli
  • przechowywanie metadanych modelowania
  • itd.

chociaż te dodatkowe problemy można rozwiązać, wdrożenie wanilii nie wystarczy w dłuższym okresie i może spowodować więcej szkód niż pomocy. Hashmap może pomóc ci podążać tą ścieżką i wdrożyć rozwiązanie, które najlepiej pasuje do Twoich unikalnych potrzeb biznesowych.

jest to część rozwijającej się serii Data Science.

możesz udostępniać na innych kanałach i być pewnym i być na bieżąco z wszystkimi nowymi treściami z Hashmap tutaj. Aby wysłuchać swobodnej rozmowy na temat inżynierii danych i chmury, sprawdź Podcast Hashmap Hashmap on Tap, a także Spotify, Apple, Google i inne popularne aplikacje do przesyłania strumieniowego.

jeśli podobało ci się to czytanie, niektóre z ostatnich historii Johna są poniżej:

John Aven, Ph.D., jest dyrektorem ds. inżynierii w Hashmap zapewniając dane, chmurę, Internet Rzeczy i rozwiązania AI/ML oraz wiedzę doradczą w różnych branżach z grupą innowacyjnych technologów i ekspertów ds. domen przyspieszających wysokiej wartości wyniki biznesowe dla naszych klientów. Skontaktuj się z Johnem na LinkedIn i uzyskaj więcej perspektyw i wglądu w przyspieszanie wyników biznesowych opartych na danych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.