versiointi Data Science Solutions

minulla on akateeminen tausta, joten kun puhun siitä, miten versiointia tehdään datatieteessä, puhun kokemuksesta. Olen kuitenkin urani aikana hionut taitojani ohjelmistoinsinöörinä, arkkitehtina ja teknologiainnovaatiojohtajana. Tämä antaa minulle ainutlaatuisen näkökulman siihen, miten asiat ovat ja on tehty sekä miten ne voidaan tehdä paremmin, paljon paremmin.

Datatiede peri versiointikäytäntönsä Akatemialta. Ja tämä lähestymistapa on mitä useimmat laskennallisesti tieteen alalla on tehnyt monta vuotta. Älä ymmärrä minua väärin, tietojenkäsittelytiede meni näin varhaisessa digitaalisessa päivässä (ja monissa tapauksissa, tämä on edelleen yleistä akateemisessa maailmassa), mutta on siirtynyt kehittyneempiä käytäntöjä.

Vältä vääristelyä

mikä tämä käytäntö on? Se on käytäntö luoda ”versiointi” järjestelmiä ”smart” tiedostojen nimeäminen. Nämä järjestelmät tuottavat yleensä seuraavanlaisia tiedostoja

  • _uusi, _old_new, _new_1, …
  • _1, _2, _1_1

tämä versiointia koskeva lähestymistapa, jota kutsun vääräksi versioksi, on sairaus ja se on endeeminen. Mutta näistä käytännöistä irtautuminen on mahdollista, ja sen pitääkin, kuten nykyaikaiset käytännöt, kuten mallijohtaminen, sitä edellyttävät. Tämä voidaan toteuttaa käyttämällä versionhallintajärjestelmää (VCS)— alan suosimalla git-pohjaisella ratkaisulla.

jos käytät git-pohjaista VCS: ää

käyttämällä git-pohjaista VCS: ää, jolla on sopiva haarautumisstrategia, pystyt mittaamattomasti seuraamaan ML-malliesi versiota ja muita esineitä datatieteen kehityksen elinkaaressa. Mutta, versiointi koodin, toisin kuin muiden ohjelmistotekniikan tieteenalojen, on välttämätöntä, mutta ei riitä.

muita kysymyksiä on harkittava:

  • tietojen versiointi
  • mallien versiointi
  • modeling metadata storage
  • jne.

vaikka nämä lisäongelmat voidaan hoitaa, vanilla-toteutus ei riitä pidemmällä aikavälillä ja voi aiheuttaa enemmän haittaa kuin apua. Hashmap voi auttaa sinua tällä tiellä ja ottaa käyttöön ratkaisu, joka parhaiten sopii ainutlaatuinen liiketoiminnan tarpeisiin.

tämä on osa Evolving Data Science-sarjaa.

voit vapaasti jakaa muille kanaville ja olla varma ja seurata kaikkea uutta sisältöä hashmapista täällä. Jos haluat kuunnella satunnaista keskustelua kaikesta tietotekniikasta ja pilvestä, tutustu Hashmapin podcast Hashmapiin hanasta sekä Spotifyssa, Applessa, Googlessa ja muissa suosituissa suoratoistosovelluksissa.

jos pidit tämän lukemisesta, Seuraavassa on joitakin Johnin muita viimeaikaisia tarinoita:

John Aven, Ph. D., on Hashmapin suunnittelujohtaja, joka tarjoaa Data -, pilvi -, IoT-ja AI/ML-ratkaisuja ja konsultointiosaamista eri toimialoilla innovatiivisten teknologien ja domain-asiantuntijoiden kanssa, jotka kiihdyttävät asiakkaillemme arvokkaita liiketoiminnan tuloksia. Ole varma, että olet yhteydessä Johniin LinkedInissä ja tavoittele lisää näkökulmia ja näkemystä datalähtöisten liiketoimintatuloksiesi nopeuttamiseen.

Vastaa

Sähköpostiosoitettasi ei julkaista.