Versiebeheer Data Science Oplossingen

ik kom uit een academische achtergrond, dus als ik praat over hoe versiebeheer wordt gedaan binnen data science, ik spreek uit ervaring. Tijdens mijn carrière heb ik echter mijn vaardigheden aangescherpt als software-ingenieur, architect en leider op het gebied van technologische innovatie. Dit geeft me een uniek perspectief op hoe dingen zijn en zijn gedaan en hoe ze beter kunnen worden gedaan, veel beter.

Data science erfde haar praktijk van versiebeheer van de academische wereld. En deze aanpak is wat vrijwel elk computerwetenschappelijk veld al vele jaren doet. Begrijp me niet verkeerd, computer science ging deze manier in de vroege digitale dagen (en in veel gevallen, Dit is nog steeds gangbaar in de academische wereld), maar is verhuisd naar meer geavanceerde praktijken.

vermijd Faux versiebeheer

Wat is deze praktijk? Het is de praktijk van het maken van ‘versiebeheer’ schema ’s door middel van ‘slimme’ bestandsnamen. Deze schema ‘ s produceren over het algemeen de volgende soorten bestanden

  • _nieuw, _old, _old_new, _new_1, …
  • _1, _2, _1_1

deze benadering van versiebeheer, die ik faux versiebeheer noem, is een ziekte en is endemisch. Maar het breken van deze praktijken kan worden gedaan, en moet, zoals moderne praktijken, zoals model management, vereisen. Dit kan worden bereikt met behulp van een version control system (VCS)— met een industrie voorkeur voor een Git-gebaseerde oplossing.

Go with a git-Based VCS

met behulp van een Git-based VCS met een geschikte branching strategie, bent u in staat om de versie van uw ML modellen en andere artefacten in uw data science development life cycle onveranderlijk te volgen. Maar, het versiebeheer van code, in tegenstelling tot andere software engineering disciplines, is noodzakelijk, maar niet voldoende.

aanvullende problemen moeten in overweging worden genomen:

  • versiebeheer van gegevens
  • versiebeheer van modellen
  • modellering van metadata opslag
  • enz.

hoewel deze extra problemen kunnen worden opgelost, zal een vanilla-implementatie op langere termijn niet voldoende zijn en kan het meer schade dan hulp veroorzaken. Hashmap kan u helpen om dit pad te bewandelen en een oplossing in te voeren die het beste past bij uw unieke zakelijke behoeften.

dit maakt deel uit van de Evoluing Data Science series.

voel je vrij om te delen op andere kanalen en wees er zeker van en bij te blijven met alle nieuwe inhoud van Hashmap hier. Om te luisteren naar een informele gesprek over alle dingen data engineering en de cloud, check out Hashmap ‘ s podcast Hashmap on Tap evenals op Spotify, Apple, Google, en andere populaire streaming apps.

Als u dit leuk vond, zijn enkele van John ‘ s andere recente verhalen hieronder:

John Aven, Ph.D., is de Director of Engineering bij Hashmap die Data -, Cloud -, IoT-en AI/ML-oplossingen en adviesexpertise biedt in verschillende branches met een groep innovatieve technologen en domeinexperts die hoogwaardige bedrijfsresultaten voor onze klanten versnellen. Neem contact op met John op LinkedIn en bereik meer perspectieven en inzicht in het versnellen van uw data-gedreven bedrijfsresultaten.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.