Versionierung von Data Science-Lösungen

Wenn ich also darüber spreche, wie Versionierung in Data Science durchgeführt wird, spreche ich aus Erfahrung. Im Laufe meiner Karriere habe ich jedoch meine Fähigkeiten als Softwareentwickler, Architekt und Technologie-Innovationsführer verfeinert. Dies gibt mir eine einzigartige Perspektive darauf, wie die Dinge sind und getan wurden und wie sie besser gemacht werden können, viel besser.

Data Science hat seine Praxis der Versionierung von der Wissenschaft geerbt. Und dieser Ansatz ist, was die meisten rechnerisch wissenschaftlichen Bereich seit vielen Jahren getan hat. Verstehen Sie mich nicht falsch, Informatik ging diesen Weg in den frühen digitalen Tagen (und in vielen Fällen ist dies immer noch weit verbreitet in der Wissenschaft), hat sich aber auf fortgeschrittenere Praktiken bewegt.

Falsche Versionierung vermeiden

Was ist diese Praxis? Es ist die Praxis, ‚Versionierungs‘ -Schemata durch ‚intelligente‘ Dateinamen zu erstellen. Diese Schemata erzeugen im Allgemeinen die folgende Art von Dateien

  • _new, _old, _old_new, _new_1, …
  • _1, _2, _1_1

Dieser Ansatz zur Versionierung, den ich als falsche Versionierung bezeichne, ist eine Krankheit und endemisch. Ein Bruch mit diesen Praktiken kann und sollte jedoch erfolgen, da moderne Praktiken wie das Modellmanagement dies erfordern. Dies kann mit einem Versionskontrollsystem (VCS) erreicht werden — mit einer Branchenpräferenz für eine Git-basierte Lösung.

Verwenden Sie ein Git-basiertes VCS

Wenn Sie ein Git-basiertes VCS mit einer geeigneten Verzweigungsstrategie verwenden, können Sie die Version Ihrer ML-Modelle und anderer Artefakte in Ihrem Data Science-Entwicklungslebenszyklus unveränderlich verfolgen. Die Versionierung von Code ist jedoch im Gegensatz zu anderen Software-Engineering-Disziplinen notwendig, aber nicht ausreichend.

Zusätzliche Probleme müssen berücksichtigt werden:

  • versionierung von Daten
  • Versionierung von Modellen
  • Speicherung von Modellierungsmetadaten
  • usw.

Während diese zusätzlichen Bedenken bewältigt werden können, reicht eine Vanilla-Implementierung längerfristig nicht aus und kann mehr Schaden als Hilfe verursachen. Hashmap kann Ihnen dabei helfen, eine Lösung zu finden, die Ihren individuellen Geschäftsanforderungen am besten entspricht.

Dies ist Teil der Evolving Data Science-Serie.

Fühlen Sie sich frei, auf anderen Kanälen zu teilen und sicher zu sein und mit allen neuen Inhalten von Hashmap hier Schritt zu halten. Um ein ungezwungenes Gespräch über alles, was mit Data Engineering und der Cloud zu tun hat, zu führen, schauen Sie sich Hashmaps Podcast Hashmap on Tap sowie Spotify, Apple, Google und andere beliebte Streaming-Apps an.

Wenn es Ihnen Spaß gemacht hat, dies zu lesen, finden Sie unten einige der jüngsten Geschichten von John:

John Aven, Ph.D., ist Director of Engineering bei Hashmap und bietet branchenübergreifende Daten-, Cloud-, IoT- und AI / ML-Lösungen sowie Beratungskompetenz mit einer Gruppe innovativer Technologen und Domänenexperten, die unseren Kunden hochwertige Geschäftsergebnisse ermöglichen. Stellen Sie sicher, dass Sie sich mit John auf LinkedIn verbinden und weitere Perspektiven und Einblicke in die Beschleunigung Ihrer datengesteuerten Geschäftsergebnisse erhalten.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.