Solutions de Gestion de versions en Science des données

Je viens d’un milieu universitaire, donc quand je parle de la façon dont le versionnage se fait dans la science des données, je parle d’expérience. Cependant, au cours de ma carrière, j’ai perfectionné mes compétences en tant qu’ingénieur logiciel, architecte et leader de l’innovation technologique. Cela me donne une perspective unique sur la façon dont les choses sont et ont été faites ainsi que sur la façon dont elles peuvent être faites mieux, beaucoup mieux.

La science des données a hérité sa pratique du versionnage du milieu universitaire. Et cette approche est ce que la plupart des domaines scientifiques informatiques ont fait pendant de nombreuses années. Ne vous méprenez pas, l’informatique a suivi cette voie au début du numérique (et dans de nombreux cas, cela est toujours répandu dans le milieu universitaire), mais a évolué vers des pratiques plus avancées.

Évitez les faux Versionnages

Quelle est cette pratique? C’est la pratique de créer des schémas de « gestion de versions » grâce à un nommage de fichier « intelligent ». Ces schémas produisent généralement les types de fichiers suivants

  • _new, _old, _old_new, _new_1, …
  • _1, _2, _1_1

Cette approche du versionnage, que j’appelle le faux versionnage, est une maladie endémique. Mais rompre avec ces pratiques peut être fait, et devrait, comme les pratiques modernes, telles que la gestion des modèles, l’exigent. Cela peut être accompli en utilisant un système de contrôle de version (VCS) – avec une préférence du secteur pour une solution basée sur git.

Optez pour un VCS basé sur Git

En utilisant un VCS basé sur git avec une stratégie de branchement appropriée, vous pouvez suivre de manière immuable la version de vos modèles ML et d’autres artefacts dans votre cycle de vie de développement de la science des données. Mais, le versionnage du code, contrairement à d’autres disciplines du génie logiciel, est nécessaire mais pas suffisant.

Des questions supplémentaires doivent être prises en compte:

  • gestion des versions des données
  • gestion des versions des modèles
  • stockage des métadonnées de modélisation
  • etc.

Bien que ces préoccupations supplémentaires puissent être gérées, une mise en œuvre vanille ne suffira pas à plus long terme et peut causer plus de tort que d’aide. Hashmap peut vous aider dans cette voie et mettre en place une solution qui répond le mieux aux besoins uniques de votre entreprise.

Ceci fait partie de la série Evolving Data Science.

N’hésitez pas à partager sur d’autres canaux et assurez-vous de suivre tous les nouveaux contenus de Hashmap ici. Pour écouter une conversation décontractée sur tout ce qui touche à l’ingénierie des données et au cloud, consultez le podcast Hashmap on Tap de Hashmap sur Spotify, Apple, Google et d’autres applications de streaming populaires.

Si vous avez aimé lire ceci, certaines des autres histoires récentes de John sont ci-dessous:

John Aven, Ph.D., est Directeur de l’ingénierie chez Hashmap, fournissant des solutions de données, de Cloud, d’IoT et d’IA / ML et une expertise de conseil dans tous les secteurs avec un groupe de technologues innovants et d’experts du domaine accélérant les résultats commerciaux à haute valeur ajoutée pour nos clients. Assurez-vous et connectez-vous avec John sur LinkedIn pour obtenir plus de perspectives et d’informations sur l’accélération de vos résultats commerciaux axés sur les données.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.