Soluciones de Ciencia de Datos de Control de Versiones

Vengo de una formación académica, por lo que cuando hablo de cómo se realiza el control de versiones dentro de la ciencia de datos, hablo por experiencia. Sin embargo, a lo largo de mi carrera, he perfeccionado mis habilidades como ingeniero de software, arquitecto y líder de innovación tecnológica. Esto me da una perspectiva única de cómo se hacen y se han hecho las cosas, así como de cómo se pueden hacer mejor, mucho mejor.

La ciencia de datos heredó su práctica de versionado de la academia. Y este enfoque es lo que casi cualquier campo científico computacional ha hecho durante muchos años. No me malinterpreten, la informática fue de esta manera en los primeros días digitales (y en muchos casos, esto sigue prevaleciendo en el mundo académico), pero se ha trasladado a prácticas más avanzadas.

Evitar Versiones falsas

¿Qué es esta práctica? Es la práctica de crear esquemas de ‘control de versiones’ a través de nombres de archivos’ inteligentes’. Estos esquemas generalmente producen el siguiente tipo de archivos

  • _new, _old, _old_new, _new_1, …
  • _1, _2, _1_1

Este enfoque del control de versiones, al que me refiero como control de versiones falsas, es una enfermedad y es endémica. Pero romper con estas prácticas puede hacerse, y debe hacerse, como lo requieren las prácticas modernas, como la gestión de modelos. Esto se puede lograr utilizando un sistema de control de versiones (VCS), con una preferencia de la industria por una solución basada en git.

Ir con un VCS basado en Git

Con un VCS basado en git con una estrategia de ramificación adecuada, puede realizar un seguimiento inmutable de la versión de sus modelos de aprendizaje automático y otros artefactos en su ciclo de vida de desarrollo de ciencia de datos. Sin embargo, el control de versiones de código, a diferencia de otras disciplinas de ingeniería de software, es necesario pero no suficiente.

Se deben considerar cuestiones adicionales:

  • control de versiones de datos
  • control de versiones de modelos
  • almacenamiento de metadatos de modelado
  • etc.

Si bien estas preocupaciones adicionales se pueden manejar, una implementación de vainilla no será suficiente a largo plazo y puede causar más daño que ayuda. Hashmap puede ayudarlo en este camino y poner en marcha una solución que se adapte mejor a sus necesidades comerciales únicas.

Esto forma parte de la serie de Ciencia de Datos en evolución.

Siéntase libre de compartir en otros canales y asegúrese de mantenerse al día con todo el contenido nuevo de Hashmap aquí. Para escuchar una conversación informal sobre todo lo relacionado con la ingeniería de datos y la nube, echa un vistazo al podcast Hashmap Hashmap on Tap en Spotify, Apple, Google y otras aplicaciones de transmisión populares.

Si disfrutó leyendo esto, algunas de las otras historias recientes de John están a continuación:

John Aven, Ph.D., es el Director de Ingeniería de Hashmap que proporciona soluciones de datos, Nube, IoT e IA/ML y experiencia en consultoría en todas las industrias con un grupo de tecnólogos innovadores y expertos en dominios que aceleran los resultados comerciales de alto valor para nuestros clientes. Asegúrate de conectarte con John en LinkedIn y busca más perspectivas y conocimientos para acelerar los resultados de tu negocio basados en datos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.