Dados de controle de versão Ciência Soluções

eu venho de uma formação acadêmica, portanto, quando eu falar sobre como o controle de versão é feito dentro de ciência de dados, eu falo por experiência própria. No entanto, ao longo da minha carreira, aperfeiçoei as minhas habilidades como engenheiro de software, arquitecto e líder em inovação tecnológica. Isso me dá uma perspectiva única sobre como as coisas são e foram feitas, bem como como como elas podem ser feitas melhor, muito melhor.

Data science inherited its practice of versioning from academia. E essa abordagem é o que mais Qualquer campo computacionalmente científico tem feito por muitos anos. Não me interprete mal, a Ciência da Computação foi assim nos primeiros dias digitais (e em muitos casos, isso ainda é prevalente na academia), mas passou para práticas mais avançadas.

evite uma falsa Versionação

o que é esta prática? É a prática de criar esquemas de “versionamento” através de nomes de arquivos “inteligentes”. Estes sistemas geralmente produzir os seguintes tipos de ficheiros

  • _new, _old, _old_new, _new_1, …
  • _1, _2, _1_1

Esta abordagem de controle de versões, que eu chamo de falso controle de versão, é uma doença é endêmica. Mas romper com essas práticas pode ser feito, e deve, como práticas modernas, como a gestão de modelos, requerê-lo. Isto pode ser realizado usando um sistema de controle de versão (VCS)-com uma preferência da indústria para uma solução baseada em git.

Go with a Git-Based VCS

Using a git-based VCS with an appropriate branching strategy, you are able to immutably track the version of your ML models, and other artifacts in your data science development life cycle. Mas, a versão do Código, ao contrário de outras disciplinas de engenharia de software, é necessária, mas não suficiente.

questões adicionais devem ser consideradas:

  • versioning of data
  • versioning of models
  • modeling metadata storage
  • etc.

embora estas preocupações adicionais possam ser geridas, uma aplicação de baunilha não será suficiente a longo prazo e pode causar mais danos do que ajuda. Hashmap pode ajudá-lo a seguir este caminho e colocar em prática uma solução que melhor se adapta às suas necessidades empresariais únicas.

esta é parte da série de Ciência dos dados em evolução.

Sinta-se à vontade para compartilhar em outros canais e certifique-se e acompanhar todos os novos conteúdos do Hashmap aqui. Para ouvir em uma conversa casual sobre todas as coisas engenharia de dados e a nuvem, confira o HashMap podcast do Hashmap na Tap, bem como no Spotify, Apple, Google e outros aplicativos de streaming populares.

Se você gostou de ler isso, alguns de John outras histórias recentes estão abaixo:

João Aven, Ph. D., é o Diretor de Engenharia da Hashmap fornecimento de Dados, Cloud, IoT, e AI/ML de soluções e consultoria de experiência em indústrias com um grupo de inovadores tecnólogos e especialistas de domínio aceleração de alto valor resultados de negócio para os nossos clientes. Certifique-se e conecte-se com John on LinkedIn e procure obter mais perspectivas e insights sobre a aceleração dos seus resultados de negócios movidos a dados.

Deixe uma resposta

O seu endereço de email não será publicado.