#1 進化するデータサイエンスシリーズでは、

私は学歴から来ているので、データサイエンスの中でバージョン管理がどのように行われているかについて話すとき、私は経験から話します。 しかし、私のキャリアの中で、私はソフトウェアエンジニア、建築家、および技術革新のリーダーとしての私のスキルを磨いてきました。 これは私に物事がどのように行われているか、そしてどのようにより良く、より良く行うことができるかについてのユニークな視点を与えます。
データサイエンスは、学界からバージョン管理の実践を継承しました。 そして、このアプローチは、ほとんどの計算科学分野が長年にわたって行ってきたことです。 私は間違って取得しないでください、コンピュータサイエンスは、初期のデジタル時代にこのように行ってきました(多くの場合、これはまだ学界で流行しています)が、より高度な実践に移行しました。
偽のバージョニングを避ける
この練習は何ですか? これは、”スマートな”ファイル命名を通じて”バージョン管理”スキームを作成する方法です。 これらのスキームは、通常、次の種類のファイル
- _new、_old、_old_new、_new_1を生成します, …
- _1, _2, _1_1
私が偽のバージョニングと呼んでいるバージョニングへのこのアプローチは、病気であり、それは風土病です。 しかし、これらの慣行からの脱却は可能であり、モデル管理などの現代的な慣行がそれを必要とするようにすべきである。 これは、バージョン管理システム(VCS)を使用して達成することができます—gitベースのソリューションのための業界の好みで。
GitベースのVCSを使用する
適切な分岐戦略を持つgitベースのVCSを使用すると、MLモデルのバージョンやデータサイエンス開発ライフサイクルのその他の成果物を不変に追跡することができます。 しかし、他のソフトウェア工学分野とは異なり、コードのバージョン管理は必要ですが、十分ではありません。
追加の問題を考慮する必要があります:
- データのバージョニング
- モデルのバージョニング
- モデリングメタデータストレージ
- など
これらの追加の懸念は管理することができますが、バニラの実装では長期的には十分ではなく、助けよりも害を引き起こす可能性があります。 Hashmapは、この道をあなたを助け、あなたのユニークなビジネスニーズに最も適したソリューションを配置することができます。
これは進化するデータサイエンスシリーズの一部です。
他のチャンネルで共有し、hashmapのすべての新しいコンテンツに確実に追いつくこと自由に感じてください。 データエンジニアリングとクラウドに関するすべてのことについてのカジュアルな会話を聞くには、Hashmapのpodcast Hashmap on Tapをチェックしてください。
これを読んで楽しんだ場合、Johnの他の最近の話のいくつかは以下のとおりです。
John Aven、Ph.D.は、Hashmapのエンジニアリングディレクターであり、革新的な技術者とドメイン専門家のグループで、業界全体でデータ、クラウド、IoT、AI/MLソリューションとコンサルティングの専門知識を提供し、お客様の価値の高いビジネス成果を加速しています。 必ず、LinkedInの上でジョンと接続し、あなたのデータ駆動型のビジネス成果を加速するために、より多くの視点と洞察力のために手を差し伸べます。