EtsyのFeature Systemsチームは、マシンラーニングモデルでタイムスタンプ機能を使用する際に、フレームワーク間での精度誤解釈が問題を引き起こす可能性があることに気づいた。
この問題は、タイムスタンプデータ型が異なるフレームワークで異なる解釈を受けるため、トレーニング/サービングスキューが生じる可能性があった。
これに対処するために、MLの実践者は、タイムスタンプ型を避け、より基本的な数値型、例えばLongsを使用することを推奨した。
チームは、根本的な原因を調査し、特定のバグを超える問題がMLの実践者がタイムスタンプ機能を扱う上での大きな問題を明らかにした。
チームは、datetimeオブジェクトとタイムスタンプ型の複雑さが、特定の精度での整数表現が必要な彼らのユースケースにとって不要であることに気づいた。
アーキテクチャーウォーキンググループ会議で、datetime機能をプリミティブな数値型として表現することで、モデルトレーニングと推論の間での一貫性を確保することに同意があった。
チームは、すべてのトレーニングコンテキストでの一貫性を促進するために、プリミティブ型を一般的に標準化することに決めた。
チームは、顧客が機能変換を簡単にするための改善されたドキュメントの必要性も認識した。
この事件は、ソフトウェアエンジニアリングの慣行をMLの特定のニーズに適用する潜在的な挑戦を明らかにした。
MLがソフトウェアシステムに統合されるにつれて、こうしたニュアンスはより一般的になり、ベストプラクティスのさらなる改善が必要になると考えられる。
etsy.com
The Problem with Timeseries Data in Machine Learning Feature Systems
Create attached notes ...
