この記事は、Dropboxがファイル名の日付形式を特定するための機械学習モデルを実装したことを話題にしています。このモデルは、ファイルの組織化と検索を向上させるものです。効果的なファイル命名は、チームワークのために非常に重要です。Dropboxの自動的な命名規則機能により、ユーザーはファイル名のルールを設定し、整合性と効率を確保することができます。
はじめ、Dropboxはルールベースのアプローチで日付の特定を試みましたが、異なる個人によって使用される日付形式の多様さに挑戦しました。このため、ファイル名内の日付を正確に認識する機械学習モデルが開発されました。このモデルは、データのアノテーション、トークン化、分類の複数の段階を経験し、Inside-Outside-Beginning (IOB) タギングなどの技術を使用して日付コンポーネントをラベル付けしました。
Transformerアーキテクチャー(特にDistilRoberta)に基づく機械学習モデルは、以前のルールベースのシステムよりも大きな改善を示し、名前変更されたファイルの数を40%増加させました。パフォーマンスの最適化のために、Dropboxはモデルプルーニングや量子化などの技術を実装し、推論時のレイテンシを減らすことに成功しました。
2022年8月のロールアウト後、機能は人気を博し、ローンチ直後には100万以上のファイルが名前変更されました。将来的には、日付以外のエンティティの抽出や、ファイル命名規則の精度向上のために高度なモデルを活用することが予想されます。
dropbox.tech
Is this a date? Using ML to identify date formats in file names
Create attached notes ...
