RSS Dropbox Tech Blog

Это дата? Используя ML для определения форматов дат в именах файлов

Follow
Статья обсуждает реализацию Dropbox модели машинного обучения, предназначенной для выявления форматов дат в именах файлов, что улучшает организацию и поиск файлов. Эффективное именование файлов является ключевым для командной работы, и функция автоматического именования файлов Dropbox позволяет пользователям устанавливать правила для имен файлов, обеспечивая единообразие и эффективность. Сначала Dropbox попробовал подход, основанный на правилах, для идентификации дат, но столкнулся с трудностями из-за разнообразия форматов дат, используемых разными людьми. Это привело к разработке модели машинного обучения, которая точно распознает даты в именах файлов. Модель прошла несколько этапов, включая аннотацию данных, токенизацию и классификацию, используя техники, такие как тегирование IOB (Inside-Outside-Beginning), чтобы маркировать компоненты дат. Модель машинного обучения, основанная на архитектуре трансформера (именно DistilRoberta), показала значительное улучшение по сравнению с предыдущей системой, основанной на правилах, увеличив количество переименованных файлов на 40%. Чтобы оптимизировать производительность, Dropbox реализовал техники, такие как обрезка модели и квантование, успешно уменьшив задержку во время вывода. После запуска в августе 2022 года функция стала популярной, и более миллиона файлов были переименованы вскоре после запуска. В будущем могут быть добавлены улучшения, включая извлечение дополнительных сущностей помимо дат, использование болееadvanced моделей для еще большей точности в именах файлов.
favicon
dropbox.tech
Is this a date? Using ML to identify date formats in file names
Create attached notes ...