Flux RSS Dropbox Tech Blog

Est-ce une date ? Utilisation de l'IA pour identifier les formats de date dans les noms de fichiers

Follow
L'article traite de la mise en œuvre par Dropbox d'un modèle d'apprentissage automatique conçu pour identifier les formats de date dans les noms de fichiers, améliorant l'organisation et la récupération des fichiers. La dénomination appropriée des fichiers est essentielle pour le travail d'équipe, et la fonctionnalité de nommage automatique des fichiers de Dropbox permet aux utilisateurs de définir des règles pour les noms de fichiers, garantissant la cohérence et l'efficacité. Initialement, Dropbox a tenté une approche basée sur des règles pour l'identification des dates, mais a rencontré des défis en raison de la variété des formats de date utilisés par les différents individus. Cela a conduit au développement d'un modèle d'apprentissage automatique qui reconnaît avec précision les dates dans les noms de fichiers. Le modèle a subi plusieurs étapes, y compris l'annotation des données, la tokenization et la classification, en utilisant des techniques telles que le marquage IOB (Inside-Outside-Beginning) pour étiqueter les composants de date. Le modèle d'apprentissage automatique, basé sur l'architecture transformer (en particulier DistilRoberta), a montré une amélioration significative par rapport au système basé sur des règles précédent, augmentant le nombre de fichiers renommés de 40%. Pour optimiser les performances, Dropbox a mis en œuvre des techniques telles que la taille du modèle et la quantification, réduisant avec succès la latence pendant l'inférence. Suite à son lancement en août 2022, la fonctionnalité a gagné en popularité, avec plus d'un million de fichiers renommés peu après le lancement. Les améliorations futures pourraient inclure l'extraction d'entités supplémentaires au-delà des dates, en exploitant des modèles avancés pour une précision encore plus grande dans les conventions de nommage des fichiers.
favicon
dropbox.tech
Is this a date? Using ML to identify date formats in file names
Create attached notes ...