RSS Dropbox 기술 블로그

이것이 날짜인가? 파일 이름에서 날짜 형식 확인을 위해 ML 사용

Follow
드롭박스의 기사에서는 파일 이름에 있는 날짜 형식을 식별하기 위한 기계 학습 모델의 구현에 대해 논의합니다. 이 모델은 파일의 조직화와 검색을 강화합니다. 효과적인 파일 이름 지정은 팀워크에 필수적이며, 드롭박스의 자동화된 이름 지정 규칙 기능을 사용하면 사용자가 파일 이름에 대한 규칙을 설정하여 일관성과 효율성을 보장할 수 있습니다. 초기에는 드롭박스는 날짜 식별을 위해 규칙 기반 접근 방식을 시도했지만 다양한 날짜 형식을 사용하는 개인들로 인해 어려움을 겪었습니다. 이로 인해 파일 이름 내의 날짜를 정확하게 인식하는 기계 학습 모델이 개발되었습니다. 모델은 데이터 주석, 토큰화 및 분류를 포함한 여러 단계를 거쳤으며, 날짜 구성 요소를 레이블링하기 위해 Inside-Outside-Beginning (IOB) 태깅과 같은 기술을 사용했습니다. 트랜스포머 아키텍처(특히 DistilRoberta)에 기반한 기계 학습 모델은 이전의 규칙 기반 시스템보다 상당한 개선을 보여주었으며, 이름이 바뀐 파일의 수를 40% 증가시켰습니다. 성능을 최적화하기 위해 드롭박스는 모델 가지치기 및 양자화와 같은 기술을 구현하여 추론 중에 지연 시간을 성공적으로 줄였습니다. 2022년 8월에 출시된 후, 이 기능은 인기를 얻었으며 출시 직후 100만 개 이상의 파일이 이름이 바뀌었습니다. 향후 개선 사항에는 날짜 이외의 추가 엔티티 추출이 포함될 수 있으며, 파일 이름 지정 규칙에 대한 더 높은 정확성을 위해 고급 모델을 사용할 수 있습니다.
favicon
dropbox.tech
Is this a date? Using ML to identify date formats in file names
Create attached notes ...