RSS Etsy Engineering | 코드는 예술입니다.

기계 학습 특성 시스템에서 시계열 데이터의 문제점

Follow
에스티(Etsy)의 기능 시스템 팀은 기계 학습 모델에서 타임스탬프 기능을 사용할 때 정밀도 오해로 인해 잠재적인 문제를 발견했습니다. 이 문제는 타임스탬프 데이터 유형에서 비롯되었으며, 다른 프레임워크에서 다르게 해석되어 잠재적인 훈련/서비스 왜곡을 초래했습니다. 이를 해결하기 위해 ML 전문가들은 타임스탬프 유형을 피하고 더 기본적인 숫자 유형, 즉 Longs를 사용하는 것을 권장했습니다. 팀은 근본 원인을 조사하여 문제가 특정 버그를 넘어서 더 큰 문제를 나타내며, ML 전문가들이 타임스탬프 기능을 다루는 데 어려움을 겪고 있음을 발견했습니다. 팀은 datetime 객체와 타임스탬프 유형의 복잡성이 특정 정밀도로 정수 표현만 필요로 하는 자신의 사용 사례에 불필요하다는 것을 깨달았습니다. 아키텍처 워킹 그룹 회의에서, 모델 훈련과 추론 간 일관성을 보장하기 위해 datetime 기능을 원시 숫자 유형으로 표현하는 데 동의했습니다. 팀은 모든 훈련 컨텍스트에서 일관성을 촉진하기 위해 더 일반적으로 원시 유형을 표준화하기로 결정했습니다. 팀은 또한 고객이 기능 변환을 단순화하기 위해 문서화 개선을 필요로 한다는 것을 인식했습니다. 이 사건은 소프트웨어 엔지니어링 관행을 ML 특정 요구 사항에 적용하는 데 잠재적인 도전을 강조했습니다. ML이 소프트웨어 시스템에 통합됨에 따라 이러한 종류의 세부 사항은 더 일반적이 될 것이며, 최선의 관행을 더욱 정교화할 필요가 있을 것입니다. 에스티 팀의 경험은 ML 모델에서 타임스탬프 기능을 사용할 때 주의해야 할 사항을 보여주며, 일관성과 정확성을 보장하기 위해 원시 숫자 유형을 사용하는 것이 중요하다는 것을 강조합니다.
favicon
etsy.com
The Problem with Timeseries Data in Machine Learning Feature Systems