Команда Feature Systems Etsy столкнулась с потенциальной проблемой при использовании временных меток в моделях машинного обучения из-за неправильного толкования точности между разными фреймворками.
Проблема возникла из-за типа данных временной метки, который интерпретировался по-разному разными фреймворками, что привело к возможному смещению между обучением и использованием модели.
Чтобы решить эту проблему, практики машинного обучения рекомендовали отказаться от типа временной метки и использовать более основной числовой тип, такой как Longs.
Команда исследовала корень проблемы и обнаружила, что она выходит за рамки конкретных ошибок и подчеркивает более широкую проблему для практиков машинного обучения в работе с временными метками.
Команда поняла, что сложность объектов datetime и типов временных меток была избыточна для их случая, поскольку им требовались только целочисленные представления с определенной точностью.
На встрече архитектурной рабочей группы было достигнуто согласие по поводу представления временных меток как примитивных числовых типов, чтобы обеспечить согласованность между обучением и использованием модели.
Команда также решила стандартизировать на примитивных типах в целом, чтобы способствовать согласованности во всех контекстах обучения.
Команда также признала необходимость в улучшении документации, чтобы упростить преобразование функций для клиентов.
Инцидент подчеркнул потенциальные вызовы в применении практик программной инженерии к специфическим потребностям машинного обучения.
Поскольку машинное обучение будет все больше интегрироваться в системы программного обеспечения, такие оттенки, вероятно, станут более частыми и потребуют дальнейшего уточнения лучших практик.
etsy.com
The Problem with Timeseries Data in Machine Learning Feature Systems
Create attached notes ...
