Предобработка данных: Масштабирование числовых данных
Понимание масштабирования:
- Масштабирует числовые признаки, чтобы сделать их сравнимыми и улучшить производительность модели.
- Полезно для признаков с широким диапазоном, разными единицами измерения или значительными величинами.
Методы масштабирования:
Масштабирование Min-Max:
- Преобразует значения в фиксированный диапазон (например, 0-1), чтобы ограничить признаки или сохранить отношения.
Стандартное масштабирование:
- Центрирует данные вокруг среднего значения 0 и масштабирует до стандартного отклонения 1, чтобы стандартизировать признаки.
Робастное масштабирование:
- Использует медиану и межквартильный размах, чтобы обработать выбросы и сохранить порядок данных.
Логарифмическое преобразование:
- Сжимает большие значения, применяя логарифмическую функцию к правосторонне-асимметричным данным.
Преобразование Бокса-Кокса:
- Оптимизирует степенное преобразование, чтобы нормализовать распределение признаков.
Примеры применения:
- Масштабирование Min-Max использовалось для температуры с естественным диапазоном.
- Стандартное масштабирование использовалось для скорости ветра с нормальным распределением.
- Робастное масштабирование использовалось для влажности, чтобы смягчить влияние выбросов.
- Логарифмическое преобразование использовалось для счета гольфистов с правосторонне-асимметричным распределением.
- Преобразование Бокса-Кокса использовалось для скорости зеленого поля, чтобы приблизить нормальное распределение.
Заключение:
Масштабирование является важным шагом в подготовке числовых данных для машинного обучения. Выбирая подходящий метод масштабирования на основе характеристик данных, мы улучшаем точность и надежность модели.
towardsdatascience.com
Scaling Numerical Data, Explained: A Visual Guide with Code Examples for Beginners