RSS Планета Python

Реальный Python: Разделите свой набор данных с помощью scikit-learn's train_test_split()

Сверхнаблюдаемое машинное обучение требует разделения наборов данных для беспристрастной оценки и валидации. Разделение наборов данных на обучающие, валидационные и тестовые множества обеспечивает беспристрастную оценку модели. Функция train_test_split() из пакета model_selection библиотеки scikit-learn облегчает разделение данных. Случайное разделение минимизирует предвзятость и предоставляет свежие данные для оценки. Валидационные множества помогают в настройке гиперпараметров, а тестовые множества оценивают окончательную модель. Обучающие и тестовые множества достаточно, когда настройка гиперпараметров не требуется. Разделение данных помогает обнаруживать недообучение (плохое выполнение на обоих обучающих и тестовых множествах) и переобучение (хорошее выполнение на обучающих данных, но плохое на новых данных). Версия 1.5.0 пакета model_selection библиотеки scikit-learn включает функцию train_test_split(). Sklearn можно установить с помощью pip. Более подробную информацию и практические примеры можно найти в полном тексте статьи.
favicon
realpython.com
Real Python: Split Your Dataset With scikit-learn's train_test_split()
Create attached notes ...