Сверхнаблюдаемое машинное обучение требует разделения наборов данных для беспристрастной оценки и валидации.
Разделение наборов данных на обучающие, валидационные и тестовые множества обеспечивает беспристрастную оценку модели.
Функция train_test_split() из пакета model_selection библиотеки scikit-learn облегчает разделение данных.
Случайное разделение минимизирует предвзятость и предоставляет свежие данные для оценки.
Валидационные множества помогают в настройке гиперпараметров, а тестовые множества оценивают окончательную модель.
Обучающие и тестовые множества достаточно, когда настройка гиперпараметров не требуется.
Разделение данных помогает обнаруживать недообучение (плохое выполнение на обоих обучающих и тестовых множествах) и переобучение (хорошее выполнение на обучающих данных, но плохое на новых данных).
Версия 1.5.0 пакета model_selection библиотеки scikit-learn включает функцию train_test_split().
Sklearn можно установить с помощью pip.
Более подробную информацию и практические примеры можно найти в полном тексте статьи.
realpython.com
Real Python: Split Your Dataset With scikit-learn's train_test_split()
Create attached notes ...
