freeCodeCamp/guide/russian/machine-learning/dataset-splitting/index.md

3.4 KiB
Raw Blame History

title localeTitle
Dataset Splitting Разделение набора данных

Разделение набора данных

Разделение на тренировки, кросс-валидация и набор тестов являются общими передовыми методами. Это позволяет вам настраивать различные параметры алгоритма без принятия суждений, которые в точности соответствуют данным обучения.

мотивация

Dataset Splitting возникает как необходимость устранения смещения для обучения данных в алгоритмах ML. Изменение параметров алгоритма ML для наилучшего соответствия учебным данным обычно приводит к алгоритму переобучения, который плохо работает с фактическими данными теста. По этой причине мы разделили набор данных на несколько дискретных подмножеств, на которых мы обучаем разные параметры.

Учебный комплект

Набор Training используется для вычисления фактической модели, которую ваш алгоритм будет использовать при работе с новыми данными. Этот набор данных обычно составляет 60% -80% от всех доступных вами данных (в зависимости от того, используете ли вы набор кросс-валидации).

Набор для проверки креста

Множества Cross Validation предназначены для выбора модели (обычно ~ 20% ваших данных). Используйте этот набор данных, чтобы попробовать различные параметры для алгоритма, прошедшего обучение в наборе обучения. Например, вы можете оценить различные параметры модели (полиномиальная степень или лямбда, параметр регуляризации) в наборе кросс-проверки, чтобы увидеть, что может быть наиболее точным.

Набор тестов

Набор тестов - это последний набор данных, который вы касаетесь (обычно ~ 20% от ваших данных). Это источник истины. Ваша точность в предсказании набора тестов - это точность вашего алгоритма ML.

Дополнительная информация: