ПЕРЕОБУЧЕНИЕ В МАШИННОМ ОБУЧЕНИИ: ПРОБЛЕМЫ И РЕШЕНИЯ
Аннотация
Переобучение является одним из важнейших факторов, влияющих на качество работы алгоритмов машинного обучения. При решении задач машинного обучения важно уметь эффективно решать проблему переобучения. Цель исследования. Цель данной статьи – изучить проблему переобучения в задачах машинного обучения. В статье рассматриваются эффективные приёмы обучения, направленные на предотвращение переобучения. Материалы и методы. Основное внимание в статье уделяется различным важным с практической точки зрения нестандартным вопросам, связанным с переобучением. Рассматриваются различные причины переобучения, его последствия и методы борьбы с переобучением. Изучается зависимость переобучения и обобщающей способности от качества признаков и свойств обучающей выборки. Особое внимание уделяется особенностям обучения и формирования обучающей выборки в многомерных пространствах признаков. Рассматривается вопрос правильного формирования обучающей выборки и правильного добавления данных в обучающую выборку с точки зрения предотвращения переобучения, а также влияние неправильного распределения целевой переменной на переобучение. Объясняется, почему методы добавления в обучающую выборку некорректных данных, такие как MixUp и CutMix, могут повысить качество обучения. Рассматривается проблема уверенности алгоритма в своих предсказаниях, а также проблема overconfidence алгоритма в неправильных предсказаниях, характерная в том числе для ChatGPT. Рассматривается проблема оценки качества работы алгоритма. Показано, почему нормализация может помочь избежать переобучения. Результаты. Предложен алгоритм обучения деревьев решений Random Samples Mix-Up, предназначенный для борьбы с переобучением, который позволяет улучшить качество обучения деревьев решений. Проводится сравнительный анализ качества моделей до и после применения данного метода борьбы с переобучением. Эксперименты на реальных данных подтверждают эффективность данного метода. Заключение. Результаты исследования могут быть полезны при разработке новых алгоритмов машинного обучения и повышении эффективности существующих. Результаты исследования могут быть полезны для разработчиков алгоритмов машинного обучения и специалистов в области искусственного интеллекта.
Ключевые слова
машинное обучение, переобучение, глубокое обучение, деревья решений, обучение метрик, обучающая выборка
Полный текст:
PDFDOI: http://dx.doi.org/10.14529/ctcr240202
Ссылки
- На текущий момент ссылки отсутствуют.