Проблемы формирования обучающей выборки в задачах машинного обучения

Игорь Леопольдович Кафтанников, Андрей Викторович Парасич

Аннотация


Правильное формирование обучающей выборки часто имеет решающее значение в задачах машинного обучения, что признаётся большинством специалистов в данной области. Зачастую решение задач машинного обучения сводится к грамотному формированию обучающей выборки. Несмотря на это, в современной литературе по машинному обучению вопросам формирования обучающей выборки почти не уделяется внимание, теоретическая база практически отсутствует. В настоящей статье постараемся исправить данный недостаток. В статье исследуются возможные проблемы и ошибки при формировании обучающей выборки, обобщается опыт авторов в решении задач машинного обучения, предлагаются теоретические модели для описания явлений, связанных с формированием множества обучающих данных, приводятся методы улучшения обучающей выборки. Даются практические рекомендации на основе разработанных теоретических моделей. В конце статьи представлены результаты экспериментов, демонстрирующие некоторые из проблем формирования обучающей выборки и методы их решения на примере задачи обучения деревьев решений.


Ключевые слова


машинное обучение; глубокие нейронные сети; деревья решений; обучающая выборка

Полный текст:

PDF

Литература


Воронцов, К. Математические методы обучения по прецедентам (теория обучения машин) / К. Воронцов – http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf.

Labeled Faces in the Wild. – http://vis-www.cs.umass.edu/lfw/.

The Facial Recognition Technology (FERET) Database. – http://www.itl.nist.gov/iad/humanid/feret/feret_master.html.

Мангалова, Е. Прогнозирование мощности ветряных электростанций на основе непараметрического алгоритма k ближайших соседей / Е. Мангалова, И. Петрунькина // Доклады всероссийской научной конференции АИСТ’2013. – 2013 – С. 1–8.

Canavet, O. Efficient sample mining for object detection. / O. Canavet, F. Fleuret // Proceedings of the Asian Conference on Machine Learning (ACML). – 2014 – P. 48–63.

Dropout: A simple way to prevent neural networks from overfitting / N. Srivastava, G.E. Hinton, A. Krizhevsky et al. // The Journal of Machine Learning Research. – 2014 – Vol. 15, no. 1. – P. 1929–1958.

Amazon Mechanical Turk. – https://www.mturk.com/mturk/welcome.




DOI: http://dx.doi.org/10.14529/ctcr160302

Ссылки

  • На текущий момент ссылки отсутствуют.