Проблемы формирования обучающей выборки в задачах машинного обучения
Аннотация
Правильное формирование обучающей выборки часто имеет решающее значение в задачах машинного обучения, что признаётся большинством специалистов в данной области. Зачастую решение задач машинного обучения сводится к грамотному формированию обучающей выборки. Несмотря на это, в современной литературе по машинному обучению вопросам формирования обучающей выборки почти не уделяется внимание, теоретическая база практически отсутствует. В настоящей статье постараемся исправить данный недостаток. В статье исследуются возможные проблемы и ошибки при формировании обучающей выборки, обобщается опыт авторов в решении задач машинного обучения, предлагаются теоретические модели для описания явлений, связанных с формированием множества обучающих данных, приводятся методы улучшения обучающей выборки. Даются практические рекомендации на основе разработанных теоретических моделей. В конце статьи представлены результаты экспериментов, демонстрирующие некоторые из проблем формирования обучающей выборки и методы их решения на примере задачи обучения деревьев решений.
Ключевые слова
Полный текст:
PDFЛитература
Воронцов, К. Математические методы обучения по прецедентам (теория обучения машин) / К. Воронцов – http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf.
Labeled Faces in the Wild. – http://vis-www.cs.umass.edu/lfw/.
The Facial Recognition Technology (FERET) Database. – http://www.itl.nist.gov/iad/humanid/feret/feret_master.html.
Мангалова, Е. Прогнозирование мощности ветряных электростанций на основе непараметрического алгоритма k ближайших соседей / Е. Мангалова, И. Петрунькина // Доклады всероссийской научной конференции АИСТ’2013. – 2013 – С. 1–8.
Canavet, O. Efficient sample mining for object detection. / O. Canavet, F. Fleuret // Proceedings of the Asian Conference on Machine Learning (ACML). – 2014 – P. 48–63.
Dropout: A simple way to prevent neural networks from overfitting / N. Srivastava, G.E. Hinton, A. Krizhevsky et al. // The Journal of Machine Learning Research. – 2014 – Vol. 15, no. 1. – P. 1929–1958.
Amazon Mechanical Turk. – https://www.mturk.com/mturk/welcome.
DOI: http://dx.doi.org/10.14529/ctcr160302
Ссылки
- На текущий момент ссылки отсутствуют.