Cемантический поиск учебных дисциплин под требования рынка труда на основе нейросетевых моделей языка

Дмитрий Сергеевич Ботов, Юрий Владиславович Дмитрин, Юлий Дмитриевич Кленин

Аннотация


В условиях роста объема открытого образовательного контента, повышения требований к профессиональному образованию со стороны рынка труда, развития концепции обучения в течение всей жизни (Lifelong Learning) сегодня крайне актуальной является задача регулярного обновления содержания образовательных программ и отдельных дисциплин. В статье рассматривается метод семантического поиска образовательного контента под заданные требования рынка труда, определяемые профессиональными стандартами. В отличие от традиционных подходов сопоставления и анализа содержания образовательных программ, основанных на онтологических моделях и правилах, предлагается использовать подход к распределенному представлению слов (word embeddings) с помощью известных нейросетевых моделей языка word2vec и fastText. В качестве исходных запросов выступают фрагменты профессиональных стандартов – конкретные требования к знаниям, умениям и описания трудовых действий и трудовых функций, а в качестве искомых документов – описания учебных дисциплин и онлайн-курсов, включающие аннотацию, результаты обучения, структуру и содержание основных тем. Приводятся данные экспертной оценки качества ранжирования по метрике NDCG (Normalized Discounted Cumulative Gain) и точности семантического поиска по метрике MAP (Mean Average Precision) на представительном корпусе программ учебных дисциплин вузов по ИТ-направлениям и массовых открытых онлайн-курсов. Лучшие результаты для поиска показывают модели word2vec и fastText, обучаемые без учителя на больших специально подготовленных корпусах текстов программ учебных дисциплин и описаний онлайн-курсов. Для перехода от векторов слов к векторам текстов исследуются разные способы усреднения векторов слов, полученных от нейросетевых моделей, в сочетании с векторной моделью TF-IDF.


Ключевые слова


семантический поиск; семантическая близость; дистрибутивная семантика; word2vec; fastText; учебная дисциплина; массовые открытые онлайн-курсы; рынок труда

Полный текст:

PDF

Литература


Федеральный закон от 29 декабря 2012 г. N 273-ФЗ «Об образовании в Российской Федерации. – http://ivo.garant.ru/#/document/70291362/ (дата обращения: 26 декабря 2018).

Федеральный закон от 3 июля 2016 г. N 238-ФЗ «О независимой оценке квалификации». – http://ivo.garant.ru/#/document/71433946/ (дата обращения: 26 декабря 2018).

Сметанина, О.Н. Методологические основы управления образовательным маршрутом с использованием интеллектуальной информационной поддержки / О.Н. Сметанина. – УГАТУ, 2012. 446 с.

Лисицына, Л.С. Автоматизация управления образовательными траекториями для разработки модульных компетентностно-ориентированных образовательных программ вуза / Л.С. Лисицына, А.С. Пирская // Сборник трудов Всероссийской научно-практической конференции с международным участием «Информационные технологии в обеспечении нового качества высшего образования». – М., 2010. – С. 75–86.

Черникова, Е.А. Формализация и сравнение учебных программ на основе онтологического подхода / Е.А. Черникова, А.С. Черников // Вестник МГТУ им. Н.Э. Баумана. Сер. «Приборостроение». Спецвыпуск «Информационные технологии и компьютерные системы». – 2011. – С. 101–104.

Мониторинг соответствия профессионального образования потребностям рынка труда / С.Д. Валентей, П.В. Зрелов, В.В. Кореньков и др. // Общественные науки и современность. – 2018. – № 3. – С. 5–16.

Efficient estimation of word representations in vector space / T. Mikolov, K. Chen, G. Corrado, J. Dean. – arXiv preprint arXiv:1301.3781, 2013.

Architecture of a concept-based information retrieval system for educational resources / R. Pérez-Rodríguez, L. Anido-Rifón, M. Gómez-Carballa, M. Mouriño-García // Science of Computer Programming. – 2016, no. 129. – P. 72–91. DOI: 10.1016/j.scico.2016.05.005

Klenin, J. Comparison of Vector Space Representations of Documents for the Task of Information Retrieval of Massive Open Online Courses / J. Klenin, D. Botov, Y. Dmitrin // Proceedings Conference on Artificial Intelligence and Natural Language. – Cham: Springer, 2017. – P. 156–164. DOI: 10.1007/978-3-319-71746-3_14

Improving document ranking with dual word embeddings / E. Nalisnick, B. Mitra, N. Craswell, R. Caruana // Proceedings of the 25th International Conference Companion on World Wide Web. – International World Wide Web Conferences Steering Committee, 2016. – P. 83–84. DOI: 10.1145/2872518.2889361

Lilleberg, J. Support vector machines and word2vec for text classification with semantic features / J. Lilleberg, Y. Zhu, Y. Zhang // Proceedings of International Conference on Cognitive Informatics & Cognitive Computing (ICCI* CC), 2015 IEEE 14th. – 2015. – P. 136–140. DOI: 10.1109/ICCI-CC.2015.7259377

Le, Q. Distributed representations of sentences and documents / Q. Le, T. Mikolov // Proceedings of International Conference on Machine Learning. – 2014. – P. 1188–1196.

Enriching word vectors with subword information / P. Bojanowski, E. Grave, A. Joulin, T. Mikolov. – arXiv preprint arXiv:1607.04606, 2016. DOI: 10.1162/tacl_a_00051




DOI: http://dx.doi.org/10.14529/ctcr190201

Ссылки

  • На текущий момент ссылки отсутствуют.