Cемантический поиск учебных дисциплин под требования рынка труда на основе нейросетевых моделей языка

Дмитрий Сергеевич Ботов
Челябинский государственный университет

Юрий Владиславович Дмитрин
Челябинский государственный университет

Юлий Дмитриевич Кленин
Челябинский государственный университет


Аннотация


В условиях роста объема открытого образовательного контента, повышения требований к профессиональному образованию со стороны рынка труда, развития концепции обучения в течение всей жизни (Lifelong Learning) сегодня крайне актуальной является задача регулярного обновления содержания образовательных программ и отдельных дисциплин. В статье рассматривается метод семантического поиска образовательного контента под заданные требования рынка труда, определяемые профессиональными стандартами. В отличие от традиционных подходов сопоставления и анализа содержания образовательных программ, основанных на онтологических моделях и правилах, предлагается использовать подход к распределенному представлению слов (word embeddings) с помощью известных нейросетевых моделей языка word2vec и fastText. В качестве исходных запросов выступают фрагменты профессиональных стандартов – конкретные требования к знаниям, умениям и описания трудовых действий и трудовых функций, а в качестве искомых документов – описания учебных дисциплин и онлайн-курсов, включающие аннотацию, результаты обучения, структуру и содержание основных тем. Приводятся данные экспертной оценки качества ранжирования по метрике NDCG (Normalized Discounted Cumulative Gain) и точности семантического поиска по метрике MAP (Mean Average Precision) на представительном корпусе программ учебных дисциплин вузов по ИТ-направлениям и массовых открытых онлайн-курсов. Лучшие результаты для поиска показывают модели word2vec и fastText, обучаемые без учителя на больших специально подготовленных корпусах текстов программ учебных дисциплин и описаний онлайн-курсов. Для перехода от векторов слов к векторам текстов исследуются разные способы усреднения векторов слов, полученных от нейросетевых моделей, в сочетании с векторной моделью TF-IDF.


Ключевые слова


семантический поиск; семантическая близость; дистрибутивная семантика; word2vec; fastText; учебная дисциплина; массовые открытые онлайн-курсы; рынок труда

Полный текст:

PDF

Литература


Федеральный закон от 29 декабря 2012 г. N 273-ФЗ «Об образовании в Российской Федерации. – http://ivo.garant.ru/#/document/70291362/ (дата обращения: 26 декабря 2018).

Федеральный закон от 3 июля 2016 г. N 238-ФЗ «О независимой оценке квалификации». – http://ivo.garant.ru/#/document/71433946/ (дата обращения: 26 декабря 2018).

Сметанина, О.Н. Методологические основы управления образовательным маршрутом с использованием интеллектуальной информационной поддержки / О.Н. Сметанина. – УГАТУ, 2012. 446 с.

Лисицына, Л.С. Автоматизация управления образовательными траекториями для разработки модульных компетентностно-ориентированных образовательных программ вуза / Л.С. Лисицына, А.С. Пирская // Сборник трудов Всероссийской научно-практической конференции с международным участием «Информационные технологии в обеспечении нового качества высшего образования». – М., 2010. – С. 75–86.

Черникова, Е.А. Формализация и сравнение учебных программ на основе онтологического подхода / Е.А. Черникова, А.С. Черников // Вестник МГТУ им. Н.Э. Баумана. Сер. «Приборостроение». Спецвыпуск «Информационные технологии и компьютерные системы». – 2011. – С. 101–104.

Мониторинг соответствия профессионального образования потребностям рынка труда / С.Д. Валентей, П.В. Зрелов, В.В. Кореньков и др. // Общественные науки и современность. – 2018. – № 3. – С. 5–16.

Efficient estimation of word representations in vector space / T. Mikolov, K. Chen, G. Corrado, J. Dean. – arXiv preprint arXiv:1301.3781, 2013.

Architecture of a concept-based information retrieval system for educational resources / R. Pérez-Rodríguez, L. Anido-Rifón, M. Gómez-Carballa, M. Mouriño-García // Science of Computer Programming. – 2016, no. 129. – P. 72–91. DOI: 10.1016/j.scico.2016.05.005

Klenin, J. Comparison of Vector Space Representations of Documents for the Task of Information Retrieval of Massive Open Online Courses / J. Klenin, D. Botov, Y. Dmitrin // Proceedings Conference on Artificial Intelligence and Natural Language. – Cham: Springer, 2017. – P. 156–164. DOI: 10.1007/978-3-319-71746-3_14

Improving document ranking with dual word embeddings / E. Nalisnick, B. Mitra, N. Craswell, R. Caruana // Proceedings of the 25th International Conference Companion on World Wide Web. – International World Wide Web Conferences Steering Committee, 2016. – P. 83–84. DOI: 10.1145/2872518.2889361

Lilleberg, J. Support vector machines and word2vec for text classification with semantic features / J. Lilleberg, Y. Zhu, Y. Zhang // Proceedings of International Conference on Cognitive Informatics & Cognitive Computing (ICCI* CC), 2015 IEEE 14th. – 2015. – P. 136–140. DOI: 10.1109/ICCI-CC.2015.7259377

Le, Q. Distributed representations of sentences and documents / Q. Le, T. Mikolov // Proceedings of International Conference on Machine Learning. – 2014. – P. 1188–1196.

Enriching word vectors with subword information / P. Bojanowski, E. Grave, A. Joulin, T. Mikolov. – arXiv preprint arXiv:1607.04606, 2016. DOI: 10.1162/tacl_a_00051




DOI: http://dx.doi.org/10.14529/ctcr190201

Ссылки

  • На текущий момент ссылки отсутствуют.