Векторная модель представления знаний на основе семантической близости термов

Дмитрий Вадимович Бондарчук

Аннотация


Большинство методов интеллектуального анализа текстов используют векторную модель представления знаний. Векторная модель использует частоту (вес) терма, чтобы определить его важность в документе. Термы могут быть схожи семантически, но отличаться лексикографически, что, в свою очередь, приведет к тому, что классификация, основанная на частоте термов, не даст нужного результата. Причиной ошибок является отсутствие учета таких особенностей естественного языка, как синонимия и полисемия. Неучет этих особенностей, а именно синонимии и полисемии, увеличивает размерность семантического пространства, от которой зависит быстродействие конечного программного продукта, разработанного на основе алгоритма. Кроме того, результаты работы многих алгоритмов сложно воспринимаются экспертом предметной области, который подготавливает обучающую выборку, что, в свою очередь, также сказывается на качестве выдачи алгоритма. В работе предлагается модель, которая помимо веса терма в документе, так же использует «семантический вес терма». «Семантический вес термов» тем выше, чем они семантически ближе друг к другу. Для вычисления семантической близости термов будем использовать адаптацию расширенного алгоритма Леска. Метод расчета семантической близости состоит в том, что для каждого значения рассматриваемого слова подсчитывается число слов упомянутых как в словарном определении данного значения (предполагается, что словарное определение содержит описание нескольких значений слова), так и в ближайшем контексте рассматриваемого слова. В качестве наиболее вероятного значения слова выбирается то, для которого такое пересечение оказалось больше. Векторная модель с учетом семантической близости термов решает проблему неоднозначности синонимов.

Ключевые слова


интеллектуальный анализ данных;векторная модель представления знаний;семантическая близость;классификация;data-mining

Полный текст:

PDF

Литература


Budanitsky A., Hirst G. Evaluating WordNet-based Measures of Lexical Semantic Relatedness. Computational Linguistics. 2006. vol. 32. pp. 13–47.

Hotho A., Staab S., Stumme G. WordNet Improve Text Document Clustering. SIGIR 2003 Semantic Web Workshop (Toronto, Canada, July 28 – August 1, 2003). pp. 541–544. DOI: 10.1145/959258.959263.

Sedding J., Dimitar K. WordNet-based Text Document Clustering. COLING 2004 3rd Workshop on Robust Methods in Analysis of Natural Language Data (Geneva, Switzerland, August 23 – 27, 2004). pp. 104–113. DOI: 10.3115/1220355.1220356.

Lesk M. Automatic Sense Disambiguation Using Machine Readable Dictionaries: How to Tell a Pine Cone from an Ice Cream Cone. SIGDOC ’86: Proceedings of the 5th Annual International Conference on Systems Documentation (Toronto, Canada, June 8 – 11, 1986). pp. 24–26. DOI: 10.1145/318723.318728.

Loupy C., El-Beze M., Marteau P.F. Word Sense Disambiguation Using HMM Tagger. Proceedings of the 1st International Conference on Language Resources and Evaluation (Toronto, Canada, June 8 – 11, 1998). pp. 1255–1258. DOI: 10.3115/974235.974260.

Jeh G., Widom J. SimRank: a Measure of Structural-context Similarity. Proceedings of the 8th Association for Computing Machinery’s Special Interest Group on Knowledge Discovery and Data Mining international conference on Knowledge discovery and data mining (Edmonton, Canada, July 23 – 25, 2002). pp. 271–279. DOI: 10.1145/775047.775049.

Kechedzhy K.E., Usatenko O., Yampolskii V.A. Rank Distributions of Words in Additive Many-step Markov Chains and the Zipf law. Physical Reviews E: Statistical, Nonlinear, Biological, and Soft Matter Physics. 2005. vol. 72. pp. 381–386.

Mihalcea R. Using Wikipedia for Automatic Word Sense Disambiguation. Proceedings of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (New York, USA, Apri; 22 – 27, 2007). pp. 196–203.

Willett P. The Porter Stemming Algorithm: Then and Now. Program: Electronic Library and Information Systems. 2006. Vol. 4., No. 3. P. 219–223.

Bondarchuk D.V. Choosing the Best Method of Data Mining for the Selection of Vacancies. Informacionnye Tehnologii Modelirovanija i Upravlenija [Information Technology Modeling and Management]. 2013. no. 6(84). pp. 504–513. (in Russian)

Salton G. Improving Retrieval Performance by Relevance Feedback. Readings in Information Retrieval. 1997. Vol. 24. pp. 1–5.

Tan P. N., Steinbach M., Kumar V. Top 10 Algorithms in Data Mining. Knowledge and Information Systems. 2008. vol. 14. no. 1. pp. 1–37. DOI: 10.1007/s10115-007-0114-2.

Banerjee S., Pedersen T. An Adapted Lesk Algorithm for Word Sense Disambiguation Using WordNet. Lecture Notes In Computer Science. 2002. vol. 2276. pp. 136–145.

Tezaurus WordNET [Thesaurus WordNET]. Available at: https://wordnet.princeton.edu/ (accessed: 05.02.2017).

Bondarchuk D.V. Intelligent Method of Selection of Personal Recommendations, Guarantees a Non-empty Result. Informacionnye Tehnologii Modelirovanija i Upravlenija [Information Technology Modeling and Management]. 2015. no. 2(92). pp. 130–138. (in Russian)




DOI: http://dx.doi.org/10.14529/cmse170305