МЕТОДЫ И МОДЕЛИ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ КЛЮЧЕВЫХ СЛОВ

Светлана Олеговна Шереметьева, Павел Григорьевич Осминин

Аннотация


Дается обзор и классификация основных методов автоматического извлечения ключевых
слов из текстовых документов, среди которых выделяются статистические и гибридные с ис-
пользованием корпуса текстов или на основе отдельного документа. Анализируются пре-
имущества и недостатки каждого из подходов. Отмечается проблематичность применения
статистических методик для флективных языков, таких как русский. Формулируются требо-
вания к эффективной модели извлечения ключевых слов из текстов на русском языке и дают-
ся конкретные рекомендации для их достижения. Подчеркивается, что для создания эффек-
тивных экстракторов ключевых слов следует учитывать лингвистические типы естественных
языков (аналитический, флективный, агглютинативный, изолирующий), предметную область
(подъязык) и наличие необходимых лингвистических и программных ресурсов. Подход ил-
люстрируется на примере автоматического экстрактора ключевых слов Lana-Key-RU из рус-
скоязычных статей по математическому моделированию.


Ключевые слова


автоматическое извлечение, ключевые слова, русский язык.

Полный текст:

PDF

Литература


Гринева М., Гринев М. Анализ текстовых

документов для извлечения тематически сгруппи-

рованных ключевых терминов. Труды ИСП РАН.

Т. 16. С. 155–165. [Grineva M. Analiz tekstovykh

dokumentov dlya izvlecheniya tematicheski

sgruppirovannykh klyuchevykh terminov(Analysis of

Text Documents for Extraction of the Thematically

Grouped Keyterms). Trudy ISP RAN (Proceeding of

ISP RAS). 2009, vol. 16, pp. 155–165.]

Алексеев П.М., Герман-Прозорова Л.П.,

Пиотровский Р.Г., Шепетова О.П. Основы стати-

стической оптимизации преподавания иностранных

языков. Статистика речи и автоматический анализ

текста. Л., 1974. С. 195–234. [Alekseev P.M., German-

Prozorova L.P., Piotrovskii R.G., Shepetova O.P.

Osnovy statisticheskoy optimizatsii prepodavaniya inostrannykh

yazykov (Basics of the Statistical Optimization

of Foreign Languages Teaching). Statistika rechi i

avtomaticheskiy analiz teksta (Statistics of Speech and

Automatic Analysis of the Text). Leningrad, 1974,

pp. 195–234.]

Пиотровский Р.Г., Бектаев К.Б., Пиотров-

ская А.А. Математическая лингвистика: учеб. по-

собие для пед. институтов. М.: Высшая школа,

383 с. [Piotrovskiy R.G.., Bektaev K.B., Piotrovskaya

A.A. Matematicheskaya lingvistika. (Mathematical

Linguistics). Moscow, Vysshaya shkola,

, 383 p.]

Усталов Д. Извлечение терминов из рус-

скоязычных текстов при помощи графовых моде-

лей. http://koost.eveel.ru/science/ CSEDays2012. pdf

(дата обращения: 30.11.2014). [Ustalov D. Izvlechenie

terminov iz russkoyazychnykh tekstov pri pomoshchi

grafovykh modeley (Term Extraction by Means of

Graph Model from Russian texts). Available at:

http://koost.eveel.ru/science/CSEDays2012.pdf (accessed:

11.2014)]

Liu Z., Huang W., Zheng Y., Sun M. Automatic

keyphrase extraction via topic decomposition.

Proceedings of the 2010 Conference on Empirical

Methods in Natural Language Processing. Cambridge,

Massachusetts, 2010, pp. 366–376.

Barker K. Cornacchia N. Using Noun Phrase

Heads to Extract Document Keyphrases. Advances in

Artificial Intelligence. 2000, vol. 1822, pp. 40–52.

Piao S.S., Rayson P., Archer D., McEnery T.

Comparing and Combining a Semantic Tagger and a

Statistical Tool for MWE Extraction. Computer

Speech & Language. 2005, vol. 19, no. 4, pp. 378–397.

Frank E., Paynter G.W., Witten I.H., Gutwin

C, Nevill-Manning C.G.. Domain-Specific Keyphrase

Extraction. Proceeding of 16th International

Joint Conference on Artificial Intelligence. Stockholm,

Sweden, 1999, pp. 668–673.

Dostal M. Automatic Keyphrase Extraction

Based on NLP and Statistical Methods. Proceedings of

the Dateso 2011: Annual International Workshop on

Databases, Texts, Specifications and Objects. Pisek,

Czech Republic, 2011, pp. 140–145.

Dunning T. Accurate Methods for the Statistics

of Surprise and Coincidence. Computational

Linguistics – Special Issue on Using Large Corpora.

, vol. 19, no. 1, pp. 61–74.

Girish K.P. Keyword Extraction from a

Single Document Using Centrality Measures. Pattern

Recognition and Machine Intelligence. Springer Berlin

Heidelberg, 2007, pp. 503–510.

Grineva M. Effective Extraction of Thematically

Grouped Key Terms From Text. Available at:

http://www.aaai.org/Papers/Symposia/Spring/2009/

SS-09-08/SS09-08-010.pdf (accessed 30.11.2014)

Herbrich R. Large Margin Rank Boundaries

for Ordinal Regression. Advances in Large Margin

Classifiers. MIT Press, 2000, pp. 115–132.

Hulth A. Improved Automatic Keyword Extraction

Given More Linguistic Knowledge. Proceedings

of the 2003 Conference on Empirical Methods in

Natural Language Processing. Sapporo, July, 2003,

pp. 216–223.

Jiang X. A Ranking Approach to Keyphrase

Extraction. Proceedings of the 32nd International

ACM SIGIR Conference on Research and Development

in Information Retrieval. Boston, MA, USA,

, pp. 756–757.

Jiao H. Chinese Keyword Extraction Based

on N-Gram and Word Co-occurrence. Proceeding

CISW '07 Proceedings of the 2007 International Conference

on Computational Intelligence and Security

Workshops. Harbin, 2007. pp. 152–155.

Jones K.S. A Statistical Interpretation of

Term Specificity and its Application in Retrieval.

Journal of Documentation. 2004, vol. 60, no. 5,

pp. 493–502.

KEA: Practical Automatic Keyphrase Extraction.

I.H. Witten, G. W. Paynter, G. W. Paynter, E.

Frank, C. Gutwin, C. G. Nevill-Manning. DL '99 Proceedings

of the Fourth ACM Conference on Digital

Libraries. Berkeley, CA, USA, 1999, pp. 254–255.

Keyword Extraction Using Support Vector

Machine. K. Zhang, H. Xu, J. Tang, J. Li. Advances

in Web-Age Information Management. Springer Berlin

Heidelberg, 2006, pp. 85–96.

Krulwich B. Learning User Information Interests

through Extraction of Semantically Significant

Phrases. Available at: http://www.aaai.org/ Papers/

Symposia/Spring/1996/SS-96-05/SS96-05-018. pdf

(accessed: 30.11.2014).

Litvak M. Graph-based Keyword Extraction

for Single-Document Summarization. Proceedings

of the Workshop on Multi-source Multilingual

Information Extraction and Summarization. Manchester,

United Kingdom, 2008, pp. 17–24.

Lopez P. HUMB: Automatic Key Term Extraction

from Scientific Articles in GROBID. Proceedings

of the 5th International Workshop on Semantic

Evaluation. Uppsala, Sweden, 2010, pp. 248–251.

Luhn H.P. A Statistical Approach to Mechanized

Encoding and Searching of Literary Information.

IBM Journal of Research and Development.

, vol. 1, no. 4, pp. 309–317.

Matsuo Y. Keyword Extraction from a Single

Document Using Word co-occurrence Statistical

Information. International Journal on Artificial Intelligence

Tools. 2004. V. 13, no. 1, pp. 157–169.

Matsuo Y. KeyWorld: Extracting Keywords

from Document s Small World. Discovery Science.

Springer Berlin Heidelberg, 2001, pp. 271–281.

Mihalcea R. TextRank: Bringing Order into

Texts. Proceedings of EMNLP 2004. Barcelona,

Spain, 2004, pp. 404–411.

Multiword Expressions: A Pain in the Neck

for NLP. I.A. Sag, T. Baldwin, F. Bond, A. Copestake,

D. Flickinger. Proceedings of the Third International

Conference on Computational Linguistics and Intelligent

Text Processing CICLing ’02. London, UK. 2002,

pp. 1–15.

Nallapati R. Extraction of Key Words from

News Stories. Available at: https://sites.google.com/

site/nmramesh77/research-papers/2002_synthesis_

report.pdf?attredirects=0 (accessed: 30.11.2014).

Ohsawa Y. KeyGraph: Automatic Indexing

by co-occurrence Graph Based on Building Construction

Metaphor. ADL '98 Proceedings of the Advances

in Digital Libraries Conference. Santa Barbara, CA,

USA, 1998, pp. 12–18.

Porter M.F. An Algorithm for Suffix Stripping.

Readings in Information Retrieval. Morgan

Kaufmann Publishers Inc., 1997, pp. 313–316.

Salton G.A Vector Space Model for Automatic

Indexing. Communications of the ACM. 1975,

vol. 18, no. 11, pp. 613–620.

Salton G. On the Specification of Term Values

in Automatic Indexing. Journal of Documentation.

, vol. 29, no. 4, pp. 351–372.

Sarkar K., Nasipuri M., Ghose S. A New

Approach to Keyphrase Extraction Using Neural Networks.

International Journal of Computer Science

Issues. 2010, vol. 7, no. 2, pp. 16–25.

Sarkar, K. An N-Gram Based Method for

Bengali Keyphrase Extraction / K. Sarkar // Information

Systems for Indian Languages. Springer Berlin

Heidelberg, 2011, pp. 36–41.


Ссылки

  • На текущий момент ссылки отсутствуют.