МЕТОДЫ И МОДЕЛИ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ КЛЮЧЕВЫХ СЛОВ
Аннотация
Дается обзор и классификация основных методов автоматического извлечения ключевых
слов из текстовых документов, среди которых выделяются статистические и гибридные с ис-
пользованием корпуса текстов или на основе отдельного документа. Анализируются пре-
имущества и недостатки каждого из подходов. Отмечается проблематичность применения
статистических методик для флективных языков, таких как русский. Формулируются требо-
вания к эффективной модели извлечения ключевых слов из текстов на русском языке и дают-
ся конкретные рекомендации для их достижения. Подчеркивается, что для создания эффек-
тивных экстракторов ключевых слов следует учитывать лингвистические типы естественных
языков (аналитический, флективный, агглютинативный, изолирующий), предметную область
(подъязык) и наличие необходимых лингвистических и программных ресурсов. Подход ил-
люстрируется на примере автоматического экстрактора ключевых слов Lana-Key-RU из рус-
скоязычных статей по математическому моделированию.
Ключевые слова
Полный текст:
PDFЛитература
Гринева М., Гринев М. Анализ текстовых
документов для извлечения тематически сгруппи-
рованных ключевых терминов. Труды ИСП РАН.
Т. 16. С. 155–165. [Grineva M. Analiz tekstovykh
dokumentov dlya izvlecheniya tematicheski
sgruppirovannykh klyuchevykh terminov(Analysis of
Text Documents for Extraction of the Thematically
Grouped Keyterms). Trudy ISP RAN (Proceeding of
ISP RAS). 2009, vol. 16, pp. 155–165.]
Алексеев П.М., Герман-Прозорова Л.П.,
Пиотровский Р.Г., Шепетова О.П. Основы стати-
стической оптимизации преподавания иностранных
языков. Статистика речи и автоматический анализ
текста. Л., 1974. С. 195–234. [Alekseev P.M., German-
Prozorova L.P., Piotrovskii R.G., Shepetova O.P.
Osnovy statisticheskoy optimizatsii prepodavaniya inostrannykh
yazykov (Basics of the Statistical Optimization
of Foreign Languages Teaching). Statistika rechi i
avtomaticheskiy analiz teksta (Statistics of Speech and
Automatic Analysis of the Text). Leningrad, 1974,
pp. 195–234.]
Пиотровский Р.Г., Бектаев К.Б., Пиотров-
ская А.А. Математическая лингвистика: учеб. по-
собие для пед. институтов. М.: Высшая школа,
383 с. [Piotrovskiy R.G.., Bektaev K.B., Piotrovskaya
A.A. Matematicheskaya lingvistika. (Mathematical
Linguistics). Moscow, Vysshaya shkola,
, 383 p.]
Усталов Д. Извлечение терминов из рус-
скоязычных текстов при помощи графовых моде-
лей. http://koost.eveel.ru/science/ CSEDays2012. pdf
(дата обращения: 30.11.2014). [Ustalov D. Izvlechenie
terminov iz russkoyazychnykh tekstov pri pomoshchi
grafovykh modeley (Term Extraction by Means of
Graph Model from Russian texts). Available at:
http://koost.eveel.ru/science/CSEDays2012.pdf (accessed:
11.2014)]
Liu Z., Huang W., Zheng Y., Sun M. Automatic
keyphrase extraction via topic decomposition.
Proceedings of the 2010 Conference on Empirical
Methods in Natural Language Processing. Cambridge,
Massachusetts, 2010, pp. 366–376.
Barker K. Cornacchia N. Using Noun Phrase
Heads to Extract Document Keyphrases. Advances in
Artificial Intelligence. 2000, vol. 1822, pp. 40–52.
Piao S.S., Rayson P., Archer D., McEnery T.
Comparing and Combining a Semantic Tagger and a
Statistical Tool for MWE Extraction. Computer
Speech & Language. 2005, vol. 19, no. 4, pp. 378–397.
Frank E., Paynter G.W., Witten I.H., Gutwin
C, Nevill-Manning C.G.. Domain-Specific Keyphrase
Extraction. Proceeding of 16th International
Joint Conference on Artificial Intelligence. Stockholm,
Sweden, 1999, pp. 668–673.
Dostal M. Automatic Keyphrase Extraction
Based on NLP and Statistical Methods. Proceedings of
the Dateso 2011: Annual International Workshop on
Databases, Texts, Specifications and Objects. Pisek,
Czech Republic, 2011, pp. 140–145.
Dunning T. Accurate Methods for the Statistics
of Surprise and Coincidence. Computational
Linguistics – Special Issue on Using Large Corpora.
, vol. 19, no. 1, pp. 61–74.
Girish K.P. Keyword Extraction from a
Single Document Using Centrality Measures. Pattern
Recognition and Machine Intelligence. Springer Berlin
Heidelberg, 2007, pp. 503–510.
Grineva M. Effective Extraction of Thematically
Grouped Key Terms From Text. Available at:
http://www.aaai.org/Papers/Symposia/Spring/2009/
SS-09-08/SS09-08-010.pdf (accessed 30.11.2014)
Herbrich R. Large Margin Rank Boundaries
for Ordinal Regression. Advances in Large Margin
Classifiers. MIT Press, 2000, pp. 115–132.
Hulth A. Improved Automatic Keyword Extraction
Given More Linguistic Knowledge. Proceedings
of the 2003 Conference on Empirical Methods in
Natural Language Processing. Sapporo, July, 2003,
pp. 216–223.
Jiang X. A Ranking Approach to Keyphrase
Extraction. Proceedings of the 32nd International
ACM SIGIR Conference on Research and Development
in Information Retrieval. Boston, MA, USA,
, pp. 756–757.
Jiao H. Chinese Keyword Extraction Based
on N-Gram and Word Co-occurrence. Proceeding
CISW '07 Proceedings of the 2007 International Conference
on Computational Intelligence and Security
Workshops. Harbin, 2007. pp. 152–155.
Jones K.S. A Statistical Interpretation of
Term Specificity and its Application in Retrieval.
Journal of Documentation. 2004, vol. 60, no. 5,
pp. 493–502.
KEA: Practical Automatic Keyphrase Extraction.
I.H. Witten, G. W. Paynter, G. W. Paynter, E.
Frank, C. Gutwin, C. G. Nevill-Manning. DL '99 Proceedings
of the Fourth ACM Conference on Digital
Libraries. Berkeley, CA, USA, 1999, pp. 254–255.
Keyword Extraction Using Support Vector
Machine. K. Zhang, H. Xu, J. Tang, J. Li. Advances
in Web-Age Information Management. Springer Berlin
Heidelberg, 2006, pp. 85–96.
Krulwich B. Learning User Information Interests
through Extraction of Semantically Significant
Phrases. Available at: http://www.aaai.org/ Papers/
Symposia/Spring/1996/SS-96-05/SS96-05-018. pdf
(accessed: 30.11.2014).
Litvak M. Graph-based Keyword Extraction
for Single-Document Summarization. Proceedings
of the Workshop on Multi-source Multilingual
Information Extraction and Summarization. Manchester,
United Kingdom, 2008, pp. 17–24.
Lopez P. HUMB: Automatic Key Term Extraction
from Scientific Articles in GROBID. Proceedings
of the 5th International Workshop on Semantic
Evaluation. Uppsala, Sweden, 2010, pp. 248–251.
Luhn H.P. A Statistical Approach to Mechanized
Encoding and Searching of Literary Information.
IBM Journal of Research and Development.
, vol. 1, no. 4, pp. 309–317.
Matsuo Y. Keyword Extraction from a Single
Document Using Word co-occurrence Statistical
Information. International Journal on Artificial Intelligence
Tools. 2004. V. 13, no. 1, pp. 157–169.
Matsuo Y. KeyWorld: Extracting Keywords
from Document s Small World. Discovery Science.
Springer Berlin Heidelberg, 2001, pp. 271–281.
Mihalcea R. TextRank: Bringing Order into
Texts. Proceedings of EMNLP 2004. Barcelona,
Spain, 2004, pp. 404–411.
Multiword Expressions: A Pain in the Neck
for NLP. I.A. Sag, T. Baldwin, F. Bond, A. Copestake,
D. Flickinger. Proceedings of the Third International
Conference on Computational Linguistics and Intelligent
Text Processing CICLing ’02. London, UK. 2002,
pp. 1–15.
Nallapati R. Extraction of Key Words from
News Stories. Available at: https://sites.google.com/
site/nmramesh77/research-papers/2002_synthesis_
report.pdf?attredirects=0 (accessed: 30.11.2014).
Ohsawa Y. KeyGraph: Automatic Indexing
by co-occurrence Graph Based on Building Construction
Metaphor. ADL '98 Proceedings of the Advances
in Digital Libraries Conference. Santa Barbara, CA,
USA, 1998, pp. 12–18.
Porter M.F. An Algorithm for Suffix Stripping.
Readings in Information Retrieval. Morgan
Kaufmann Publishers Inc., 1997, pp. 313–316.
Salton G.A Vector Space Model for Automatic
Indexing. Communications of the ACM. 1975,
vol. 18, no. 11, pp. 613–620.
Salton G. On the Specification of Term Values
in Automatic Indexing. Journal of Documentation.
, vol. 29, no. 4, pp. 351–372.
Sarkar K., Nasipuri M., Ghose S. A New
Approach to Keyphrase Extraction Using Neural Networks.
International Journal of Computer Science
Issues. 2010, vol. 7, no. 2, pp. 16–25.
Sarkar, K. An N-Gram Based Method for
Bengali Keyphrase Extraction / K. Sarkar // Information
Systems for Indian Languages. Springer Berlin
Heidelberg, 2011, pp. 36–41.
Ссылки
- На текущий момент ссылки отсутствуют.