ОБ ИСПОЛЬЗОВАНИИ МЕТОДА КЕЙС-СТАДИ ДЛЯ СОЗДАНИЯ УНИВЕРСАЛЬНЫХ РЕСУРСОВ КОНЦЕПТУАЛЬНОГО АННОТИРОВАНИЯ МНОГОЯЗЫЧНЫХ ТЕКСТОВ

Светлана Олеговна Шереметьева, Ольга Ивановна Бабина, Анастсия Юрьевна Зиновьева, Екатерина Дмитриевна Неручаева

Аннотация


Создание аннотированных корпусов текстов имеет критически важное значение для разра-ботки компьютерных технологий обработки неструктурированной информации (автоматической классификации, интеллектуального контент- и тренд-анализов, машинного обучения, машинного перевода и др.) и находится в центре внимания международных теоретических и прикладных лингвистических исследований. При этом ключевым аспектом этих исследований является авто-матизация аннотационных процедур, что, в свою очередь, требует статических (лингвистиче-ских) и динамических (программных) ресурсов, с возможностью их полного или частичного многократного применения для аннотирования многоязычных текстов различных предметных областей. В настоящей статье представлен опыт применения метода кейс-стади для создания ре-сурсов автоматизации концептуального аннотирования, одного из самых востребованных и про-блематичных видов аннотаций. Под концептуальной аннотацией понимается тип семантической аннотации, ориентированный на решение конкретных информационных задач в рамках опреде-ленной предметной области. Методология и конкретные результаты исследования представлены на основе кейс-стади корпусов текстов предметной области «Терроризм» на русском, англий-ском и французском языках. Ресурсы, созданные в ходе исследования, включают в себя как ме-тодику их разработки, так и конкретный программный инструментарий и лингвистический мате-риал (многоязычную онтологию и концептуально аннотированные корпусы текстов предметной области «Терроризм» на трех языках). Результаты исследования можно напрямую использовать для увеличения объема концептуально аннотированных корпусов предметной области «Терро-ризм», разработки метрик разрешения концептуальной многозначности, а также для автоматиза-ции аннотирования текстов других предметных областей и языков. Результаты настоящего ис-следования представляют интерес и для сравнительных лингвистических исследований.

Ключевые слова


концептуальное аннотирование, статические и динамические ресурсы, предметная область, онтология, многоязычность, независимость от естественного языка, терроризм.

Полный текст:

PDF

Литература


Добров А.В., Доброва Н.Л., Сомс Н.Л., Чугунов А.В. Семантический анализ новостных сообщений по теме «Электронные услуги»: опыт применения методов онтологической семантики. Труды XVIII объединенной конференции «Интер-нет и современное общество», Санкт-Петербург, 23–25 июня 2015 г. СПб., 2015. С. 120–125. [Do-brov A.V., Dobrova N.L., Soms N.L., Chugunov A.V.[Semantic Analysis of News Items on „Electronic Ser-vices‟ Subject Domain: Experience of Applying Me-thods of Ontological Semantics]. Trudy 18 ob’edinennoj konferencii “Internet i sovremennoe obshchestvo” [Proceedings of the 18th United Confe-rence “Internet and Modern Society”, Saint Peters-burg, June 23–25, 2015]. Saint Petersburg, 2015, pp. 120–125. (in Russ.).]

Загорулько М.Ю., Кононенко И.С., Сидо-рова Е.А. Система семантической разметки корпу-са текстов в ограниченной предметной области. Материалы международной конференции «Ком-пьютерная лингвистика и интеллектуальные тех-нологии», Бекасово, 30 мая – 3 июня 2012. М., РГГУ, 2012, Вып. 11(18), с. 674–683. [Zagorul'ko M.Yu., Kononenko I.S., Sidorova E.A. [System for Semantic Annotation of Domain-Specific Text Corpo-ra]. Materialy mezhdunarodnoy konferentsii “Komp'yuternaya lingvistika i intellektual'nye tekh-nologii”, Bekasovo, 30 maya – 3 iyunya 2012. [Pro-ceeding of the International Conference “Computa-tional linguistics and intelligent technologies”, Beka-sovo, May 30–June 3, 2012]. Moscow, RSUH, 2012, vol. 11(18), pp. 674–683. (in Russ.).]

Hao Wu, Jun He, Yijian Pei. Scientific Im-pact at the Topic Level: A Case Study in Computa-tional Linguistics. Journal of the American Society for Information Science and Technology. 2010, November, vol. 61, issue 11, pp. 2274–2287.

Inyaem U., Haruechaiyasak Ch., Meesad Ph., Tran D. Ontology-Based Terrorism Event Extraction. Pro-ceedings of the 1st International Conference on Informa-tion Science and Engineering (ICISE 2009), December 26-28, 2009. Nanjing, China, 2009, pp. 912–915.

Lefever E., Macken L., Hoste V. Language-Independent Bilingual Terminology Extraction from a Multilingual Parallel Corpus. Proceedings of the 12th Conference of the European Chapter of the ACL. Athens, Greece, 2009, pp. 496–504.

Mair C. The Corpus-based Study of Lan-guage Change in Progress: The Extra Value of Tagged Corpora. The AAACL/ICAME Conference, May 11–15. Ann Arbor, MI, 2005.

Mannes A., Golbeck J. Building a Terrorism Ontology. Proceedings of the ISWC Workshop on On-tology Patterns for the Semantic Web, 36. 2005. http://goo.gl/WXeVVv (23.05.2020).

Najgebauer A., Antkiewicz R., Chmielews-ki M., Kasprzyk R., Prediction of Terrorist Threat on the basis of Semantic Association Acquisition and Complex Network Evolution. The Journal of Tele-communications and Information Technology. 2008, vol. 2, pp. 14–20.

Pustejovsky J. Natural Language Annotation for Machine Learning. 1st ed. O'Reilly Media, 2012, 342 p.

Roberts A., Gaizauskas R., Hepple M., Demetriou G., Guo Y., Roberts A., Setzer A. Building a Semantically Annotated Corpus of Clinical Texts. Journal of Biomedical Informatics. 2009, vol. 42 (5), pp. 950–966.

Sheremetyeva S. Automatic Extraction of Linguistic Resources in Multiple Languages. Proceed-ings of NLPCS 2012, 9th International Workshop on Natural Language Processing and Cognitive Science in conjunction with ICEIS 2012. Wroclaw, Poland, 2012, pp. 44–52.

Sheremetyeva S., Zinovyeva A. On Model-ling Domain Ontology Knowledge for Processing Multilingual Texts of Terroristic Content. Communications in Computer and Information Science, 859. Springer, Cham, 2018, pp. 368–379.

Stenetorp P., Pyysalo S., Topic G., Ohta T., Ananiadou S., Jun‟ichi Tsujii J. BRAT: a Web-based Tool for NLP-Assisted Text Annotation. Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, April 23–27, 2012. Avignon, France, 2012, pp. 102–107.

Tenenboim L., Shapira B, Shoval P. Ontol-ogy-based Classification of News in an Electronic Newspaper. Advanced Research in Artificial Intelli-gence: ed. by K. Markov, K. Ivanova, I. Mitov. Inter-national Book Series “Information Science and Com-puting”, vol. 2. Sofia, Bulgaria, 2008, pp. 89–97.

Witschel H.F. Terminology Extraction and Automatic Indexing – Comparison and Qualitative Evaluation of Methods. Terminology and Content Development – TKE 2005: 7th International Conference on Terminology and Knowledge Engineering. Copenhagen, Denmark, 2005, pp. 363–374.

Witt A., Heid, U., Sasaki, F., Gilles Séras-set. Multilingual Language Resources and Interopera-bility. Language Resources & Evaluation. 2009, March, vol. 43, issue 1, pp. 1–14. DOI: 10.1007/s10579-009-9088-x


Ссылки

  • На текущий момент ссылки отсутствуют.