ПЛАТФОРМА ДЛЯ КОНЦЕПТУАЛЬНОГО АННОТИРОВАНИЯ МНОГОЯЗЫЧНЫХ ТЕКСТОВ

Светлана Олеговна Шереметьева, Ольга Ивановна Бабина

Аннотация


В настоящей статье представлен опыт разработки программного инструмента ПАнТ – мно-гофункциональной платформы для создания концептуально аннотированных корпусов текстов, необходимого ресурса компьютерных технологий обработки неструктурированной информации. Платформа ПАнТ разработана на основе лингвистической базы знаний, что допускает различные уровни аннотирования. Инструмент многофункционален и имеет гибкие настройки, которые обеспечивают ее адаптацию к многоязычным текстам различных предметных областей и воз-можность использования как для процесса аннотирования, так и для совершенствования базы знаний. В настоящей статье методология разработки платформы представлена на примере ее версии, ориентированной на концептуальное аннотирование текстов предметной области «Тер-роризм» на русском, английском и французском языках. Обсуждается применение альфа-версии ПАнТ в рамках реального проекта по созданию аннотационных ресурсов указанной предметной области; при этом демонстрируется сокращение общего времени на создание качественно анно-тированных корпусов текстов («золотого стандарта»).

Ключевые слова


концептуальное аннотирование, автоматизация, онтология, многоязычность, предметная область, терроризм

Полный текст:

PDF

Литература


Бабина О.И., Дюмин Н.Ю. Автоматизация заполнения морфологической зоны машиночитае-мого словаря. Наука ЮУрГУ: Материалы 65-й на-учной конференции. Челябинск, 15–17 апреля 2013 г. Челябинск, 2013, с. 227–230. [Babina O.I., Dyumin N.Yu. Avtomatizatsiya zapolneniya morpho-logicheskoy zony mashinochitaemogo slovarya [Au-tomation of the Morphological Zone Compilation in a Machine-Tractable Dictionary]. Nauka SUSU: materia-ly 65-y nauchnoy konferentsii, Chelyabinsk, April 15–17, 2013 [Science of SUSU: Proceedings of the 65th scien-tific conference. Chelyabinsk, April 15–17, 2013]. Chelyabinsk, 2013, pp. 227–230. (in Russ.)]

Babina O.I., Osminin P.G. A Model for Auto-mating the Morphological Generation of Russian Predi-cates for a Lexicon. Proceedings of the 10th Internation-al Technology, Education and Development Conference, Valencia, Spain, 7–9 March, 2016, pp. 1320–1328.

Druskat S., Bierkandt L., Gast V., Rzymski Ch., Zipser F. Atomic: an open-source software platform for multi-layer corpus annotation. Proceedings of the 12th Konferenz zur Verarbeitung natürlicher Sprache (KONVENS 2014), Hildesheim, October 2014, pp. 228–234.

Pustejovsky J. Natural Language Annotation for Machine Learning. 1st edition. O'Reilly Media, 2012, 342 p.

Roberts A., Gaizauskas R., Hepple M., De-metriou G., Guo Y., Roberts A., Setzer A. Building a Semantically Annotated Corpus of Clinical Texts. Journal of Biomedical Informatics. 2009, vol. 42 (5), pp. 950–966.

Sheremetyeva S.O. Linguistic Models and Tools for Processing Patent Claims. Chelyabinsk, SUSU Publishing center, 2017, 157 p.

Sheremetyeva S., Zinovyeva A. On Modelling Domain Ontology Knowledge for Processing Multi-lingual Texts of Terroristic Content. Communications in Computer and Information Science, 859. Springer, Cham, 2018, pp. 368–379.

Witt A., Heid, U., Sasaki, F., Gilles Sérasset. Multilingual Language Resources and Interoperabili-ty. Language Resources & Evaluation. 2009, March, vol. 43, issue 1, pp. 1–14. DOI: 10.1007/s10579-009-9088-x


Ссылки

  • На текущий момент ссылки отсутствуют.