ИСПОЛЬЗОВАНИЕ ЛИНГВИСТИЧЕСКИ ОРИЕНТИРОВАННЫХ МОДУЛЕЙ НА ЯЗЫКЕ PYTHON ДЛЯ ОБРАБОТКИ БОЛЬШИХ ТЕКСТОВЫХ МАССИВОВ НА ВОСТОЧНЫХ ЯЗЫКАХ В ЦЕЛЯХ ЭФФЕКТИВНОГО СБОРА И ОБРАБОТКИ ДАННЫХ ПО ОТРАСЛЯМ ВОСТОКОВЕДЧЕСКОЙ ТЕМАТИКИ (НА ПРИМЕРЕ NLTK)

Булат Гилимдарович Фаткулин

Аннотация


Проведен анализ современного лингвистически ориентированного программного обеспе-
чения, созданного в рамках языка программирования Python. В качестве примера выбран
комплекс программных модулей Natural Language Toolkit (NLTK). В статье также рассматри-
ваются не только общие принципы работы NLTK, но и их особенности в применении к вос-
точным языкам: фарси, арабскому и китайскому. Показано решение для работы с текстами на
восточных языках в кодировке utf-8.


Ключевые слова


NLTK, восточные языки, модули Python, обработка естественных языков, код, кодировка utf-8, большие данные, UNIX.

Полный текст:

PDF

Литература


Курбатов, С.С. Программное обеспечение

для лингвистически-ориентированного пополнения

онтологии: докл. / С.С. Курбатов, А.П. Лобзин,

Г.К. Хахалин // Четырнадцатая конференция по

искусственному интеллекту с международным

участием. – Казань, 2014. – Т. 3. – С. 164–172.

Маслов, А.В. Системы автоматической об-

работки текстов на естественном языке: лин-

гвистические аспекты и перспективы развития /

А.В. Маслов // Вестник Московского государст-

венного лингвистического университета. – 2013. –

№ 13 (699). – С. 167–170.

Фаткулин, Б.Г. Прикладная лингвистика и

обработка текстов на восточных языках: совре-

менные перспективы / Б.Г. Фаткулин // Вестник

ЮУрГУ. Серия «Лингвистика». – 2014. – Т. 11,

№ 3. – С. 15–18.

Bird, S. Natural language processing with

Python. / S. Bird, E. Klein, and E. Loper. – Beijing;

Cambridge; Mass: O’Reilly, 2009. Print.

Garrette, D. An extensible toolkit for computational

semantics / D. Garrette, E. Klein // Proceedings

of the Eighth International Conference on Computational

Semantics (IWCS-8 ’09) / H. Bunt, V. Petukhova,

S. Wubben (Eds.). Association for

Computational Linguistics, Stroudsburg, PA, USA,

– P. 116–127.

Perkins, J. Python text processing with NTLK 1.0

Cookbook over 80 practical recipes for using Python’s

NLTK suite of libraries to maximize your natural language

processing capabilities / J. Perkins. – Birmingham

Mumbai: PACKT Publishing, 2010. Print.


Ссылки

  • На текущий момент ссылки отсутствуют.