ПРОЕКТ СОЗДАНИЯ КИТАЙСКО-РУССКОГО ПАРАЛЛЕЛЬНОГО КОРПУСА ОФИЦИАЛЬНО-ДЕЛОВЫХ ТЕКСТОВ С ДИСКУРСИВНО-СТРУКТУРНОЙ РАЗМЕТКОЙ

Михаил Юрьевич Мухин, Ян И

Аннотация


Статья посвящена проекту создания китайско-русского параллельного корпуса официально-
деловых текстов с дискурсивно-структурной разметкой. Данная разметка заключается в описа-
нии структуры каждого абзаца в виде сети дискурсивных единиц, соединенных дискурсивными
отношениями. Основу первичного наполнения корпуса составляют доклады о работе правитель-
ства КНР на китайском языке и их официальные переводы на русский. Выравнивание китайских
и русских текстов в корпусе, т. е. их синтаксическое соотнесение, проводится по структуре каж-
дого абзаца. В статье представлены история разработки проблемы создания синтаксических кор-
пусов, общие задачи проекта, его теоретические основания и прикладные перспективы, критерии
отбора текстов для корпуса, принципы разметки и выравнивания текстов, а также программное
обеспечение для разметки и хранения данных (общая схема данных и интерфейс). Создаваемый
корпус может быть в дальнейшем использован для решения задач машинного перевода и других
алгоритмов автоматической обработки текста, обучения иностранным языкам, сопоставительной
лингвистики, теории перевода и т. д.корпусная лингвистика, параллельный корпус, дискурсивно-структурная
разметка, трибанк, китайско-русский корпус, дискурсивное выравнивание, автоматическая об-
работка текста, машинный перевод

Ключевые слова


корпусная лингвистика, параллельный корпус, дискурсивно-структурная разметка, трибанк, китайско-русский корпус, дискурсивное выравнивание, автоматическая об- работка текста, машинный перевод

Полный текст:

PDF

Литература


Ананьева, М.И. Разработка корпуса тек-

стов на русском языке с разметкой на основе

теории риторических структур / М.И. Ананьева,

М.В. Кобозева // Тр. междунар. конф. «Диалог»,

– http://www.dialog-21.ru/media/3460/

ananyeva. pdf (дата обращения: 29.07.2016).

Кибрик, А.А. Рассказы о сновидениях: Кор-

пусное исследование устного русского дискурса /

А.А. Кибрик и В.И. Подлесская. – М.: Litres, 2014. –

c.

Литвиненко, А.О. Описание структуры дис-

курса в рамках Теории Риторической Структуры

применение на русском материале / А.О. Литвинен-

ко // Труды Международного семинара Диалог,

– С. 159–168.

AlSaif, A. The leeds arabic discourse treebank:

Annotating discourse connectives for arabic /

A. AlSaif and K. Markert // In Language Resources

and Evaluation Conference, 2010. – http://www.

comp.leeds.ac.uk/markert/Papers/LREC2010-LADTB.

pdf (дата обращения: 16.08.2016).

Carlson, L. Building a Discourse-TaggedCorpus in the Framework of Rhetorical Structure

Theory / L. Carlson, D. Marcu, M.E. Okurowski //

In Current Directions in Discourse and Dialogue. –

Kluwer Academic Publishers, 2003. – http://www.

aclweb.org/anthology/W01-1605 (дата обращения:

07.2016).

Feng, W. Alignment and Annotation of Chinese-

English Discourse Structure Parallel Corpus /

W. Feng // Journal of Chinese Information

Processing. – 2013. – 27(6). – P. 158–164. – http://

jcip.cipsc.org.cn/CN/abstract/abstract1795.shtml

(дата обращения: 26.07.2016).

Forbes, K. Computing Discourse Semantics: The

Predicate-Argument Semantics of Discourse Connectives

in D-LTAG / K. Forbes-Riley, B. Webber, A. Joshi //

Journal of Semantics. – 2006. – 23. – P. 55–106.

Forbes, K. D-LTAG System: Discourse Parsing

with a Lexicalized Tree-Adjoining Grammar /

K. Forbes, E. Miltsakaki, R. Prasad et al. // Journal of

Logic: Language and Information. – 2003. – 12(3). –

P. 261–279.

Li, Y. Building a Chinese Discourse Corpus

with Connective-driven Dependency Tree Structure /

Y. Li, W. Feng, J. Sun et al. // In Proceedings of the

conference on Emporical Methods in Natural

Language Processing. – Doha: Qatar, 2014. –

P. 2105–2114. – http://emnlp2014.org/papers/pdf/

EMNLP2014224.pdf (дата обращения: 26.07.2016).

Mann, W. Rhetorical structure theory and

text analysis / W. Mann, C. Matthiessen, S.A. Thompson

// Amsterdam: Discourse Description, 1992. –

P. 39–78.

Mann, W.C. Rhetorical Structure Theory:

Toward a functional theory of text organization /

W.C. Mann, S.A. Thompson // Text. – 1987. – 8(3). –

P. 243–281. – http://www.sfu.ca/rst/pdfs/Mann_

Thompson_1987.pdf (дата обращения: 02.08.2016).

Marcu, D. The Automatic Translation of Discourse

Structures / D. Marcu, L. Carlson, M. Watanabe

// In Proceedings of the 1st North American

chapter of the Association for Computational Linguistics

conference, 2000. – P. 9–17. – http://www.aclweb.

org/anthology/A00-2002 (дата обращения:

08.2016).

Miltsakaki, E. The Penn Discourse Treebank

/ E. Miltsakaki, R. Prasad, A. Joshi, B. Webber //

In Proceedings of the 4th International Conference on

Language Resources and Evaluation. – Lisbon: Portugal,

– http://www.cis.upenn.edu/~elenimi/

lrec04-lisbon-miltsakaki.pdf (дата обращения:

08.2016).

Poláková, L. Introducing the Prague Discourse

Treebank 1.0 / L. Poláková, J. Mírovský,

A. Nedoluzhko et al. // In Proceedings of the 6th International

Joint Conference on Natural Language

Processing. – Japan, 2013. – P. 91–99.

Prasad, R. The Penn Discourse Treebank 2.0

/ R. Prasad, N. Dinesh, A. Lee et al. // In Proceedings

of the 6th International Conference on Language Resources

and Evaluation. – Marrackech: Morocco,2008. – https://www.seas.upenn.edu/~pdtb/papers/

pdtb-lrec08. pdf (дата обращения: 02.08.2016).

Webber, B. Anchoring a Lexicalized Tree-

Adjoining Grammar for Discourse / B. Webber,

A. Joshi // Montreal: ACL/COLING Workshop on

Discourse Relations and Discourse Markers, 1998.– P. 8–92. – http://arxiv.org/pdf/cmp-lg/ 9806017v1.pdf

(дата обращения: 02.08.2016).

Zhou, Y. The Chinese Discourse TreeBank: a

Chinese corpus annotated with discourse relations /

Y. Zhou and N. Xue // In Language Resources and

Evaluation. – 2015. – 49(2). – P. 397–431.


Ссылки

  • На текущий момент ссылки отсутствуют.