ПРОЕКТ СОЗДАНИЯ КИТАЙСКО-РУССКОГО ПАРАЛЛЕЛЬНОГО КОРПУСА ОФИЦИАЛЬНО-ДЕЛОВЫХ ТЕКСТОВ С ДИСКУРСИВНО-СТРУКТУРНОЙ РАЗМЕТКОЙ
Аннотация
деловых текстов с дискурсивно-структурной разметкой. Данная разметка заключается в описа-
нии структуры каждого абзаца в виде сети дискурсивных единиц, соединенных дискурсивными
отношениями. Основу первичного наполнения корпуса составляют доклады о работе правитель-
ства КНР на китайском языке и их официальные переводы на русский. Выравнивание китайских
и русских текстов в корпусе, т. е. их синтаксическое соотнесение, проводится по структуре каж-
дого абзаца. В статье представлены история разработки проблемы создания синтаксических кор-
пусов, общие задачи проекта, его теоретические основания и прикладные перспективы, критерии
отбора текстов для корпуса, принципы разметки и выравнивания текстов, а также программное
обеспечение для разметки и хранения данных (общая схема данных и интерфейс). Создаваемый
корпус может быть в дальнейшем использован для решения задач машинного перевода и других
алгоритмов автоматической обработки текста, обучения иностранным языкам, сопоставительной
лингвистики, теории перевода и т. д.корпусная лингвистика, параллельный корпус, дискурсивно-структурная
разметка, трибанк, китайско-русский корпус, дискурсивное выравнивание, автоматическая об-
работка текста, машинный перевод
Ключевые слова
Полный текст:
PDFЛитература
Ананьева, М.И. Разработка корпуса тек-
стов на русском языке с разметкой на основе
теории риторических структур / М.И. Ананьева,
М.В. Кобозева // Тр. междунар. конф. «Диалог»,
– http://www.dialog-21.ru/media/3460/
ananyeva. pdf (дата обращения: 29.07.2016).
Кибрик, А.А. Рассказы о сновидениях: Кор-
пусное исследование устного русского дискурса /
А.А. Кибрик и В.И. Подлесская. – М.: Litres, 2014. –
c.
Литвиненко, А.О. Описание структуры дис-
курса в рамках Теории Риторической Структуры
применение на русском материале / А.О. Литвинен-
ко // Труды Международного семинара Диалог,
– С. 159–168.
AlSaif, A. The leeds arabic discourse treebank:
Annotating discourse connectives for arabic /
A. AlSaif and K. Markert // In Language Resources
and Evaluation Conference, 2010. – http://www.
comp.leeds.ac.uk/markert/Papers/LREC2010-LADTB.
pdf (дата обращения: 16.08.2016).
Carlson, L. Building a Discourse-TaggedCorpus in the Framework of Rhetorical Structure
Theory / L. Carlson, D. Marcu, M.E. Okurowski //
In Current Directions in Discourse and Dialogue. –
Kluwer Academic Publishers, 2003. – http://www.
aclweb.org/anthology/W01-1605 (дата обращения:
07.2016).
Feng, W. Alignment and Annotation of Chinese-
English Discourse Structure Parallel Corpus /
W. Feng // Journal of Chinese Information
Processing. – 2013. – 27(6). – P. 158–164. – http://
jcip.cipsc.org.cn/CN/abstract/abstract1795.shtml
(дата обращения: 26.07.2016).
Forbes, K. Computing Discourse Semantics: The
Predicate-Argument Semantics of Discourse Connectives
in D-LTAG / K. Forbes-Riley, B. Webber, A. Joshi //
Journal of Semantics. – 2006. – 23. – P. 55–106.
Forbes, K. D-LTAG System: Discourse Parsing
with a Lexicalized Tree-Adjoining Grammar /
K. Forbes, E. Miltsakaki, R. Prasad et al. // Journal of
Logic: Language and Information. – 2003. – 12(3). –
P. 261–279.
Li, Y. Building a Chinese Discourse Corpus
with Connective-driven Dependency Tree Structure /
Y. Li, W. Feng, J. Sun et al. // In Proceedings of the
conference on Emporical Methods in Natural
Language Processing. – Doha: Qatar, 2014. –
P. 2105–2114. – http://emnlp2014.org/papers/pdf/
EMNLP2014224.pdf (дата обращения: 26.07.2016).
Mann, W. Rhetorical structure theory and
text analysis / W. Mann, C. Matthiessen, S.A. Thompson
// Amsterdam: Discourse Description, 1992. –
P. 39–78.
Mann, W.C. Rhetorical Structure Theory:
Toward a functional theory of text organization /
W.C. Mann, S.A. Thompson // Text. – 1987. – 8(3). –
P. 243–281. – http://www.sfu.ca/rst/pdfs/Mann_
Thompson_1987.pdf (дата обращения: 02.08.2016).
Marcu, D. The Automatic Translation of Discourse
Structures / D. Marcu, L. Carlson, M. Watanabe
// In Proceedings of the 1st North American
chapter of the Association for Computational Linguistics
conference, 2000. – P. 9–17. – http://www.aclweb.
org/anthology/A00-2002 (дата обращения:
08.2016).
Miltsakaki, E. The Penn Discourse Treebank
/ E. Miltsakaki, R. Prasad, A. Joshi, B. Webber //
In Proceedings of the 4th International Conference on
Language Resources and Evaluation. – Lisbon: Portugal,
– http://www.cis.upenn.edu/~elenimi/
lrec04-lisbon-miltsakaki.pdf (дата обращения:
08.2016).
Poláková, L. Introducing the Prague Discourse
Treebank 1.0 / L. Poláková, J. Mírovský,
A. Nedoluzhko et al. // In Proceedings of the 6th International
Joint Conference on Natural Language
Processing. – Japan, 2013. – P. 91–99.
Prasad, R. The Penn Discourse Treebank 2.0
/ R. Prasad, N. Dinesh, A. Lee et al. // In Proceedings
of the 6th International Conference on Language Resources
and Evaluation. – Marrackech: Morocco,2008. – https://www.seas.upenn.edu/~pdtb/papers/
pdtb-lrec08. pdf (дата обращения: 02.08.2016).
Webber, B. Anchoring a Lexicalized Tree-
Adjoining Grammar for Discourse / B. Webber,
A. Joshi // Montreal: ACL/COLING Workshop on
Discourse Relations and Discourse Markers, 1998.– P. 8–92. – http://arxiv.org/pdf/cmp-lg/ 9806017v1.pdf
(дата обращения: 02.08.2016).
Zhou, Y. The Chinese Discourse TreeBank: a
Chinese corpus annotated with discourse relations /
Y. Zhou and N. Xue // In Language Resources and
Evaluation. – 2015. – 49(2). – P. 397–431.
Ссылки
- На текущий момент ссылки отсутствуют.