Methods of Speech and Text Databases Development for QA-Systems

Andrey Leonidovich Ronzhin; Aleksandra Alekseevna Zaytseva; Sergey Viktorovich Kuleshov; Konstantin Vyacheslavovich Nenausnikov

doi:10.14529/mmph180307

Methods of Speech and Text Databases Development for QA-Systems

Andrey Leonidovich Ronzhin
Санкт-Петербургский институт информатики и автоматизации Российской академии наук, г. Санкт-Петербург

Aleksandra Alekseevna Zaytseva
Санкт-Петербургский институт информатики и автоматизации Российской академии наук, г. Санкт-Петербург

Sergey Viktorovich Kuleshov
Санкт-Петербургский институт информатики и автоматизации Российской академии наук, г. Санкт-Петербург

Konstantin Vyacheslavovich Nenausnikov
Санкт-Петербургский институт информатики и автоматизации Российской академии наук, г. Санкт-Петербург

Аннотация

Работа посвящена проблемам построения речевых вопросно-ответных систем (QA-систем). Предметом исследования являются подходы к автоматическому наполнению базы данных вопросно-ответной системы путем анализа неструктурированных текстовых источников, имеющихся в настоящий момент времени в открытом доступе в сети Интернет.

В результате анализа выявлено, что выделяют следующие способы реализации QA-систем: на основе логического вывода по онтологиям, правилам и на основе синтаксиса, с использованием искусственных нейронных сетей.

В исследовании разработаны и протестированы методы автоматического выделения вопросно-ответных пар на основе структуры предложений и на основе ассоциативно-онтологического анализа.

Метод на основе анализа структуры предложений эффективен для текстов типа списков часто задаваемых вопросов (FAQ), а также художественных текстов, содержащих диалоги, прямую речь, основан на предварительной обработке текста, выраженный в виде эвристического правила.

Метод на основе ассоциативно-онтологического анализа ориентирован на класс справочных и словарных текстов и основан на предположении о том, что в тексте описательного характера имеется предложение (или группа предложений), содержащее основную мысль текста. В этом случае заголовок текста может считаться вопросом, а это предложение (или группа предложений) – ответом. Для автоматизации выделения смыслообразующих предложений за счет семантической редукции текста применяются алгоритмы реферирования на основе ассоциативно-онтологического подхода к обработке текстов на естественном языке.

Для экспериментальной проверки возможности создания открытой вопросно-ответной системы на базе автоматического сбора вопросно-ответных пар из сети Интернет был разработан прототип модуля сбора базы данных вопросно-ответной системы.

Ключевые слова

вопросно-ответная пара; ассоциативно-онтологический подход; текст на естественном языке; автоматическая обработка текста; распознавание речи

Полный текст:

PDF

DOI: http://dx.doi.org/10.14529/mmph180307

Ссылки

На текущий момент ссылки отсутствуют.

Имя пользователя
Пароль
Запомнить меня

Серия «Математика. Механика. Физика»

Methods of Speech and Text Databases Development for QA-Systems

Аннотация

Ключевые слова

Полный текст:

Ссылки