ГИБРИДНЫЙ МЕТОД КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДАННЫХ С УЗКОСПЕЦИАЛИЗИРОВАННОЙ ТЕРМИНОЛОГИЕЙ
Аннотация
В условиях экспоненциального роста объемов текстовой информации, особенно в предметно-ориентированных областях (технических, медицинских, юридических), задача автоматической классификации текстов, насыщенных узкоспециализированной терминологией, приобретает критическую важность. Существующие подходы, включая трансформерные модели (BERT), часто демонстрируют снижение точности при работе с редкой или доменно-специфической лексикой из-за обучения на общеупотребительных корпусах. Целью исследования является разработка гибридного метода Combined Neural BERT (CNB), обеспечивающего максимальную точность классификации (100 %) для текстов со специализированной терминологией за счет синергетического объединения преимуществ контекстуальных языковых моделей, лексико-статистических методов и инструментов визуализации. Материалы и методы. Предложенный метод CNB интегрирует три ключевых компонента: 1) BERT (или его производные) для генерации глубоких контекстуальных эмбеддингов, учитывающих семантику и порядок слов; 2) полносвязные нейронные сети (FCNN), выступающие как классификатор на основе признаков от BERT и/или обрабатывающие лексико-статистические признаки; 3) метод «Облако слов» и TF-IDF для выделения и визуализации ключевых терминов домена, формирования словаря признаков и повышения интерпретируемости. Архитектура метода включает этапы: предобработка текста (нормализация, очистка), параллельное извлечение признаков (контекстуальные эмбеддинги BERT + TF-IDF векторы), объединение признаковых пространств, классификация с помощью FCNN, интерактивная настройка на основе анализа «Облака слов». Результаты. Гибридный подход CNB протестирован на реальном корпусе из 10 000 обращений жителей Челябинской области (7 тематических категорий) с использованием 70 ключевых терминов и 150 стоп-слов. Метод продемонстрировал 100%-ную точность классификации после трех итераций обучения (общее время 90 мин). Ключевые преимущества: высшая точность за счет компенсации слабых мест BERT в специализированных доменах лексико-статистическими признаками; улучшенная интерпретируемость благодаря визуализации ключевых терминов «Облаком слов»; эффективность обработки больших объемов специализированных текстов. Заключение. Разработанный гибридный метод CNB доказал свою исключительную эффективность для классификации текстов с узкоспециализированной терминологией. Он представляет собой мощный инструмент для аналитики предметно-ориентированных текстовых массивов (юридические документы, техническая документация, медицинские заключения и т. п.) в условиях постоянно растущих объемов данных. Перспективы включают адаптацию метода для других доменов и оптимизацию вычислительной эффективности.
Ключевые слова
классификация текстов, BERT, FCNN, гибридные модели, специализированная терминология, облако слов, семантический анализ
Полный текст:
PDFDOI: http://dx.doi.org/10.14529/ctcr250304
Ссылки
- На текущий момент ссылки отсутствуют.