МОДЕЛЬ РЕГРЕССИОННОГО АНАЛИЗА ТОНАЛЬНОСТИ ТЕКСТА ДЛЯ ОЦЕНКИ УРОВНЯ УДОВЛЕТВОРЕННОСТИ КЛИЕНТА
Аннотация
Статья посвящена моделированию автоматизированного извлечения тональной информации об удовлетворенности клиента из текста отзыва. В условиях стремительного роста объемов текстовой информации анализ тональности текста становится ключевым инструментом принятия решений в сфере маркетинга, социологии, политологии и в других областях. Это обусловливает интерес к разработке точных и масштабируемых методов анализа тональности как одного из ключевых направлений обработки естественного языка сегодня. Целью данного исследования является разработка модели анализа тональности текста для решения задачи предсказания степени удовлетворенности пользователя медицинским учреждением по тексту отзыва, с применением гибридного подхода на основе лексиконов и машинного обучения. Работа выполнена на материале корпуса отзывов о частных клиниках Челябинска с портала 2GIS объемом 100 тыс. словоупотреблений. Единицы корпуса с помощью предметно-ориентированного тонального лексикона отнесены к четырем тональным классам (сильно отрицательная, умеренно отрицательная, умеренно положительная и сильно положительная оценка). В данной работе предложена модель множественной линейной регрессии для предсказания степени
удовлетворенности пользователя на основе параметров, в качестве которых выступают доли тонально размеченных единиц в тексте. Модель построена и обучена методом гребневой регрессии с настройкой параметра регуляризации через кросс-валидацию. Построенная модель показала высокую точность предсказаний пользовательских рейтингов медцентров со среднеквадратической ошибкой 0,0226 и коэффициентом детерминации 0,8182. Таким образом, предложенная модель на основе гибридного подхода подтвердила свою эффективность в предсказании оценок удовлетворенности по текстам.
удовлетворенности пользователя на основе параметров, в качестве которых выступают доли тонально размеченных единиц в тексте. Модель построена и обучена методом гребневой регрессии с настройкой параметра регуляризации через кросс-валидацию. Построенная модель показала высокую точность предсказаний пользовательских рейтингов медцентров со среднеквадратической ошибкой 0,0226 и коэффициентом детерминации 0,8182. Таким образом, предложенная модель на основе гибридного подхода подтвердила свою эффективность в предсказании оценок удовлетворенности по текстам.
Ключевые слова
анализ тональности текста, оценка удовлетворенности, гибридный подход, предметноориентированный тональный лексикон, множественная линейная регрессия, гребневая регрессия, медицинский центр, отзыв
Полный текст:
PDFСсылки
- На текущий момент ссылки отсутствуют.