АЛГОРИТМ СЕГМЕНТАЦИИ СЦЕН ВИДЕОЛЕКЦИЙ НА ОСНОВЕ СРАВНЕНИЯ ВИЗУАЛЬНЫХ ЭМБЕДДИНГОВ КАДРОВ

Милан Ерикович Исмагулов; Андрей Витальевич Мельников

doi:10.14529/ctcr260201

Авторы

Милан Ерикович Исмагулов Югорский государственный университет, Ханты-Мансийск, Россия http://orcid.org/0009-0007-3280-5259
Андрей Витальевич Мельников Югорский научно-исследовательский институт информационных технологий, Ханты-Мансийск, Россия http://orcid.org/0000-0002-1073-7108

DOI:

https://doi.org/10.14529/ctcr260201

Ключевые слова:

видеолекция, разграничение сцен, сегментация видеоданных, визуальные эмбеддинги, многомодельная обработка данных, трансформерные модели, анализ визуального содержания, автоматизированная обработка образовательного контента

Аннотация

В условиях роста объема учебных материалов в формате видеолекций актуальной является задача их автоматического преобразования в письменный формат, который обеспечивает в ряде случаев лучшее усвоение. Использование для решения этой задачи ручной разметки видеолекций характеризуется высокой трудоемкостью, что обуславливает необходимость разработки алгоритмических методов разграничения видеолекций на смысловые фрагменты на основе анализа визуальной информации. Цель исследования: разработка алгоритма сегментации видеолекций на сцены, основанного на сравнении визуальных эмбеддингов кадров. Предлагаемый подход направлен на выявление границ временных интервалов видеолекции, внутри которых сохраняется устойчивость визуального содержания, что позволяет интерпретировать такие интервалы, как сцены, соответствующие логически завершённым фрагментам изложения учебного материала. Материалы и методы. В современных исследованиях задачи автоматизированной обработки видеолекций часто решаются с использованием мультимодальных больших языковых моделей, способных учитывать взаимосвязи между аудиальной и визуальной информацией. Вместе с тем применение подобных моделей сопровождается рядом ограничений, связанных с интерпретируемостью результатов, вычислительной сложностью и требованиями к объему обучающих данных. В рамках исследования используется метод многомодельной обработки видеоданных, основанный на раздельном анализе модальностей видеолекции с применением специализированных моделей. Такой подход позволяет учитывать особенности каждого типа данных и повышать точность обработки. Для анализа визуальной информации применяются модели трансформерных эмбеддингов, в частности DINOv2 и CLIP, обеспечивающие получение устойчивых и семантически информативных представлений кадров, используемых для их последующего сравнения и выявления границ сцен. Результаты. В результате проведенного исследования был разработан многоступенчатый алгоритм разграничения видеолекций на сцены, основанный на использовании визуальных эмбеддингов кадров. Лучшим результатом обладают алгоритмы, основанные на модели DINOv2. Качество разграничения оценивалось путем сравнения предсказанных границ сцен с эталонной разметкой на основе метрик precision, recall и F1-score. Заключение. Значения указанных метрик подтверждают эффективность предложенного алгоритма при решении задачи автоматического разграничения видеолекций на сцены.

Биографии авторов

Милан Ерикович Исмагулов, Югорский государственный университет, Ханты-Мансийск, Россия

аспирант 3-го года обучения по направлению 2.3.1 «Системный анализ, управление и обработка информации, статистика», Инженерная школа цифровых технологий, Югорский государственный университет, Ханты-Мансийск, Россия

Андрей Витальевич Мельников, Югорский научно-исследовательский институт информационных технологий, Ханты-Мансийск, Россия

д-р техн. наук, проф., Инженерная школа цифровых технологий, Югорский государственный университет, Ханты-Мансийск, Россия; директор, Югорский научно-исследовательский институт информационных технологий, Ханты-Мансийск, Россия