АЛГОРИТМ СЕГМЕНТАЦИИ СЦЕН ВИДЕОЛЕКЦИЙ НА ОСНОВЕ СРАВНЕНИЯ ВИЗУАЛЬНЫХ ЭМБЕДДИНГОВ КАДРОВ
Аннотация
В условиях роста объема учебных материалов в формате видеолекций актуальной является задача их автоматического преобразования в письменный формат, который обеспечивает в ряде случаев лучшее усвоение. Использование для решения этой задачи ручной разметки видеолекций характеризуется высокой трудоемкостью, что обуславливает необходимость разработки алгоритмических методов разграничения видеолекций на смысловые фрагменты на основе анализа визуальной информации. Цель исследования: разработка алгоритма сегментации видеолекций на сцены, основанного на сравнении визуальных эмбеддингов кадров. Предлагаемый подход направлен на выявление границ временных интервалов видеолекции, внутри которых сохраняется устойчивость визуального содержания, что позволяет интерпретировать такие интервалы, как сцены, соответствующие логически завершённым фрагментам изложения учебного материала. Материалы и методы. В современных исследованиях задачи автоматизированной обработки видеолекций часто решаются с использованием мультимодальных больших языковых моделей, способных учитывать взаимосвязи между аудиальной и визуальной информацией. Вместе с тем применение подобных моделей сопровождается рядом ограничений, связанных с интерпретируемостью результатов, вычислительной сложностью и требованиями к объему обучающих данных. В рамках исследования используется метод многомодельной обработки видеоданных, основанный на раздельном анализе модальностей видеолекции с применением специализированных моделей. Такой подход позволяет учитывать особенности каждого типа данных и повышать точность обработки. Для анализа визуальной информации применяются модели трансформерных эмбеддингов, в частности DINOv2 и CLIP, обеспечивающие получение устойчивых и семантически информативных представлений кадров, используемых для их последующего сравнения и выявления границ сцен. Результаты. В результате проведенного исследования был разработан многоступенчатый алгоритм разграничения видеолекций на сцены, основанный на использовании визуальных эмбеддингов кадров. Лучшим результатом обладают алгоритмы, основанные на модели DINOv2. Качество разграничения оценивалось путем сравнения предсказанных границ сцен с эталонной разметкой на основе метрик precision, recall и F1-score. Заключение. Значения указанных метрик подтверждают эффективность предложенного алгоритма при решении задачи автоматического разграничения видеолекций на сцены.
Ключевые слова
видеолекция, разграничение сцен, сегментация видеоданных, визуальные эмбеддинги, многомодельная обработка данных, трансформерные модели, анализ визуального содержания, автоматизированная обработка образовательного контента
Полный текст:
PDFDOI: http://dx.doi.org/10.14529/ctcr260201
Ссылки
- На текущий момент ссылки отсутствуют.







