http://93.174.130.82/news/shownews.aspx?id=c9d788c7-9187-44e8-ad31-f9e3b3d49aca&print=1
© 2025 Российская академия наук

Изучена проблема перевода видео в текст

14.05.2024

Сотрудники Московского государственного университета им. М.В. Ломоносова провели исследование по проблеме перевода видео в текст, что позволит значительно сократить время поиска необходимой информации и повысить эффективность её обработки.

С появлением эпохи больших данных видеоконтент стал ключевым источником информации и развлечений. Однако, быстрый обзор огромного объёма видеоматериала стал проблемой, занимающей много времени. Для ускорения этого процесса и извлечения ценной информации из видео были разработаны алгоритмы перевода видеопоследовательностей в текст.

Перевод видео в текст представляет собой сложную задачу, решение которой становится все более актуальным в современном мире. Одним из перспективных подходов к этой проблеме являются мультимодальные модели, способные обрабатывать данные разных модальностей, включая текст, аудио и изображения.

В недавнем исследовании был проведён сравнительный анализ методов перевода видео в текст с использованием классификатора CLIP и различных мультимодальных моделей. Архитектуры различных подходов были тщательно изучены, выявлены их сильные и слабые стороны, а также определены ключевые направления для улучшения результатов, включая увеличение длительности видео и более детальное описание содержания.

«Наше исследование показывает значительный прогресс в области развития мультимодальных больших языковых моделей позволяющих переводить видео в текст, — отмечает сотрудник кафедры информационной безопасности факультета вычислительной математики и кибернетики МГУ Евгений Альбинович. — Эти модели открывают новые возможности для более эффективного анализа видеоматериала и извлечения ценной информации из него».

Исследования, результаты которого были представлены на Всероссийской конференции «Ломоносовские чтения-2024», является важным шагом в направлении разработки более точных и эффективных методов перевода видео в текст, что существенно упростит и ускорит обработку мультимедийной информации в цифровую эпоху.

Источник: МГУ.