Мультимодальная нейросетевая обработка видеолекции посредством мультиагентных систем

Обложка

Цитировать

Полный текст

Аннотация

Предмет исследования: мультимодальная обработка видеолекций с использованием мультиагентных систем. Статья фокусируется на промежуточных результатах исследования, включая обзор понятий мультимодальности, мультиагентности и многомодельных систем, а также на разработке подходов к обработке видеоданных из лекций.

Цель исследования: преобразование всей релевантной информации из видеолекции в текстовый документ для формирования сопровождающего конспекта лекции. Цель – разработать эффективный цикл обработки данных, учитывая различия в форматах видеолекций.

Методы исследования: выбор паттерна «Оркестратор-исполнитель» (Orchestrator-Worker Pattern) с большой языковой моделью (LLM) в роли оркестратора. Обзор альтернативных подходов, а именно одноранговый децентрализованный паттерн и гибридный паттерн, с обоснованием выбора оркестраторного подхода для обеспечения последовательной обработки и отказоустойчивости. Интеграция конвейерной обработки видеопотока в мультиагентную систему (гибридный подход).

Объекты исследования в данной статье представляют собой видеолекции трех основных типов, служащие источниками мультимодальных данных для анализа и обработки. Первый тип – «Лектор и презентация» – включает видеозаписи, где лектор располагается слева или справа от сопровождающей презентации, с акцентом на визуальное сочетание человеческой фигуры и слайдов. Второй тип – «Презентация и закадровый голос» – фокусируется на теоретическом материале, представленном на слайдах презентации, с объяснением за кадром через аудиодорожку. Третий тип – «Лектор и доска» – охватывает записи, где лектор пишет материал на классической меловой или маркерной доске, подчеркивая рукописный ввод информации.

Основные результаты исследования: разработана и обоснована архитектура мультиагентной системы на основе паттерна «Оркестратор-исполнитель» с гибридным подходом, интегрирующим конвейерную обработку видео в мультиагентную среду для эффективного распределения задач и управления нагрузкой. Выбраны и описаны модели и инструменты, а именно оркестраторы, модели аудиообработки, OCR, с учетом типов лекций для адаптивных конвейеров. Описано функционирование агентов, инициализация, взаимодействие с оркестратором, параллельная обработка аудио/видео, агрегация результатов в текстовый документ с возможностью скачивания/печати.

Полный текст

ВВЕДЕНИЕ

Мультимодальность в информационных науках и машинном обучении – это концепция, связанная с обработкой данных различных форм из разнородных источников, что особенно актуально для обработки такого типа данных, как видеолекция, так как при декомпозиции на первом этапе получается 4 источника данных, а именно видеоряд, аудиодорожка, возможно наличие субтитров и метаданных, а на втором этапе возможно разложение видеоряда на последовательность кадров. На данном этапе развития методов искусственного интеллекта и машинного обучения для обработки видеоряда активно применяются трансформерные нейросетевые модели, например дообученные модели ViT (Visual Transformers), OpenAI CLIP или LLaMa Vision [1; 2]. Для обработки аудио применяются модели speech-to-text, OpenAI Whisper, Alphacep-vosk и т. д. [3]. Модели на основе трансформеров способны эффективно извлекать контекст и обрабатывать данные, однако требуют хорошо размеченных мультимодальных данных, больших вычислительных ресурсов для дообучения и инференса [4].

Также активно начинают разрабатываться многомодельные методы обработки данных. Многомодельность – это подход, при котором данные обрабатываются последовательно или параллельно несколькими моделями, делается это для преобразования данных, для улучшения их обработки или для обеих этих целей [5]. Например, аудиодорожка преобразуется моделью в текст и подается на вход большой языковой модели для исправления синтаксических ошибок [6].

Мультиагентность – это подход к решению сложных задач, при котором задача декомпозируется на более простые подзадачи. Эти подзадачи распределяются между автономными агентами, обладающими своей компетенцией (возможно, реализованной разными моделями или алгоритмами) и действующими на основе собственных целей. Агенты функционируют децентрализованно, или взаимодействуют друг с другом, или через центральную модель-оркестратор в процессе решения (включая обмен данными, координацию или переговоры). Конечный результат формируется путем агрегации выходов агентов или является следствием совместной обработки задачи [7].

Постановка задачи. Основной задачей в исследовании является преобразование всей релевантной информации из видеолекции в текстовый документ посредством мультимодальной обработки. Это необходимо для формирования сопровождающего конспекта лекции для видео. В исследовании рассматривается возможность преобразования видеолекций 3 видов:

  1. Лекция «Лектор и презентация» представляет собой видеозапись, в которой лектор находится слева или справа от сопровождающей его презентации, подробнее на рисунке 1.
  2. Лекция «Презентация и закадровый голос» представляет собой видеозапись, в которой основной упор делается на теоретический материал, представленный на презентации, а закадровый голос объясняет этот материал.
  3. Лекция «Лектор и доска» представляет собой видеозапись, в которой лектор пишет материал на классической меловой или маркерной доске.

Поскольку видеоформат во всех лекциях разный, можно сделать вывод, что и алгоритмы обработки этих видов будут различаться, так как обработка и абстрагирование данных будут разными [8].

 

Рисунок 1. Иллюстрация видеолекции «Лектор и презентация»

 

Выбранный метод решения поставленной задачи. Из определения мультиагентности, представленного в данной статье, известно, что подобные методы хорошо справляются с задачами, где требуется обработка сложных данных. Поскольку видеолекция достаточно просто декомпозируется на составляющие (видеоряд в последовательность кадров, аудиодорожку, метаданные), возможно построить мультиагентную систему, способную извлекать релевантные данные и преобразовывать их в текстовый документ.

Существует 3 базовых метода построения мультиагентных систем:

  1. Мультиагентная система с одноранговыми децентрализованными агентами, в которой агенты находятся на одной иерархии и обмениваются сообщениями на равных; могут быть полносвязанными и неполносвязанными [9; 10; 11]. Схема данного паттерна изображена на рисунке 2.

 

Рисунок 2. Схема мультиагентного паттерна с одноранговыми децентрализованными агентами с неполной связью

 

  1. Мультиагентная система, построенная по принципу «Оркестратор-исполнитель» (Orchestrator-Worker Pattern). В разной литературе оркестратор может называться дирижером, менеджером задач или агентом-контроллером, а исполнитель – агентом-рабочим. Построена по принципу иерархии, где оркестратор раздает задачи агентам и принимает от них результат выполнения задания. Агенты не имеют горизонтальных связей [12]. Схема данного паттерна изображена на рисунке 3.

 

Рисунок 3. Схема мультиагентного паттерна «Orchestrator-Worker Pattern»

 

  1. Гибридный метод сочетает в себе первые 2 метода, например через реализацию сложных агентов-рабочих, которые могут обмениваться сообщениями друг с другом, или нескольких оркестраторов, которые соединены как одноранговые агенты, а также нескольких оркестраторов, которые иерархически подчиняются другому оркестратору [13]. Схема данного паттерна изображена на рисунке 4.

 

Рисунок 4. Схема мультиагентного паттерна с гибридным подходом

 

Как видно из схемы, присутствует 4 одноранговых агента, работающих над одной задачей (P2P-сеть), и в процессе работы агенты обмениваются сообщениями о своих состояниях, для обработки видео подобный паттерн не подходит по ряду причин. Первое – видеолекции характеризуются высоким объемом данных (HD/4K, длительная продолжительность). В P2P-сетях каждый узел должен ретранслировать данные другим участникам, что создает экспоненциальный рост сетевой нагрузки. При числе узлов N количество соединений достигает , приводя к перегрузке каналов даже в средних группах. Например, протокол передачи данных RTMP, оптимизированный для низкой задержки, эффективен только в модели «один-ко-многим», но не «многие-ко-многим».

Обработка видео требует конвейерных операций: декодирование, анализ кадров, распознавание текста/объектов.

В децентрализованной P2P-среде:

  • невозможно гарантировать порядок выполнения этапов из-за равной иерархии агентов и отсутствия явного планировщика работы;
  • зависимые задачи (например, распознавание речи) требуют сложных механизмов синхронизации;
  • динамическая балансировка нагрузки затруднена из-за отсутствия глобального планировщика.

Современные исследования (например, на примере FANET для дронов) подтверждают, что сильная децентрализация оправдана только для задач с низким объемом данных и высокой динамичностью узлов.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

В качестве архитектуры для решения поставленной задачи был выбран паттерн независимых агентов-рабочих с оркестратором «Orchestrator-Worker Pattern», рисунок 3. Видеолекции требуют сложной многоэтапной обработки (декодирование, анализ кадров, распознавание речи, генерация субтитров). В паттерне Orchestrator-Worker центральный координатор (Orchestrator) динамически разбивает задачу на параллельно выполняемые подзадачи, которые распределяются между специализированными Worker-агентами. Это исключает дублирование функций и оптимизирует загрузку вычислительных ресурсов (например, GPU для нейросетевых задач). Эксперименты показывают до 40% сокращение времени обработки по сравнению с одноранговыми моделями [14].

При отказе Worker-агента Orchestrator автоматически перераспределяет его подзадачу другому агенту, сохраняя прогресс выполнения. В event-driven-реализациях (например, с использованием Kafka) это обеспечивается механизмами репликации и повторной обработки событий [15]. Для видеолекций длительностью 60+ минут такая отказоустойчивость критична, тогда как в P2P восстановление после сбоев требует ручной координации.

Выбранные модели, алгоритмы и инструменты для реализации предложенного метода. В первую очередь пользователь через специальный элемент должен указать путь до файла видеолекции и выбрать тип лекции (рисунок 5) из представленных в пункте «Постановка задачи». В качестве оркестратора рассматриваются следующие модели – Qwen 72b-Instruct и Mistral Large-2 Instruct. Приписка Instruct в названии модели говорит о том, что модель лучше подходит для задач, связанных с выполнением четких инструкций.

 

Рисунок 5. Схема взаимодействия пользователя и оркестратора

 

От оркестратора пользователь получает коллбек-информацию о ходе выполнения обработки видеолекции. Следующим этапом предполагается использование инициализации агентов-исполнителей, оркестратор опрашивает агентов о готовности к работе, проверяет доступ API-ключей. Если агенты не отвечают на запрос, происходит информирование пользователя и переключение на другого агента со схожей функциональностью. Для оркестрации возможно использование следующих библиотек: LangChain, LangGraph, CrewAI. В данных библиотеках существуют следующие типы агентов:

  1. Интеллектуальный автономный (может быть ИИ-агентом) – чаще всего это агент с функциями обучения, дообучения или адаптации.
  2. Оркестратор – в других источниках также может обозначаться как дирижер, мастер (часто встречается в англоязычной литературе), менеджер. Особый вид агента, который распределяет задачи между агентами и координирует их действия и, возможно, агрегирует финальный результат.
  3. Инструменты – по своей сути это обычные алгоритмы, утилиты и функции, написанные на каком-либо языке программирования; необходимы для обработки, проверки и иных действий с данными.

Первым агентом-обработчиком является агент, извлекающий кадры видео и аудиодорожку, подробнее на рисунке 6. В качестве ответа этот агент отправляет оркестратору сообщение о выполнении операции и путь до файлов. В случае неудачи отправляет код ошибки.

 

Рисунок 6. Схема взаимодействия оркестратора и агента, декомпозирующего видеолекцию

 

Следующим этапом обработки является параллельная обработка аудиоданных и последовательности кадров. Для этого разработан AI-агент с моделью OpenAI Whisper-Medium, преобразующей аудио в текст формата JSON-нотаций с таймингами. Интеллектуальные агенты, обрабатывающие кадры, должны извлекать уникальные кадры, содержащие в себе изображения с текстовой информацией, и в зависимости от типа лекций оркестратор подберет наиболее подходящий конвейер обработки видеоряда. Схема данного процесса представлена на рисунке 7.

 

Рисунок 7. Схема взаимодействия оркестратора и агентов обработки аудио- и видеорядов

 

Последним этапом происходит оптическое распознавание символов и агрегация текстовых файлов в формате JSON в единый текстовый документ. Для этого используются ИИ-агенты, основанные на моделях Mistral OCR, LeChat, Qwen и Google Gemini Flash 2.0. Финальный документ передается в интерфейс пользователя для ознакомления с последующей возможностью скачивания или печати, схема процесса представлена на рисунке 8.

 

Рисунок 8. Схема взаимодействия оркестратора и агентов оптического распознавания символов и агрегаторов текстового документа

 

Особенности реализации предложенного метода. Ключевым элементом представленной работы является предложенный гибридный подход, интегрирующий конвейерную обработку видеопотока в мультиагентную систему. Этот подход формирует основное архитектурное решение, где этапы извлечения и предварительной обработки видеоданных из лекций выстраиваются в последовательный конвейер, результаты работы которого затем используются специализированными агентами для решения конкретных задач. Подобная интеграция позволяет эффективно управлять сложностью обработки видео и распределять вычислительную нагрузку между агентами, развернутыми как на локальных серверах, так и взаимодействующими с внешними API. Поскольку типы лекций разные, то и для каждого уникального случая возможно выстраивать свой конвейер обработки, тем самым гипотетически обрабатывать все виды видеолекций.

ЗАКЛЮЧЕНИЕ И ВЫВОДЫ

Промежуточная стадия работы была сосредоточена на разработке и обосновании архитектуры мультимодальной мультиагентной системы и выборе специализированных моделей для каждого этапа конвейера обработки видеолекций. В качестве оркестратора предложены LLM‑модели Qwen 72b-Instruct и Mistral Large-2 Instruct, для преобразования аудиодорожки в текст выбрана модель OpenAI Whisper‑Medium, для извлечения и анализа ключевых кадров – пайплайн-алгоритмы с нейросетевыми моделями, а для оптического распознавания текста – Mistral OCR и Google Gemini Flash 2.0. Выбранная гибридная архитектура «Оркестратор-Исполнитель» обеспечивает динамическое разбиение задач, параллельную обработку и автоматическое перераспределение при сбоях, а уникальные виды обработки (селекция уникальных кадров, способы агрегации JSON‑аннотаций, гибкая настройка конвейерных сегментов под разные форматы лекций) заложены в основу представленной системы. Далее предстоит реализовать прототип и оценить эффективность предложенной архитектуры на реальных видеолекциях.

×

Об авторах

Милан Ерикович Исмагулов

Югорский государственный университет

Автор, ответственный за переписку.
Email: m_ismagulov@ugrasu.ru

аспирант 3 года обучения направления, «Системный анализ, управление и обработка информации, статистика» Инженерной школы цифровых технологий

Россия, Ханты-Мансийск

Список литературы

  1. Zhao, B. Hierarchical multimodal transformer for long video generation / B. Zhao, M. Gong, X. Li. – doi: 10.1016/j.neucom.2021.10.039 // Neurocomputing. – 2022. – Vol. 471. – P. 36–43.
  2. VDTR: Video Deblurring with Transformer / M. Cao, Y. Fan, Y. Zhang [et al.]. – doi: 10.1109/TCSVT.2022.3201045 // IEEE Transactions on Circuits and Systems for Video Technology. – 2022. – Vol. 33. – P. 160–171.
  3. Efficient Training of Audio Transformers with Patchout / K. Koutini, J. Schlüter, H. Eghbal-zadeh, G. Widmer. – doi: 10.21437/Interspeech.2022-227 // Interspeech. – 2022. – P. 2753–2757.
  4. Comprehensive Survey on Applications of Transformers for Deep Learning Tasks / S. Islam, H. Elmekki, A. Elsebai [et al.]. – doi: 10.48550/arXiv.2306.07303 // ArXiv. – URL: https://arxiv.org/html/2306.07303 (date of application: 21.06.2025).
  5. Large Language Model Should Understand Pinyin for Chinese ASR Error Correction / Y. Li, X. Qiao, X. Zhao [et al.] // ArXiv. – URL: https://arxiv.org/abs/2409.13262 (date of application: 21.06.2025).
  6. AudioPaLM: A Large Language Model That Can Speak and Listen / P. K. Rubenstein, C. Asawaroengchai, A. Bapna [et al.] // ArXiv. – URL: https://arxiv.org/abs/2306.12925 (date of application: 21.06.2025).
  7. Gutowska, A. What is a multiagent system? / A. Gutowska // IBM сайт. – URL: https://www.ibm.com/think/topics/multiagent-system/ (date of application: 21.06.2025).
  8. Ismagulov, М. Е. Methods and Algorithms for Multimodal Conversion of Video Lectures / М. Е. Ismagulov // Proceedings of the XXIV International Conference on Information Technologies and Mathematical Modelling (ITMM-2024) (Tomsk, 2024). – Tomsk : Tomsk State University, 2024. – P. 605–607. – URL: https://www.researchgate.net/publication/391833448_1_Conf erence_proceedings_with_your_article_Ismagulov_M_E_Methods_and_Algorithms_for_Multimodal_Conversion_of_Video_Lectures (date of application: 17.05.2025).
  9. Лекция 10. Распределенные интеллектуальные системы на основе агентов // Ronl. – URL: https://ronl.org/lektsii/informatika/882253/ (дата обращения: 21.06.2025).
  10. A decentralized optimization approach for scalable agent-based energy dispatch and congestion management / M. Kilthau, V. Henkel, L. P. Wagner [et al.]. – doi: 10.1016/j.apenergy.2024.124659 // Applied Energy. – 2025. – Vol. 377, Part C. – URL: https://www.sciencedirect.com/science/article/pii/S0306261924020427?via%3Dihub (date of application: 17.05.2025).
  11. Zhang, H. L. Classification of Intelligent Agent Network Topologies and a New Topological Description Language for Agent Networks / H. L. Zhang, C. H. C. Leung, G. K. Raikundalia. – doi: 10.1007/978-0-387-44641-7_3 // Intelligent Information Processing III : Proceedings of the IFIP International Conference. – Boston : Springer, 2006. – P. 21–31.
  12. Mwifunyi, R. J. Distributed approach in fault localisation and service restoration: State-of-the-Art and future direction / R. J. Mwifunyi, M. M. Kissaka, N. H. Mvungi. – doi: 10.1080/23311916.2019.1628424 // Cogent Engineering. – 2019. – Vol. 6. – P. 1–20. – URL: https://www.researchgate.net/publication/344738267_Distributed_approach_in_fault_localisation_and_service_restoration_State-of-the-Art_and_future_direction (date of application: 08.06.2025).
  13. Finio, M. What is AI agent orchestration? / M. Finio, A. Downie // IBM. – URL: https://www.ibm.com/think/topics/ai-agent-orchestration (date of application: 21.06.2025).
  14. Falconer, S. The orchestrator-worker pattern is a well-known design pattern for structuring multi-agent systems / S. Falconer // LinkedIn. – URL: https://www.linkedin.com/posts/seanf_the-orchestrator-worker-pattern-is-a-well-known-activity-7294775230353313792-_zFL (date of application: 21.06.2025).
  15. Orchestrator-Workers Workflow // Java AI Dev. – URL: https://javaaidev.com/docs/agentic-patterns/patterns/orchestrator-workers-workflow/ (date of application: 21.06.2025).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рисунок 1. Иллюстрация видеолекции «Лектор и презентация»

Скачать (481KB)
3. Рисунок 2. Схема мультиагентного паттерна с одноранговыми децентрализованными агентами с неполной связью

Скачать (139KB)
4. Рисунок 3. Схема мультиагентного паттерна «Orchestrator-Worker Pattern»

Скачать (186KB)
5. Рисунок 4. Схема мультиагентного паттерна с гибридным подходом

Скачать (150KB)
6. Рисунок 5. Схема взаимодействия пользователя и оркестратора

Скачать (177KB)
7. Рисунок 6. Схема взаимодействия оркестратора и агента, декомпозирующего видеолекцию

Скачать (200KB)
8. Рисунок 7. Схема взаимодействия оркестратора и агентов обработки аудио- и видеорядов

Скачать (355KB)
9. Рисунок 8. Схема взаимодействия оркестратора и агентов оптического распознавания символов и агрегаторов текстового документа

Скачать (434KB)

© Югорский государственный университет, 2025

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-ShareAlike 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».