Method for Processing Photo and Video Data from Camera Traps Using a Two-Stage Neural Network Approach

Vladislav A. Efremov; Ефремов Владислав Александрович; Andrey V. Leus; Леус Андрей Владимирович; Dmitry A. Gavrilov; Гаврилов Дмитрий Александрович; Daniil I. Mangazeev; Мангазеев Даниил Игоревич; Ivan V. Kholodnyak; Холодняк Иван Витальевич; Alexandra S. Radysh; Радыш Александра Сергеевна; Viktor A. Zuev; Зуев Виктор Александрович; Nikita A. Vodichev; Водичев Никита Алексеевич

doi:10.14357/20718594230310

Метод обработки фото- и видеоданных с фотоловушек с использованием двухстадийного нейросетевого подхода

Авторы: Ефремов В.А.¹, Леус А.В.¹, Гаврилов Д.А.¹, Мангазеев Д.И.¹, Холодняк И.В.¹, Радыш А.С.¹, Зуев В.А.¹, Водичев Н.А.¹
Учреждения:
1. Московский физико-технический институт (национальный исследовательский университет)
Выпуск: № 3 (2023)
Страницы: 98-108
Раздел: Анализ сигналов, аудио и видео информации
URL: https://journal-vniispk.ru/2071-8594/article/view/270353
DOI: https://doi.org/10.14357/20718594230310
ID: 270353

Цитировать

Аннотация

В работе предложена технология анализа данных с фотоловушек с помощью двухстадийной нейросетевой обработки. Задача первого этапа состоит в отделении пустых изображений от непустых. Для решения задачи проведен сравнительный анализ архитектур YOLOv5, YOLOR, YOLOX и выявлена наиболее оптимальная модель детектора. Задача второго этапа заключается в классификации объектов, найденных детектором. Сравнивались модели EfficientNetV2, SeResNet, ResNeSt, ReXNet, ResNet. Для обучения модели детектора и классификатора разработан подход подготовки данных, заключающийся в удалении изображений-дубликатов из выборки. Метод был модифицирован с помощью агломеративной кластеризации для разделения выборки на обучение, валидацию и тест. В задаче обнаружения объектов лучшим на наборе данных оказался алгоритм YOLOv5-L6 с точностью нахождения 98,5%. В задаче классификации найденных объектов, лучше всех себя показала архитектура ResNeSt-101 с качеством распознавания 98,339% на тестовых данных.

Ключевые слова

изображения с фотоловушек, агломеративная кластеризация, глубокие сверточные нейронные сети, детекция, классификация, двухстадийный подход