Формирование синтетических данных в моделях машинного обучения на основе кратномасштабного анализа двоичных марковских моделей

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Представлен метод формирования синтетических данных для обучения систем в условиях двоичных марковских источников данных, основанный на полученных в результате кратномасштабного анализа оценках элементов матриц переходных вероятностей двоичных цепей Маркова, отличающийся от известных учетом диапазонов значений элементов матриц в наблюдаемых объектах. Предложен алгоритм формирования синтетических данных, реализующий вычисление элементов матриц переходных вероятностей в пределах оценок, полученных на реальных данных. Результаты вычислительного эксперимента, организованного для проверки качества машинного обучения с использованием разработанных способа и алгоритма, подтвердили возможность повышения качества систем искусственного инетеллекта.

Об авторах

Павел Юрьевич Пушкин

МИРЭА – Российский технологический университет

Автор, ответственный за переписку.
Email: pushkin@mirea.ru
SPIN-код: 9901-4887

кандидат технических наук, доцент, директор, Институт перспективных технологий и индустриального программирования

Россия, Москва

Михаил Юрьевич Конышев

МИРЭА – Российский технологический университет

Email: konyshev@mirea.ru
SPIN-код: 4213-7083

доктор технических наук, доцент, профессор, кафедра КБ-1 «Защита информации», Институт кибербезопасности и цифровых технологий

Россия, Москва

Дмитрий Сергеевич Перевезенцев

МИРЭА – Российский технологический университет

Email: perevezentsev@mirea.ru

старший преподаватель, базовая кафедра БК-252, Институт искусственного интеллекта

Россия, Москва

Александр Сергеевич Грачев

МИРЭА – Российский технологический университет

Email: grachyov@mirea.ru
SPIN-код: 2556-2201

старший преподаватель, кафедра КБ-1, Институт кибербезопасности и цифровых технологий

Россия, Москва

Список литературы

  1. Беляева О.В., Перминов А.И., Козлов И.С. Использование синтетических данных для тонкой настройки моделей сегментации документов // Труды Института системного программирования РАН. 2020. Т. 32. № 4. С. 189–202.
  2. Мосалов О.П. Использование генеративно-состязательных сетей в задаче предсказания существования ребер в онтологическом графе // Информационно-технологический вестник. 2020. № 4 (26). С. 96–103.
  3. Лаптев В.В., Данилов В.В. Исследование вариационного автоэнкодера для синтеза новых медицинских данных // Сборник избранных статей научной сессии ТУСУР. 2020. № 1-2. С. 68–70.
  4. Anderson T.W. The statistical analysis of time series. New York, 1971. 704 p.
  5. Конышев М.Ю., Иванов В.А., Тараканов О.В. и др. Двоичные цепи Маркова и их приложения. М.: МИРЭА, 2023. 181 с.
  6. Конышев М.Ю., Баранов В.А., Близнюк В.И. и др. Методы анализа и синтеза двоичных случайных последовательностей. Орёл: Академия Федеральной службы охраны Российской Федерации, 2020. 120 с.
  7. Агамиров Л.В., Агамиров В.Л., Вестяк В.А. Вычисления обратных функций распределений: алгоритмы и программы // Программные продукты и системы. 2024. № 2. С. 137–145.
  8. Ли Ц., Джадж Д., Зельнер А. Оценивание параметров Марковских моделей по агрегированным временным рядам. М.: Статистика, 1977. 221 с.
  9. Глускин В.А., Дементьев А.Н., Гондаренко Е.А. и др. Оценивание параметров источников ошибок в дискретных каналах связи с группированием ошибок // Динамика сложных систем XXI век. 2023. Т. 17. № 4. С. 56–69.
  10. Федер Е. Фракталы / пер. с англ. М.: Мир, 1991. 254 с.
  11. Близнюк В.И., Конышев М.Ю., Иванов В.А., Харченко С.В. Метод направленного перебора рядов распределений в задачах моделирования марковских двоичных последовательностей // Промышленные АСУ и контроллеры. 2015. № 5. С. 40–45.
  12. Баранов В.А., Конышев М.Ю., Привалов А.А., Шестаков А.В. Верификация криптографических алгоритмов на основе использования метода симуляции двоичных случайных последовательностей с заданными статистическими свойствами // Наукоемкие технологии в космических исследованиях Земли. 2019. Т. 11. № 6.
  13. Иванов В.А., Конышев М.Ю., Маркин А.В. Концептуальная модель источника сообщений на выходе мультиплексора для исследования свойств двоичного потока в процедурах сжатия данных // Техника средств связи. 2022. № 1 (157). С. 61–68.
  14. Иванов В.А., Конышев М.Ю., Иванов И.В. Применение акселерации трафика в сетях многоканальной радиосвязи // Технологии информационного общества: сб. трудов XVII Междунар. отраслевой науч.-техн. конф. (Москва, 2–3 марта 2023 г.). М.: Медиа паблишер, 2023. С. 26–28.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Граф вероятностей переходов для n-связной двоичной цепи Маркова

Скачать (96KB)
3. Рис. 2. Взаимосвязь распределений многомерных двоичных векторов

Скачать (584KB)
4. Рис. 3. Алгоритм расчета значений вероятностей рядов распределений двоичных векторов

Скачать (205KB)
5. Рис. 4. Вероятность правильного распознавания источников сообщений в зависимости от объема данных для обучения

Скачать (80KB)


Ссылка на описание лицензии: https://www.urvak.ru/contacts/

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».