Formation of synthetic data in machine learning models based on multiscale analysis of binary Markov models

Capa

Citar

Texto integral

Acesso aberto Acesso aberto
Acesso é fechado Acesso está concedido
Acesso é fechado Somente assinantes

Resumo

A method for generating synthetic data for training systems in binary Markov data sources is presented, based on estimates of the elements of the transition probability matrices of binary Markov chains obtained as a result of a multiscale analysis, which differs from the known ones by taking into account the ranges of values of the matrix elements in the observed objects. An algorithm for the formation of synthetic data is proposed, which implements the calculation of elements of transition probability matrices within the estimates obtained on real data. The results of a computational experiment organized to test the quality of machine learning using the developed method and algorithm confirmed the possibility of improving the quality of artificial intelligence systems.

Sobre autores

Pavel Pushkin

MIREA – Russian Technological University

Autor responsável pela correspondência
Email: pushkin@mirea.ru
Código SPIN: 9901-4887

Cand. Sci. (Eng.), Associate Professor, Director, Institute of Advanced Technologies and Industrial Programming

Rússia, Moscow

Mikhail Konyshev

MIREA – Russian Technological University

Email: konyshev@mirea.ru
Código SPIN: 4213-7083

Dr. Sci. (Eng.), Associate Professor, Professor, Department KB-1 “Information Protection”, Institute of Cybersecurity and Digital Technologies

Rússia, Moscow

Dmitry Perevezentsev

MIREA – Russian Technological University

Email: perevezentsev@mirea.ru

senior lecturer, Basic Department BK-252, Institute of Artificial Intelligence

Rússia, Moscow

Alexander Grachev

MIREA – Russian Technological University

Email: grachyov@mirea.ru
Código SPIN: 2556-2201

senior lecturer, Department KB-1, Institute of Cybersecurity and Digital Technologies

Rússia, Moscow

Bibliografia

  1. Belyaeva O.V., Perminov A.I., Kozlov I.S. Using synthetic data for fine-tuning document segmentation models. Proceedings of the Institute for System Programming of the Russian Academy of Sciences. 2020. Vol. 32. No. 4. Pp. 189–202. (In Rus.)
  2. Mosalov O.P. Using generative adversarial networks in the problem of predicting the existence of edges in an ontological graph. Information Technology Bulletin. 2020. No. 4 (26). Pp. 96–103. (In Rus.)
  3. Laptev V.V., Danilov V.V. Study of variational autoencoder for synthesis of new medical data. In: Collection of selected articles of the scientific session of TUSUR. 2020. No. 1-2. Pp. 68–70.
  4. Anderson T.W. The statistical analysis of time series. New York, 1971. 704 p.
  5. Konyshev M.Yu., Ivanov V.A., Tarakanov O.V. et al. Binary Markov chains and their application. Moscow: MIREA, 2023. 181 p.
  6. Konyshev M.Yu., Baranov V.A., Bliznyuk V.I. et al. Methods of analysis and synthesis of binary random sequences. Orel: Academy of the Federal Security Service of the Russian Federation, 2020. 120 p.
  7. Agamirov L.V., Agamirov V.L., Vestyak V.A. Calculations of inverse distribution functions: Algorithms and programs. Software Products and Systems. 2024. No. 2. Pp. 137–145. (In Rus.)
  8. Li Ts., Judge D., Zellner A. Estimation of Markov model parameters from aggregated time series. Moscow: Statistika, 1977. 221 p.
  9. Gluskin V.A., Dementyev A.N., Gondarenko E.A. et al. Estimation of error source parameters in discrete communication channels with error grouping. Dynamics of Complex Systems XXI Century. 2023. Vol. 17. No. 4. Pp. 56–69. (In Rus.)
  10. Feder J. Fractals. Transl. from Engl. Moscow: Mir, 1991. 254 p.
  11. Bliznyuk V.I., Konyshev M.Yu., Ivanov V.A., Kharchenko S.V. Method of directed enumeration of distribution series in problems of modeling Markov binary sequences. Industrial ACS and Controllers. 2015. No. 5. Pp. 40–45. (In Rus.)
  12. Baranov V.A., Konyshev M.Yu., Privalov A.A., Shestakov A.V. Verification of cryptographic algorithms based on the use of the method of simulating binary random sequences with given statistical properties. High-tech in Space Research of the Earth. 2019. Vol. 11. No. 6. (In Rus.)
  13. Ivanov V.A., Konyshev M.Yu., Markin A.V. Conceptual model of a message source at the output of a multiplexer for studying the properties of a binary stream in data compression procedures. Communication Equipment. 2022. No. 1 (157). Pp. 61–68. (In Rus.)
  14. Ivanov V.A., Konyshev M.Yu., Ivanov I.V. Application of traffic acceleration in multichannel radio communication networks. In: Information society technologies. Collection of Proceedings of the XVII International Industry Scientific and Technical Conference (Moscow, March 2–3, 2023). Moscow: Media Puplisher, 2023. Pp. 26–28.

Arquivos suplementares

Arquivos suplementares
Ação
1. JATS XML
2. Fig. 1. Transition probability graph for an n-connected binary Markov chain

Baixar (96KB)
3. Fig. 2. Relationship between distributions of multidimensional binary vectors

Baixar (584KB)
4. Fig. 3. Algorithm for calculating the probability values of distribution series of binary vectors

Baixar (205KB)
5. Fig. 4. Probability of correct recognition of message sources depending on the volume of training data

Baixar (80KB)


Link à descrição da licença: https://www.urvak.ru/contacts/

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».