A Model for the intelligent analysis and detection of anomalies in the data of statistical observation of educational organizations

封面

如何引用文章

全文:

开放存取 开放存取
受限制的访问 ##reader.subscriptionAccessGranted##
受限制的访问 订阅存取

详细

This article describes an algorithm for applying an intelligent analysis model to detect anomalies in statistical observation data for educational organizations. The definition of an anomaly is given, typical anomalies that may be contained in statistical reporting data are analyzed. The classification of anomaly detection techniques is given depending on the level of markup of the training sample, and possible ways of marking up data to present the results of the anomaly search are analyzed. The analysis and description of the process of collecting and processing statistical data of educational organizations in the Scientific and Technical Center of RTU MIREA is carried out. The weaknesses of the data collection process are analyzed, which can be strengthened by applying intelligent analysis to search for anomalies in the data. The analysis and mathematical description of the format and features of the received and stored statistical data is carried out. An algorithm has been developed for preparing data for training an intelligent analysis model, taking into account their specifics, as well as the subsequent application of the trained model to detect anomalies in the data under consideration. The algorithm was tested on real data using the autoencoder neural network model.

作者简介

Nikita Vinogradov

MIREA – Russian Technological University

编辑信件的主要联系方式.
Email: vinogradov_n@mirea.ru
SPIN 代码: 1383-7078

graduate student, Institute for Advanced Technologies and Industrial Programming

俄罗斯联邦, Moscow

Igor Vostroknutov

MIREA – Russian Technological University

Email: vostroknutov_i@mail.ru
ORCID iD: 0000-0003-1690-7961
SPIN 代码: 7619-6288
Scopus 作者 ID: 57205359470
Researcher ID: B-5750-2017

Dr. Sci. (Pedag.), Professor, Institute for Advanced Technologies and Industrial Programming

俄罗斯联邦, Moscow

参考

  1. Bardasova I.A., Volkova E.A. Anomaly detection in emails using machine learning. Vestnik Nauki. 2024. Vol. 4. No. 5 (74). Pp. 1350–1358. (In Rus.)
  2. Grusho A.A. et al. Anomaly detection in big data. Sistemy i Sredstva Informatiki. 2022. Vol. 32. No. 1. Pp. 160–167. (In Rus.)
  3. Mikhnyaev A.L. et al. Anomaly detection in technological process data. In: Proceedings of the Conference “Digital Environment: Technologies and Prospects” (DETP 2022). N.N. Shalobyta (ed.) et al. Brest: Belarus: Brest State Technical University, 2022. Pp. 62–65.
  4. Safronov D.A., Katser Yu.D., Zaitsev K.S. Anomaly detection using autoencoders. International Journal of Open Information Technologies. 2022. Vol. 10. No. 8. Pp. 39–45. (In Rus.)
  5. Tokarev V.V. A review of machine learning methods used for outlier removal in datasets. In: Scientific review: Current issues of theory and practice. Proceedings of the V International Scientific and Practical Conference. Penza: Nauka i Prosveshchenie, 2023. Pp. 18–24.
  6. Shkodyrev V.P. et al. A survey of anomaly detection methods in data streams. In: Proceedings of the Second Conference on Software Engineering and Information Management. Vol. 1864. St. Petersburg, 2017.
  7. Shelukhin O.I., Ryabinin V.S. Anomaly detection in big data from unstructured system logs. Voprosy Kiberbezopasnosti. 2019. Vol. 2. No. 30. Pp. 36–41. (In Rus.)
  8. Zimek A., Schubert E. Outlier detection. In: Encyclopedia of database systems. New York: Springer, 2017.
  9. Braei M., Wagner S. Anomaly detection in univariate time-series: A survey on the state-of-the-art. arXiv preprint arXiv:2004.00433. 2020.
  10. Chandola V., Banerjee A., Kumar V. Anomaly detection: A survey. ACM computing surveys (CSUR). 2009. Vol. 41. No. 3. Pp. 1–58.
  11. Salgado C.M., Azevedo C., Proenca H., Vieira S.M. Noise versus outliers. Cham: Springer International Publishing, 2016. Pp. 163–183.
  12. Charu C. Aggarwal. outlier analysis. 2nd ed. Springer Publishing Company, Inc., 2016. ISBN: 3319475770.
  13. Hojjati H., Ho T.K.K., Armanfard N. Self-supervised anomaly detection: A survey and outlook. arXiv preprint arXiv:2205.05173. 2022.
  14. Ruff L. et al. A unifying review of deep and shallow anomaly detection. Proceedings of the IEEE. 2021. Vol. 109. No. 5. Pp. 756–795.
  15. Smiti A. A critical overview of outlier detection methods. Computer Science Review. 2020. Vol. 38. P. 100306.

补充文件

附件文件
动作
1. JATS XML
2. Fig. 1. Graph of the chain of related indicators for all time

下载 (304KB)
3. Fig. 2. Examples of how the autoencoder works on data from several organizations

下载 (339KB)
4. Fig. 3. An example of a result for searching for anomalies in data using an autoencoder

下载 (118KB)


许可 URL: https://www.urvak.ru/contacts/

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».