Extrapolation of the Bayesian classifier with an unknown support of the two-class mixture distribution

Мұқаба

Дәйексөз келтіру

Толық мәтін

Ашық рұқсат Ашық рұқсат
Рұқсат жабық Рұқсат берілді
Рұқсат жабық Тек жазылушылар үшін

Аннотация

This work introduces a method aimed at enhancing the reliability of the Bayesian classifier. The method involves augmenting the training dataset, which consists of a mixture of distributions from two original classes, with artificially generated observations from a third, ‘background’ class, uniformly distributed over a compact set that contains the unknown support of the original mixture.This modification allows the value of the discriminant function outside the support of the training data distribution to approach a prescribed level (in this case, zero). Adding a decision option for ‘Refusal to Classify’, triggered when the discriminant function takes sufficiently small values, results in a localized increase in classifier reliability. Specifically, this approach addresses several issues: it enables the rejection of data that differs significantly from the training data; facilitates the detection of anomalies in input data; and avoids decision-making in ‘boundary’ regions when separating classes.The paper provides a theoretical justification for the optimality of the proposed classifier. The practical utility of the method is demonstrated through classification tasks involving images and time series.Additionally, a methodology for identifying trusted regions is proposed. This methodology can be used to detect anomalous data, cases of parameter shifts in class distributions, and areas of overlap between the distributions of the original classes. Based on these trusted regions, quantitative metrics for classifier reliability and efficiency are introduced.Bibliography: 23 titles.

Авторлар туралы

Kirill Lukyanov

Ivannikov Institute for System Programming of the RAS; Moscow Institute of Physics and Technology (National Research University); Research Center of the Trusted Artificial Intelligence ISP RAS

Email: lukyanov.k@ispras.ru

Pavel Yaskov

Steklov Mathematical Institute of Russian Academy of Sciences; National University of Science and Technology «MISIS»

Email: yaskov@mi-ras.ru
Scopus Author ID: 36635347000
ResearcherId: S-2745-2016
Candidate of physico-mathematical sciences

Andrey Perminov

Ivannikov Institute for System Programming of the RAS; Research Center of the Trusted Artificial Intelligence ISP RAS

Email: perminov@ispras.ru
ORCID iD: 0000-0001-8047-0114

A. Kovalenko

Academy of Cryptography of Russian Federation

Email: a.p.kovalenko@yandex.ru

Denis Turdakov

Ivannikov Institute for System Programming of the RAS; Research Center of the Trusted Artificial Intelligence ISP RAS

Email: turdakov@ispras.ru
ORCID iD: 0000-0001-8745-0984

Әдебиет тізімі

  1. A. Jishan, R. C. Green II, “Cost aware LSTM model for predicting hard disk drive failures based on extremely imbalanced S.M.A.R.T. sensors data”, Eng. Appl. Artif. Intell., 127 (2024), 107339, 11 pp.
  2. A. Caron, C. Hicks, V. Mavroudis, A view on out-of-distribution identification from a statistical testing theory perspective, 2024, 8 pp.
  3. Peng Cui, Jinjia Wang, “Out-of-distribution (OOD) detection based on deep learning: a review”, Electronics, 11:21 (2022), 3500, 19 pp.
  4. L. Devroye, L. Györfi, G. Lugosi, A probabilistic theory of pattern recognition, Appl. Math. (N. Y.), 31, Reprint of the 1996 original, Springer-Verlag, New York, 2013, xvi+636 pp.
  5. S. M. Djurasevic, U. M. Pesovic, B. S. Djordjevic, “Anomaly detection model for predicting hard disk drive failures”, Appl. Artif. Intell., 35:8 (2021), 549–566
  6. A. Farago, G. Lugosi, “Strong universal consistency of neural network classifiers”, IEEE Trans. Inform. Theory, 39:4 (1993), 1146–1151
  7. D. Hendrycks, K. Gimpel, A baseline for detecting misclassified and out-of-distribution examples in neural networks, 2016 (v1 – 2016), 12 pp.
  8. J. Jithish, B. Alangot, N. Mahalingam, Kiat Seng Yeo, “Distributed anomaly detection in smart grids: a federated learning-based approach”, IEEE Access, 11 (2023), 7157–7179
  9. A. Klein, Backblaze: Hard drive data and stats,
  10. Lingdong Kong, Shaoyuan Xie, Hanjiang Hu, Lai Xing Ng, B. Cottereau, Wei Tsang Ooi, “Robodepth: Robust out-of-distribution depth estimation under corruptions”, Adv. Neural Inf. Process. Syst., 36 (2023), 1–45
  11. Bo Li, Peng Qi, Bo Liu, Shuai Di, Jingen Liu, Jiquan Pei, Jinfeng Yi, Bowen Zhou, “Trustworthy AI: from principles to practices”, ACM Comput. Surveys, 55:9 (2023), 177, 46 pp.
  12. Jeremiah Zhe Liu, S. Padhy, Jie Ren, Zi Lin, Yeming Wen, G. Jerfel, Z. Nado, J. Snoek, D. Tran, B. Lakshminarayanan, “A simple approach to improve single-model deep uncertainty via distance-awareness”, J. Mach. Learn. Res., 24 (2023), 42, 63 pp.
  13. A. B. Nassif, M. Abu Talib, Q. Nasir, F. M. Dakalbab, “Machine learning for anomaly detection: a systematic review”, IEEE Access, 9 (2021), 78658–78700
  14. M. Perello-Nieto, T. D. M. E. S. Filho, M. Kull, P. Flach, “Background check: a general technique to build more reliable and versatile classifiers”, 2016 IEEE 16th international conference on data mining (ICDM), IEEE, 2016, 1143–1148
  15. R. Pinciroli, L. Yang, J. Alter, E. Smirni, “Lifespan and failures of SSDs and HDDs: similarities, differences, and prediction models”, IEEE Trans. Depend. Secure Comput., 20:1 (2023), 256–272
  16. K. Rasheed, A. Qayyum, M. Ghaly, A. Al-Fuqaha, A. Razi, J. Qadir, “Explainable, trustworthy, and ethical machine learning for healthcare: a survey”, Comput. Biol. Med., 149 (2022), 106043, 23 pp.
  17. Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, R. Dutta, R. Schaeffer, Sang T. Truong, Simran Arora, M. Mazeika, D. Hendrycks, Zinan Lin, Yu Cheng, S. Koyejo, Dawn Song, Bo Li, DecodingTrust: a comprehensive assessment of trustworthiness in GPT models, 2024 (v1 – 2023), 110 pp.
  18. Qibo Yang, Xiaodong Jia, Xiang Li, Jianshe Feng, Wenzhe Li, Jay Lee, “Evaluating feature selection and anomaly detection methods of hard drive failure prediction”, IEEE Trans. Reliab., 70:2 (2021), 749–760
  19. Hang Yu, Weixu Liu, Jie Lu, Yimin Wen, Xiangfeng Luo, Guangquan Zhang, “Detecting group concept drift from multiple data streams”, Pattern Recognition, 134 (2023), 109113, 11 pp.
  20. He Zhang, Bang Wu, Xingliang Yuan, Shirui Pan, Hanghang Tong, Jian Pei, “Trustworthy graph neural networks: aspects, methods, and trends”, Proc. IEEE, 112:2 (2024), 97–139
  21. Jing Zhang, Yuchao Dai, Mochu Xiang, Deng-Ping Fan, P. Moghadam, Mingyi He, C. Walder, Kaihao Zhang, M. Harandi, N. Barnes, Dense uncertainty estimation, 2021, 15 pp.
  22. Mingyu Zhang, Wenqiang Ge, Ruichun Tang, Peishun Liu, “Hard disk failure prediction based on blending ensemble learning”, Appl. Sci., 13:5 (2023), 3288, 22 pp.
  23. Zhilin Zhao, Statistical methods for out-of-distribution detection, PhD thesis, Univ. Technology Sydney, 2023, 107 pp.

Қосымша файлдар

Қосымша файлдар
Әрекет
1. JATS XML

© Лукьянов К.S., Яськов П.A., Перминов А.I., Коваленко А.P., Турдаков Д.Y., 2024

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».