Адаптивное построение регрессионных моделей на основе анализа функционала качества обработки сегментов последовательности

Обложка
  • Авторы: Лебедев И.С1
  • Учреждения:
    1. Федеральное государственное бюджетное учреждение науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук» (СПб ФИЦ РАН)
  • Выпуск: Том 24, № 2 (2025)
  • Страницы: 363-394
  • Раздел: Математическое моделирование и прикладная математика
  • URL: https://journal-vniispk.ru/2713-3192/article/view/289691
  • DOI: https://doi.org/10.15622/ia.24.2.1
  • ID: 289691

Цитировать

Полный текст

Аннотация

Рассмотрена задача адаптивного построения модели, направленной на повышение показателей качества обработки информационных последовательностей. В методах обработки данных, которые нашли применение во многих прикладных областях, применяемый анализ объектов наблюдения является вычислительно ресурсоемким и в случае изменения свойств данных, требует большого количества итераций. В статье предложена методика выбора сегментов информационной последовательности, полученных разными способами, отличающаяся использованием функционала качества регрессионных моделей обработки подпоследовательностей. Поступающие на вход последовательности объектов наблюдения подвергаются разделению различными предварительно заданными алгоритмами сегментации. На каждом полученном сегменте обучаются заранее выбранные регрессионные модели и, в зависимости от полученных значений вычисленного функционала качества, происходит назначение лучших по качественным показателям моделей на сегменты. Это позволяет формировать агрегационную модель обработки данных. На основе эксперимента на модельных данных и выборках проведена оценка предлагаемой методики. Получены значения показателя качества MSE и MAE для разных алгоритмов обработки и при различном количестве сегментов. Предлагаемая методика дает возможность повысить показатели MSE и МАЕ за счет сегментации и назначения регрессионных моделей, которые имеют наилучшие показатели на отдельных сегментах. Предложенное решение направлено на дальнейшее усовершенствование ансамблевых методов. Его применение позволяет повысить оперативность настройки базовых алгоритмов в случае трансформации свойств данных и улучшить интерпретируемость результатов. Методика может применяться при разработке моделей и методов обработки информационных последовательностей.

Об авторах

И. С Лебедев

Федеральное государственное бюджетное учреждение науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук» (СПб ФИЦ РАН)

Email: isl_box@mail.ru
14-я линия В.О. 39

Список литературы

  1. Chen H.Y., Chen C. Evaluation of Calibration Equations by Using Regression Analysis: An Example of Chemical Analysis // Sensors. 2022. vol. 22. no. 2. doi: 10.3390/s22020447.
  2. Schober P., Vetter T.R. Segmented Regression in an Interrupted Time Series Study Design // Anesthesia and Analgesia. 2021. vol. 132. no. 3. pp. 696–697.
  3. Bozpolat E. Investigation of the self-regulated learning strategies of students from the faculty of education using ordinal logistic regression analysis // Educational Sciences: Theory & Practice. 2016. no. 16(1). pp. 301–318.
  4. Jarantow S.W., Pisors E.D., Chiu M.L. Introduction to the use of Linear and Nonlinear Regression Analysis in Quantitative Biological Assays // Current Protocols. 2023. no. 3. doi: 10.1002/cpz1.801.
  5. Britzger D. The Linear Template Fit // The European Physical Journal C. 2022. vol. 82(8). doi: 10.1140/epjc/s10052-022-10581-w.
  6. Perperoglou A., Sauerbrei W., Abrahamowicz M., Schmid M. A review of spline function procedures in R // BMC Medical Research Methodology. 2019. vol. 19. pp. 1–16.
  7. Ren J., Tapert S., Fan C.C., Thompson W.K. A semi-parametric Bayesian model for semi-continuous longitudinal data // Statistics in Medicine. 2022. vol. 41. no. 13. pp. 2354–2374.
  8. Taye M.M. Theoretical Understanding of Convolutional Neural Network: Concepts, Architectures, Applications, Future Directions // Computation. 2023. vol. 11. no. 3. doi: 10.3390/computation11030052.
  9. Колмогоров А.Н. О представлении непрерывных функций нескольких переменных в виде суперпозиции непрерывных функций одного переменного // Доклады АН СССР. 1957. Т. 114. № 5. С. 953–956.
  10. Girosi F., Poggio T. Representation Properties of Networks: Kolmogorov’s Theorem is Irrelevant. Neural Computation. 1989. vol. 4. no. 1. pp. 465–469.
  11. Parhi R., Nowak R.D. Banach Space Representer Theorems for Neural Networks and Ridge Splines // Journal of Machine Learning Research. 2021. vol. 22(1). pp. 1960–1999.
  12. Marques H.O., Swersky L., Sander J., Campello R.J., Zimek A. On the evaluation of outlier detection and one-class classification: a comparative study of algorithms, model selection, and ensembles // Data Mining and Knowledge Discovery. 2023. vol. 37. no. 4. pp. 1473–1517.
  13. Li Y., Guo X., Lin W., Zhong M., Li Q., Liu Z., Zhong W., Zhu Z. Learning dynamic user interest sequence in knowledge graphs for click-through rate prediction // IEEE Transactions on Knowledge and Data Engineering. 2023. vol. 35. no. 1. pp. 647–657.
  14. Rinaldo A., Wang D., Wen Q., Willett R., Yu Y. Localizing changes in highdimensional regression models // The 24th International Conference on Artificial Intelligence and Statistics. 2021. pp. 2089–2097.
  15. Aue A., Rice G., Sönmez O. Detecting and dating structural breaks in functional data without dimension reduction // Journal of the Royal Statistical Society. Series B, Statistical Methodology. 2018. vol. 80. no. 3. pp. 509–529.
  16. Datta A., Zou H., Banerjee S. Bayesian high-dimensional regression for change point analysis // Statistics and its Interface. 2019. vol. 12. no. 2. pp. 253–264. doi: 10.4310/SII.2019.v12.n2.a6.
  17. Melnyk I., Banerjee A. A spectral algorithm for inference in hidden semi-Markov models // Journal of Machine Learning Research. 2017. vol. 18. no. 35. pp. 1–39.
  18. Haynes K., Fearnhead P., Eckley I.A. A computationally efficient nonparametric approach for changepoint detection // Statistics and Computing. 2017. vol. 27. pp. 1293–1305. doi: 10.1007/s11222-016-9687-5.
  19. Muggeo V. Estimating regression models with unknown break-points // Statistics in Medicine. 2003. vol. 22(19). pp. 3055–3071.
  20. Lu K.P., Chang S.T. A fuzzy classification approach to piecewise regression models // Applied Soft Computing Journal. 2018. vol. 69. pp. 671–688.
  21. Bardwell L., Fearnhead P. Bayesian detection of abnormal segments in multiple time series // Bayesian Analysis. 2017. vol. 12. no. 1. pp. 193–218.
  22. Huang J., Chen P., Lu L., Deng Y., Zou Q. WCDForest: a weighted cascade deep forest model toward the classification tasks // Applied Intelligence, 2023. vol. 53. no. 23. pp. 29169–29182. doi: 10.1007/s10489-023-04794-z.
  23. Tong W., Wang Y., Liu D. An Adaptive Clustering Algorithm Based on Local-Density Peaks for Imbalanced Data Without Parameters // IEEE Transactions on Knowledge and Data Engineering. 2023. vol. 35. no. 4. pp. 3419–3432.
  24. Lu K.P., Chang S.T. Fuzzy maximum likelihood change-point algorithms for identifying the time of shifts in process data // Neural Computing and Applications. 2019. vol. 31. pp. 2431–2446.
  25. Nevendra M., Singh P. Software defect prediction using deep learning // Acta Polytechnica Hungarica. 2021. vol. 18. no. 10. pp. 173–189.
  26. Tallman E., West M. Bayesian predictive decision synthesis // Journal of the Royal Statistical Society. Series B: Statistical Methodology. 2024. vol. 86. no. 2. pp. 340–363.
  27. Korkas K., Fryzlewicz P. Multiple change-point detection for non-stationary time series using wild binary segmentation. Statistica Sinica. 2017. vol. 27. pp. 287–311. doi: 10.5705/ss.202015.0262.
  28. Silva R.P., Zarpelão B.B., Cano A., Junior S.B. Time Series Segmentation Based on Stationarity Analysis to Improve New Samples Prediction // Sensors. 2021. vol. 21(21). doi: 10.3390/s21217333.
  29. Barzegar V., Laflamme S., Hu C., Dodson J. Multi-Time Resolution Ensemble LSTMs for Enhanced Feature Extraction in High-Rate Time Series // Sensors. 2021. vol. 21(6). doi: 10.3390/s21061954.
  30. Si S., Zhao J., Cai Z., Dui H. Recent advances in system reliability optimization driven by importance measures // Frontiers of Engineering Management. 2020. vol. 7. no. 3. pp. 335–358.
  31. Xu S., Song Y., Hao X. A Comparative Study of Shallow Machine Learning Models and Deep Learning Models for Landslide Susceptibility Assessment Based on Imbalanced Data // Forests. 2022. vol. 13. no. 11. doi: 10.3390/f13111908.
  32. Лебедев И.С. Адаптивное применение моделей машинного обучения на отдельных сегментах выборки в задачах регрессии и классификации // Информационно-управляющие системы. 2022. № 3(118). C. 20–30.
  33. Тихонов Д.Д., Лебедев И.С. Метод формирования сегментов информационной последовательности с использованием функционала качества моделей обработки // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24. № 3. С. 474–482.
  34. Lebedev I.S., Sukhoparov M.E. Adaptive Learning and Integrated Use of Information Flow Forecasting Methods // Emerging Science Journal. 2023. vol. 7. no. 3. pp. 704–723.
  35. Osipov V., Nikiforov V., Zhukova N., Miloserdov D. Urban traffic flows forecasting by recurrent neural networks with spiral structures of layers // Neural Computing and Applications. 2020. vol. 32. no. 18. pp. 14885–14897.
  36. Lebedev I.S., Sukhoparov M.E. Improving the Quality Indicators of Multilevel Data Sampling Processing Models Based on Unsupervised Clustering // Emerging Science Journal. 2024. vol. 8. no. 1. pp. 355–371.
  37. Jin H., Yin G., Yuan B., Jiang F. Bayesian hierarchical model for change point detection in multivariate sequences // Technometrics. 2022. vol. 64. no. 2. pp. 177–186.
  38. Power Supply dataset. URL: http://www.cse.fau.edu/~xqzhu/stream.html (дата обращения: 16.05.2024).
  39. Lu K.-P., Chang S.-T. An Advanced Segmentation Approach to Piecewise Regression Models // Mathematics. 2023. vol. 11(24). doi: 10.3390/math11244959.
  40. Energy generation dataset. URL: https://www.kaggle.com/nicholasjhana/energy-consumption-generation-prices-and-weather/data?select=energy_dataset.csv (дата обращения: 16.05.2024).
  41. Pima Indians Diabetes Database URL: https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database (дата обращения: 16.05.2024).
  42. E-Commerce Data URL: https://www.kaggle.com/datasets/carrie1/ecommerce-data (дата обращения: 16.05.2024).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».