Применение многоуровневых моделей в задачах классификации и регрессионного анализа

Обложка

Цитировать

Полный текст

Аннотация

Применение моделей машинного обучения обуславливает необходимость создания методов, направленных на повышение качественных показателей обработки информации. В большинстве практических случаев диапазоны значений целевых переменных и предикторов формируются под воздействием внешних и внутренних факторов. Такие явления, как дрейф концепций, приводят к тому, что модель со временем понижает показатели полноты и точности результатов. Целью работы является повышение качества анализа выборок и информационных последовательностей на основе многоуровневых моделей для задач классификации и регрессии. Предлагается двухуровневая архитектура обработки данных. На нижнем уровне происходит анализ поступающих на вход информационных потоков и последовательностей, осуществляется решение задач классификации или регрессии. На верхнем уровне выполняется разделения выборок на сегменты, определяются текущие свойства данных в подвыборках и назначаются наиболее подходящие по достигаемым качественным показателям модели нижнего уровня. Приведено формальное описание двухуровневой архитектуры. В целях повышения показателей качества решения задач классификации и регрессии производится предварительная обработка выборки данных, вычисляются качественные показатели моделей, определяются классификаторы, имеющие лучшие результаты. Предложенное решение позволяет реализовывать постоянно обучающиеся системы обработки данных. Оно направлено на снижение затрат на переобучение моделей в случае трансформации свойств данных. Проведены экспериментальные исследования на ряде наборов данных. Численные эксперименты показали, что предложенное решение позволяет повысить качественные показатели обработки. Модель может быть рассмотрена как совершенствование ансамблевых методов обработки информационных потоков и выборок данных. Обучение отдельного классификатора, а не группы сложных классификационных моделей дает возможность уменьшить вычислительные затраты.

Об авторах

И. С Лебедев

Санкт-Петербургский Федеральный исследовательский центр Российской академии наук (СПб ФИЦ РАН)

Email: isl_box@mail.ru
14 линия В.О. 39

Список литературы

  1. Pouyanfar S., Sadiq S., Yan Y., Tian H., Tao Y., Reyes M.P., Shyu M.L., Chen S.C., Iyengar S.S. A survey on deep learning: algorithms, techniques, and applications // ACM Computing Surveys. 2019. vol. 51. no. 5. pp. 1–36.
  2. Blyth C.R. On Simpson’s Paradox and the Sure-Thing Principle // Journal of the American Statistical Association. 1972. vol. 67. pp. 364–387.
  3. McConnell S., Skillicorn D.B. Building predictors from vertically distributed data // Proceedings of the 2004 Conference of the Centre for Advanced Studies on Collaborative Research (CASCON ’04). 2004. pp. 150–162.
  4. Trevizan B., Chamby-Diaz J., Bazzan A.L.C., Recamonde-Mendoza M. A comparative evaluation of aggregation methods for machine learning over vertically partitioned data // Expert Systems with Applications. 2020. vol. 152. pp. 113–126.
  5. Li Y., Jiang Z.L., Yao L. et al. Outsourced privacy-preserving C4.5 decision tree algorithm over horizontally and vertically partitioned dataset among multiple parties // Cluster Computation. 2019. vol. 22. no. 1. pp.1581–1593.
  6. Mendoza M.R., Bazzan A.L.C. On the Ensemble Prediction of Gene Regulatory Networks: a Comparative Study // Proceedings of the Brazilian Symposium on Neural Networks. 2012. pp. 55–60.
  7. Chan P.K., Stolfo S.J. On the Accuracy of Meta-learning for Scalable Data Mining // Journal of Intelligent Information Systems. 1997. no. 8. pp. 5–28.
  8. Sun L., Mu W.S., Qi B. et al. A new privacy-preserving proximal support vector machine for classification of vertically partitioned data // International journal of machine learning and cybernetics. 2015. vol. 3. no. 6. pp. 109–118.
  9. Zhou Z.-H., Feng J. Deep forest // National Science Review. 2019. vol. 6. no. 1. pp. 74–86.
  10. Ho T.K. The random space method for constructing decision forests // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1998. vol. 20. no. 8. pp. 832–844.
  11. Takacs A., Toledano-Ayala M., Dominguez-Gonzalez A., Pastrana-Palma A., Velazquez D.T., Ramos J.M., Rivas-Araiza A.E. Descriptor generation and optimization for a specific outdoor environment // IEEE Access. 2020. vol. 8. pp. 2169–3536.
  12. Liu J., Li Y., Song S., Xing J., Lan C., Zeng W. Multi-modality multi-task recurrent neural network for online action detection // IEEE Transactions on Circuits and Systems for Video Technology. 2018. vol. 29. no. 9. pp. 2667–2682.
  13. Salehi H., Burgueno R. Emerging artificial intelligence methods in structural engineering // Engineering Structures. 2018. no. 171. pp. 170–189.
  14. Lu J., Liu A., Dong F., Gu F., Gama J., Zhang G. Learning under concept drift: a review // IEEE Transactions on Knowledge and Data Engineering. 2019. vol. 31. no. 12. pp. 2346–2363.
  15. Zhang X., Wang M. Weighted Random Forest Algorithm Based on Bayesian Algorithm // Journal of Physics: Conference Series. 2021. vol. 1924. pp. 1–6.
  16. Scanagatta M., Salmeron A., Stella F. A survey on Bayesian network structure learning from data // Progress in Artificial Intelligence. 2019. no. 8, pp. 425–439.
  17. Wright M., Dankowski T., Ziegler A. Unbiased split variable selection for random survival forests using maximally selected rank statistics // Statistics in Medicine. 2017. vol. 36. no. 8. pp. 1272–1284.
  18. Zheng X., Aragam B., Ravikumar P., Xing E. DAGs with no tears: Continuous optimization for structure learning // Advances in Neural Information Processing Systems. 2018. vol. 43. pp. 9492–9503.
  19. Di Franco G., Santurro M. Machine learning, artificial neural networks and social research // Qual Quant. 2021. no. 5. pp. 1007–1025.
  20. Scanagatta M., Corani G., Zaffalon M., Yoo J., Kang U. Efficient learning of bounded-treewidth Bayesian networks from complete and incomplete data sets // International Journal of Approximate Reasoning. 2019. vol. 95. pp. 152–166.
  21. Kheyreddine D., Kadda B.-B., Abdenour A. A new adaptive sampling algorithm for big data classification // Journal of Computational Science. 2022. vol. 61. pp. 101–116.
  22. Лебедев И.С. Сегментирование множества данных с учетом информации воздействующих факторов // Информационно-управляющие системы. 2021. № 3. C. 29–38.
  23. Лебедев И.С. Адаптивное применение моделей машинного обучения на отдельных сегментах выборки в задачах регрессии и классификации // Информационно-управляющие системы. 2022. № 3. C. 20–30.
  24. Power Supply dataset. URL: http://www.cse.fau.edu/~xqzhu/stream.html (Дата обращения 27.10.2022).
  25. Energy generation dataset. URL: https://www.kaggle.com/nicholasjhana/energy-consumption-generation-prices-and-weather/data?select=energy_dataset.csv (Дата обращения 27.10.2022).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».