Method for Training Decision Trees with Non-Linear Splitters

Cover Page

Cite item

Full Text

Abstract

Univariate decision trees, used in the processing of sparse large dimentional data, have low computational efficiency. Multivariate decision trees are more expressive when classifying data, but overfit on small datasets. The paper proposes a method for learning trees with multidimensional nonlinear splitters, which improves the accuracy of classification on sets of images and texts. This is achieved by jointly optimizing the distance from the objects of the training dataset to the separating hyperplane and the data impurity criterion when building each node of the tree. Test results confirm the effectiveness of the method.

About the authors

Dmitry A. Devyatkin

Computer Science and Control Federal Research Center of the Russian Academy of Sciences

Author for correspondence.
Email: devyatkin@isa.ru

Researcher

Russian Federation, Moscow

Oleg G. Grigoriev

Computer Science and Control Federal Research Center of the Russian Academy of Sciences

Email: oleggpolikvart@yandex.ru

Doctor of Technical Sciences, Chief Researcher

Russian Federation, Moscow

References

  1. Breiman L. et al. Classification and regression trees. – Routledge, 2017.
  2. Chen T., Guestrin C. Xgboost: A scalable tree boosting system // Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. – 2016. – pp. 785-794.
  3. Breiman L. Random forests // Machine learning. – 2001. – Vol. 45. – No. 1. – pp. 5-32.
  4. Golea M. et al. Generalization in decision trees and DNF: Does size matter? // Advances in Neural Information Processing Systems. – 1997. – Vol. 10.
  5. Vapnik V. N. An overview of statistical learning theory // IEEE transactions on neural networks. – 1999. – Vol. 10. No. 5. – pp. 988-999.
  6. Breiman L. Some properties of splitting criteria // Machine learning. – 1996. – Vol. 24. – No. 1. – pp. 41-47.
  7. Liu W., Tsang I. W. Sparse perceptron decision tree for millions of dimensions // Thirtieth AAAI Conference on Artificial Intelligence. – 2016.
  8. Liu W., Tsang I. W. Making decision trees feasible in ultrahigh feature and label dimensions // Journal of Machine Learning Research. – 2017.
  9. Bennett K. P., Blue J. A. A support vector machine approach to decision trees // 1998 IEEE International Joint Conference on Neural Networks Proceedings. IEEE World Congress on Computational Intelligence (Cat. No. 98CH36227). – IEEE, 1998. – Vol. 3. – pp. 2396-2401.
  10. Menze B. H. et al. On oblique random forests // Joint European Conference on Machine Learning and Knowledge Discovery in Databases. – Springer, Berlin, Heidelberg, 2011. – pp. 453-469.
  11. Tibshirani R., Hastie T. Margin Trees for Highdimensional Classification // Journal of Machine Learning Research. – 2007. – Vol. 8. – No. 3.
  12. Manwani N., Sastry P. S. Geometric decision tree // IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics). – 2011. – Vol. 42. – No. 1. – pp. 181-192.
  13. Hofmann T., Schölkopf B., Smola A. J. Kernel methods in machine learning // The annals of statistics. – 2008. – Т. 36. – №. 3. – С. 1171-1220.
  14. Norouzi M. et al. Co2 forest: Improved random forest by continuous optimization of oblique splits // arXiv preprint arXiv:1506.06155. – 2015.
  15. Tsochantaridis I. et al. Large margin methods for structured and interdependent output variables // Journal of machine learning research. – 2005. – Vol. 6. – No. 9.
  16. Yuille A. L., Rangarajan A. The concave-convex procedure // Neural computation. – 2003. – Vol. 15. – No. 4. – pp. 915-936.
  17. DeSalvo G., Mohri M. Random composite forests // Proceedings of the AAAI Conference on Artificial Intelligence. – 2016. – Vol. 30. – No. 1.
  18. Hehn T. M., Kooij J. F. P., Hamprecht F. A. End-to-end learning of decision trees and forests // International Journal of Computer Vision. – 2020. – Vol. 128. – No. 4. – pp. 997-1011.
  19. Irsoy O., Alpaydin E. Autoencoder trees //Asian conference on machine learning. – PMLR, 2016. – pp. 378-390.
  20. Chai Z., Zhao C. Multiclass oblique random forests with dual-incremental learning capacity // IEEE transactions on neural networks and learning systems. – 2020. – Vol. 31. – No. 12. – pp. 5192-5203.
  21. Hecht-Nielsen R. Theory of the backpropagation neural network // Neural networks for perception. – Academic Press, 1992. – pp. 65-93.
  22. Yang B. B., Shen S. Q., Gao W. Weighted oblique decision trees // Proceedings of the AAAI Conference on Artificial Intelligence. – 2019. – Vol. 33. – №. 01. – pp. 5621-5627.
  23. Carreira-Perpinán M. A., Tavallali P. Alternating optimization of decision trees, with application to learning sparse oblique trees // Advances in neural information processing systems. – 2018. – Vol. 31.
  24. Kumar M. A., Gopal M. A hybrid SVM based decision tree // Pattern Recognition. – 2010. – Vol. 43. – No. 12. – pp. 3977-3987.
  25. Krizhevsky A. Learning Multiple Layers of Features from Tiny Images // Master's thesis, University of Tront. – 2009.
  26. Youtube channels dataset. URL: http://keen.isa.ru/youtube (accessed 14.07.2022).
  27. Blake C. UCI repository of machine learning databases. URL: http://www.ics.uci.edu/~mlearn/MLRepository.html (accessed: 14.07.2022).

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».