Новый метод оптимального сокращения множества признаков
- Авторы: Герман О.В1, Наср С.Н1
-
Учреждения:
- Белорусский государственный университет информатики и радиоэлектроники (БГУИР)
- Выпуск: Том 19, № 6 (2020)
- Страницы: 1198-1221
- Раздел: Математическое моделирование и прикладная математика
- URL: https://journal-vniispk.ru/2713-3192/article/view/266290
- DOI: https://doi.org/10.15622/ia.2020.19.6.3
- ID: 266290
Цитировать
Полный текст
Аннотация
Рассматривается задача нахождения минимального по размеру множества атрибутов, используемых для распределения многомерных объектов по классам, например на основе деревьев решений. Задача имеет важное значение при разработке высокопроизводительных и точных классифицирующих систем. Приведен краткий сравнительный обзор известных методов. Задача сформулирована как отыскание минимального (взвешенного) покрытия на различающей 0,1-матрице, которая служит для описания возможности атрибутов разделять пары объектов из разных классов. Приведено описание способа построения различающей матрицы. Сформулированы и решены на основе общего разрешающего принципа групповых резолюций следующие варианты задачи: отыскание минимального по размеру множества атрибутов на заданном входном наборе данных; отыскание минимального по размеру множества атрибутов с минимальным суммарным весом атрибутов (в качестве весов атрибутов можно использовать величины, определяемые на основе известных алгоритмов, например на основе метода RELIEF); нахождение оптимального взвешенного нечеткого покрытия для случая, когда элементы различающей матрицы принимают значения в диапазоне [0,1]; определение статистически оптимального покрытия различающей матрицы (например, для входных наборов данных больших размеров). Статистически оптимальный алгоритм позволяет ограничить время решения полиномом от размеров задачи и плотности единичных элементов в различающей матрице и при этом обеспечить близкую к единице вероятность отыскания точного решения. Таким образом, предлагается общий подход к определению минимального по размеру множества атрибутов, учитывающий различные особенности в постановке задачи, что отличает данный подход от известных. Изложение содержит многочисленные иллюстрации с целью придать ему максимальную ясность. Ряд теоретических положений, приводимых в статье, основывается на ранее опубликованных результатах. В заключительной части представлены результаты экспериментов, а также сведения о сокращении размерности задачи о покрытии для больших массивов данных. Отмечаются некоторые перспективные направления изложенного подхода, включая работу с неполными и качественными данными, интегрировании управляющей модели в систему классификации данных.
Об авторах
О. В Герман
Белорусский государственный университет информатики и радиоэлектроники (БГУИР)
Автор, ответственный за переписку.
Email: ovgerman@tut.by
ул. Петруся Бровки 6
С. Н Наср
Белорусский государственный университет информатики и радиоэлектроники (БГУИР)
Email: sara.nasrh@gmail.com
ул. Петруся Бровки 6
Список литературы
- Shah S.A., Shabbir H.M., Rehman S., Waqas M. A comparative study of feature selection approaches: 20162020. International journal of scientific and engineering research. 2020. vol. 11. no. 2. pp. 469478.
- Khun K, Johnson K. Feature engineering and selection. A practical approach for predictive models. CRC Press. 2019. 310 p.
- Bachu V., Anuradha J. A review of feature selection and its methods. Cybernetics and information technologies (Bulgary). 2019. vol. 19. no. 1. pp. 322.
- Hameed S., Petinrin O., Hashi A., Saeed F. Filter-wrapper combination and embedded feature selection for gene expression data. International journal of advances in soft computing and its applications. 2018. vol. 10. no. 1. pp. 91–105.
- Sanchez-Pinto L.N., Venable L.R., Fahrenbach J., Churpek M. Comparison of variable selection methods for clinical predictive modeling. International journal of medical informatics. 2018. vol. 116. pp. 1017.
- Li J. et al. Feature selection: A data perspective. ACM Computer surveys. 2017. vol. 50. no. 6. pp. 94:294:46.
- Guyon I. et al. Feature Extraction. Foundations and Applicationsbg. Springer. 2006. 762 p.
- Urbanowicz R.J. et al. Relief-based feature selection: Introduction and review. Journal of biomedical informatics. 2018. vol. 8. no. 5. pp. 189203.
- Liu Y., Singleton A., Arribas-Bel D. A principal component analysis (PCA)-based framework for automated variable selection in geodemographic classification. GEO-Spatial Information Science. 2019. vol. 22. no. 4. pp. 251264.
- Khanna R., Awad M. Efficient learning machines: Theories, Concepts, and Applications for engineers and system designers. Apress. 2015. 247p.
- Mao Y., Yang Y. A wrapper feature subset selection based on randomized search and multilayer structure. BioMed Research International. 2019. vol. 2019. pp. 19.
- Hui K.H. et al. An improved wrapper-based feature selection method for machinery fault diagnosis. PloS ONE. 2017. vol. 12. no. 12. pp. 110.
- Lal T.N., Chapelle O., Weston J., Eliseeff A. Embedded methods. Series in Fuzzy and soft computing. 2006. vol. 207. pp. 137165.
- Sudrajat R., Irianingsih I., Krisnawan D. Analysis of data mining classification by comparison of C4.5 and ID algorithms. IOP Conference Series: Materials and Engineering. 2017. vol. 166. pp.012031.
- Krishna M. et al. Predicting student performance using classification and regression trees. International Journal of Innovative Technology and Exploring Engineering. 2020. vol. 9. no. 3. pp. 33493356.
- Suneetha N., Hari Ch., Sunilkumar V. Modified Gini index classification: a case statudy on hart disease dataset. International journal on computer science and engineering. 2010. vol. 2. no. 6. pp. 19591965.
- German O.V., Naidenko V.G. [Statistically optimal algorithm for the minimum-size covering problem] Jekonomika i matematicheskie metody Economics and mathematical methods. Moscow. 1993. Issue 29. vol. 4. pp. 662667. (In Russ.).
- German O.V. [The generalized statistically optimal method to find minimum weighted covering set for 0,1-matrix] Jekonomika i matematicheskie metody Economics and mathematical methods. oscow. 1994. Issue 30. vol. 4. pp. 139150. (In Russ.).
- German O.V. Jekspertnye sistemy [Expert systems]. Minsk. Belorusskij gos. universitet informatiki i radioelektroniki. 2008. 91 p. (In Russ.).
- Kamenev G.K., Kamenev I.G. Primenenie metodov mnogomernogo analiza dlja izuchenija sociologicheskih sovokupnostej [Applications of the methods of multidimension analysis for learning social aggregates]. Proc. of the department of mathematical modeling of economic systems. Computer Center «Informatics and Control» of the Russian Academy of Sciences. 2017. 91p. (In Russ.).
- Bhatia N. et al. Survey of Nearest Neighbor Techniques. International Journal of Computer Science and Information Security. 2010. vol. 8. no. 2. pp. 302304.
- Sun L., Chen G., Xiong H., Guo C. Cluster analysis in data-driven management and decisions. Journal of Management Science and Engineering. 2017. vol. 2. no. 4. pp. 227251.
Дополнительные файлы
