Collective re-entry classifiers and their implementation in a class of self-similar neural networks
- 作者: Dorogov A.Y.1,2
-
隶属关系:
- St. Petersburg State Electrotechnical University
- PJSC “Information Telecommunication Technologies” (“Inteltech”)
- 期: 编号 4 (2024)
- 页面: 5-16
- 栏目: Methods, technologies and applications of artificial intelligence
- URL: https://journal-vniispk.ru/2413-0133/article/view/280446
- DOI: https://doi.org/10.25729/ESI.2024.36.4.001
- ID: 280446
如何引用文章
全文:
详细
The article proposes a new method for teaching private classifiers, as well as a way to aggregate their forecasts as part of a committee. The training is based on the hypothesis of iterative re-entry of biological neural networks and uses the principal component method for its implementation. For private classifiers, the areas of competence are defined in the aggregate covering the training set of examples. It is shown that the iterative learning process converges in several steps, ensuring 100% recognition accuracy in the area of competence of the private classifier. The aggregation of forecasts is implemented according to the principle of maximum projection of the image onto its own subspaces of classes of private classifiers. Examples of the use of the committee of competent classifiers for the MNIST dataset are given. A continuous learning model of the classifier committee is proposed that is suitable for building self-learning recognition systems. The neural network implementation of classifiers in the class of self-similar neural networks is considered.
全文:
Введение. Нобелевский лауреат Джеральд Морис Эдельман в 1977 году выдвинул гипотезу [1, 2] о том, что реентерабельная (reentry - повторно-вводимая) передача сигналов служит общим механизмом для накопления знаний в коре головного мозга. Повторный вход по Эдельману – это динамический процесс постоянной пространственно-временной корреляции, происходящий между функционально разделёнными нейронными областями, который опосредуется повторной передачей сигналов через параллельные нервные волокна. Механизмом этого явления считается ритмическая активность мозга. С точки зрения теории динамических систем повторный вход подобен итерационному процессу, сходящемуся к некоторому устойчивому аттрактору, обобщающему накопленные знания.
Развивая собственную теорию нейродарвинизма (Neural Darwinism) [3], Эдельман отмечал, что в коре головного мозга на один и тот же сенсорный сигнал одновременно реагируют несколько конкурирующих нейронных групп, реакция которых в дальнейшем конвергируется в более глубоких слоях коры, реализуя принцип коллективного распознавания и одновременно стимулируя процесс эволюционного развития нейронных структур коры головного мозга.
В технических приложениях метод коллективного решения задачи классификации заключается в объединении моделей одиночных классификаторов в комитет с некоторым общим принципом агрегации прогнозов частных классификаторов. В настоящей работе будут рассмотрены технические решения, объединяющие методы коллективного распознавания и усиление классификаторов за счет реализации принципа повторного входа. В заключительном разделе будет представлена нейросетевая реализация предлагаемых решений.
1. Методы коллективного распознавания. При формировании комитета классификаторов необходимо оптимизировать два критерия – качество обучения частных классификаторов и оптимальность их объединения [4, 5]. Простейшим методом агрегации частных прогнозов может быть простое голосование, которое приводит к увеличению точности коллективного решения за счет снижения степени неопределенности при сложении частных прогнозов. Общее название методов построения коллективных классификаторов выражается термином «boosting» - усиление [6]. Наиболее известными являются методы bagging и adaboost.
Метод bagging, предложенный Лео Брейманом в 1994 году [7], предполагает обучение частных классификаторов на случайных выборках, формируемых из обучающего множества. Агрегация классификаторов выполняется простым голосованием.
Метод adaboost, предложенный Йоавом Фройндом и Робертом Шапире [8] в 1995 году, предполагает обучение частных классификаторов на одной выборке с пошаговой адаптацией по ошибкам обучения как самих классификаторов, так и комитета классификаторов. Агрегация частных прогнозов выполняется взвешенным голосованием. Оптимальные веса для классификаторов рассчитываются на каждом шаге алгоритма. Одновременно видоизменяется обучающая выборка, где для каждого примера также выполняется расчет веса, который используется в процедуре обучения, например, для повторения в выборке примеров, на которых обнаружены ошибки.
В 70-х и 80-х годах советские ученые Л.А. Растригин и Р.Х. Эренштейн в ряде работ разработали метод коллективного распознавания на основе компетентных классификаторов [9, 10, 11]. Идея таких методов базируется на том, что каждый базовый классификатор может работать хорошо в некоторой области пространства признаков (эта область интерпретируется как область компетентности классификатора), превосходя в этой области остальные классификаторы по точности и достоверности решений. Классификация образов выполняется в два этапа: первый этап связан с определением классификатора, область компетенции которого покрывает распознаваемый образ, и на втором этапе найденный классификатор используется для отнесения образа к некоторому классу. Авторы предложили несколько способов определения областей компетенции классификаторов и доказали применимость используемого подхода на примерах.
2. Компетентный классификатор повторного входа. Рассмотрим классификатор, основанный на оценке длины проекции образа на подпространства классов. Подпространства класса порождаются линейной комбинацией векторов обучающей выборки, принадлежащих одному классу. Проекцию вектора-образа легко определить, если в подпространстве класса задать ортогональный базис. Сумма квадратов коэффициентов разложения вектора образа по этому базису будет определять квадрат проекции образа на подпространство класса. Образы нормируются по энергии к единице. Классификатор относит образ к классу, для которого проекция на подпространство класса оказывается максимальной.
Среди возможных ортогональных базисов можно подобрать оптимальный базис, который обеспечивает наиболее быструю сходимость коэффициентов разложения. Известно, что таким свойством обладает ортогональный базис, полученный методом главных компонент (англ. Principal Component Analysis, PCA) [12] из ковариационной матрицы векторов класса. Эмпирическая или выборочная ковариационная матрица класса определяется выражением:
,
где - число примеров в классе, - вектор-строка представителя класса, - вектор-строка средних значений примеров в классе. Ковариационная матрица является симметричной и положительно определённой. Для такой матрицы можно найти собственные ортогональные вектора такие, что
.
Скаляр называется собственным числом, соответствующим собственному вектору . Все собственные числа ковариационной матрицы положительные, и чем большое значение они имеют, тем большей значимостью обладает собственный вектор. Для построения модели классификатора отбирают наиболее значимые вектора. При распознавании вектор образа центрируется по среднему образу примеров в классе, и раскладывается по выбранным собственным векторам класса. Далее по коэффициентам разложения вычисляется длина проекции образа на подпространство класса. Вектору образа присваивается метка класса, в котором длина его проекции максимальна.
Воспользуемся теперь принципом повторного входа для обучения PCA-классификатора. В обучающей выборке выберем представительный фрагмент, который далее будем называть областью компетенции классификатора. В области компетенции произвольно выделим базовое множество примеров, которое будем использовать для построения модели PCA-классификатора. На каждом шаге эволюции по результатам классификации выполняется контроль ошибок модели на области компетенции. Примеры, на которых произошли ошибки, добавляются к базовому множеству с дифференциацией по классам и модель PCA-классификатора строится заново. Процесс многократно повторяется до полного устранения ошибок на области компетенции. В процессе эволюции размер базового множества постепенно возрастает. Темп сходимости к нулевой ошибке зависит от размера области компетенции, начального базового множеств и размерности модели (числа удерживаемых собственных векторов). Построенный классификатор будем называть компетентным.
Покажем эффективность метода обучения классификатора на примере набора данных MNIST [13]. Набор данных содержит двумерные образы рукописных цифр от 0 до 9 в виде пиксельных изображений размером 28×28. Объем обучающей выборки равен 60000 образов, и 10000 изображений содержит тестовая выборка. На рис. 1 показана выборка с десятью представителями для каждого класса. При проведении экспериментов все примеры выборок нормировались по энергии к единичному уровню.
Рис. 1. Выборка из набора рукописных цифр MNIST
Для набора данных максимальный объем области компетенции, на котором эволюционный процесс ещё сходится, составляет примерно 20000 примеров. Наилучшие результаты достигаются на выборках из 5000-10000 примеров. На рис. 2 показана зависимость точности классификатора примеров с областью компетенции из 5000 примеров и начальной базовой выборки 1000 примеров.
Рис. 2. Зависимость точности классификатора на области компетенции от числа шагов эволюции
Как видно из рисунка, итерационный процесс сходится примерно за 6 шагов. Размер моделей в этом эксперименте составлял 30 собственных векторов. В процессе эволюции базовое множество возросло с 1000 до 1385 примеров. Обученный классификатор проверялся на тестовой выборке размером 10000 примеров. На рис. 3 показана таблица ошибок классификатора. Достигнутая точность на тестовой выборке составила 94.6%.
Рис. 3. Таблица ошибок PCA-классификатора повторного входа на тестовой выборке
3. Комитет компетентных классификаторов. Для построения комитета классификаторов разделим всю обучающую выборку на представительные области компетенции и на каждой области обучим PCA-классификатор с повторным входом. Для формирования агрегированного результата комитета будем использовать принцип максимума. Фактически за результат комитета будет отвечать классификатор с максимальным значением проекции образа на подпространство класса.
На рис. 4 показана матрица ошибок для полного обучающего множества, состоящего из 60000 примеров. Точность классификации на обучающей выборке составляет чуть более 99 процентов при размере комитета равным 12. На рис. 5 показана матрица ошибок этого же коллективного классификатора на полной тестовой выборке, состоящей из 10000 примеров. Точность классификации составляет примерно 97 процентов.
Рис. 4. Таблица ошибок комитета эволюционных классификаторов для обучающей выборки
Рис. 5. Таблица ошибок комитета эволюционных классификаторов для тестовой выборки
Для эксперимента использовались классификаторы повторного входа с областью компетенции 5000 примеров и начальным размером базового множества 1000 примеров. На текущий момент мировое достижение [14] по точности классификации тестового набора данных MNIST составляет 99.87%.
4. Коллективный классификатор непрерывного обучения. Природа не разделяет данные на обучающую и тестовую выборки, биологический мозг обучается непрерывным потоком поступающих данных. С этой точки зрения имеет смысл отказаться от общепринятого деления выборки на обучающую и тестовую. Принцип разделения классификаторов по областям компетенции, с агрегированием по максимуму, позволяет неограниченно наращивать размер комитета, покрывая всю выборку и обучающую, и тестовую, а также все последующие поступившие данные. На рис. 6 приведена матрица ошибок для объединённой выборки коллективного классификатора для объединённой выборки с числом примеров 70000.
Рис. 6. Таблица ошибок непрерывного классификатора на объединённой выборке
В комитете использовались эволюционные классификаторы с областью компетенции 5000 примеров и начальным базовым множеством 1000 примеров. Число компетентных классификаторов для объединённой выборки из 70000 примеров составило 14. Точность коллективного классификатора составила 99.49%. Модель непрерывного обучения может быть использована для построения самообучающихся систем распознавания реального времени, за счет добавления новых классификаторов в процессе функционирования системы.
Эволюционный принцип повторного входа можно распространить также на весь комитет классификаторов. С этой целью в модели каждого компетентного классификатора запоминаются номера примеров базового множества на момент завершения обучения (т.е. достижения 100% точности на области компетенции). Алгоритм эволюции для комитета на каждом шаге фиксирует номера примеров в объединённой выборке, на которых произошли ошибки. Эти примеры разделяются по областям компетенции частных классификаторов и добавляются в списки примеров базовых множеств. Далее заново выполняется обучение частных классификаторов с обновлёнными базовыми множествами до достижения 100% точности на областях компетенции и вновь контролируются ошибки комитета классификаторов, далее итерации комитета повторяются.
Эволюционный процесс сходится к 100% процентной точности. На рис. 7 показана зависимость точности комитета классификаторов от числа шагов эволюции. Мета-параметры комитета соответствуют предыдущему примеру. Предложенная модель непрерывного эволюционного обучения комитета классификаторов обеспечивает 100 процентную точность распознавания объединённой выборки.
Рис. 7. Зависимость точности комитета классификаторов от числа шагов эволюции
5. Нейросетевая реализация классификаторов. Классификатор повторного входа вычисляет проекцию вектора-образа на подпространства классов. Проекция определяется через разложение вектора в усеченных ортогональных базисах. Это линейная матричная операция, которая реализуется через вычисление скалярных произведений векторов. Переход к нейросетевой реализации связан с факторизацией линейного преобразования в параллельно-последовательную матричную форму.
5.1. Быстрая нейронная сеть. В основе построения схемы факторизации лежат классические алгоритмы быстрых преобразований. В работе [4] показано, что они являются частным случаем многослойных самоподобных нейронных сетей. На рис. 8 представлен граф быстрого преобразования Фурье размерности 8 с топологией Кули-Тьюки «с прореживанием по времени». В каждом слое выделены четыре базовых операции типа «Бабочка». Для преобразования Фурье параметры базовых операций полностью определены, однако, если допустить, что их параметры можно изменять, то мы приходим к варианту быстрых нейронных сетей (БНС) [15]. В этом контексте базовые операции уместно назвать нейронными ядрами.
Рис. 8. Граф быстрого преобразования Фурье
Сетевая модель данной топологии и описывается набором кортежей [4]:
(1)
где – порядковый номер нейронного ядра; – порядковые номера рецепторов и аксонов в слое ; – локальные номера рецепторов и аксонов в пределах нейронного ядра слоя . Каждый кортеж представляет собой поразрядную форму представления порядкового номера через разрядные переменные . Основания разрядных переменных определяются целыми положительными числами , и по слоям могут быть заданы соответствиями:
Для ядер размерности 2×2 , имеем и все разрядные переменные принимают значения {0,1}. Координатные направления и в дальнейшем будем называть входной и выходной плоскостью нейронного слоя. Для терминальных плоскостей (относящихся к начальному и конечному слою сети) будем использовать обозначения и . Для построения быстрых алгоритмов размерность преобразования должна быть составным числом, и чем больше множителей в разложении размерности, тем выше вычислительная эффективность быстрого алгоритма. Размерности быстрой нейронной сети по входу и выходу вычисляются через произведения оснований разрядных переменных:
Число слоёв в быстром преобразовании равно числу сомножителей в этих произведениях. Несмотря на большое разнообразие быстрых алгоритмов, конфигурации их структур удовлетворяют системному инварианту самоподобия [15]. Как известно, таким же свойством самоподобия обладают фракталы, поэтому быстрые алгоритмы можно интерпретировать как квазифракталы. Свойство структурной фрактальности позволяет решить одновременно две задачи: реализовать быструю обработку данных и выполнить быстрое обучение преобразования. Обучение быстрого преобразования заключается в выборе значений элементов нейронных ядер, так, чтобы в столбцах матрицы преобразования содержался заданный набор эталонных функций, это могут быть, например, ортогональные собственные вектора выборочной ковариационной матрицы. В [16] показано, что для самоподобных нейронных сетей элементы матрицы быстрого преобразования могут быть выражены через произведения элементов нейронных ядер:
.
Там же доказано, что произвольная функция, заданная на дискретном интервале длиной , может быть представлена в мультипликативной форме:
где Отсюда следует правило настройки нейронных ядер:
. (2)
Здесь – номер опорной функции. Зададим точку привязки эталонной функции в выходной плоскости числом, представленным в поразрядной форме:
,
тогда номера настраиваемых ядер по слоям будут определяться выражением:
.
Для имеем , это означает, что независимо от выбора точки привязки все ядра слоя будут настраиваться, причём номер ядра определяется из условия: . Настройка элементов ядер этого слоя выполняется по правилу:
.
Очевидно, должно быть задано взаимно-однозначное соответствие между номером опорной функции и разрядной переменной . Эта разрядная переменная принимает значения . Отсюда следует вывод, что число эталонных функций не может быть больше, чем , а если ещё потребовать выполнения условия ортогональности ядер, то матрица такого преобразования будет содержать только одну произвольную функцию в качестве столбца. Этого явно недостаточно для реализации РСА-классификатора. В следующем разделе будет показана модификация топологии БНС, которая позволяет решить поставленную задачу.
5.2. Самоподобные нейронные сети с дополнительными плоскостями. Дополним топологическую модель быстрого преобразования (1) дополнительными плоскостями нейронных ядер [17], номера которых определим переменной , новая топологическая модель в этом случае будет описываться набором кортежей:
Максимальное количество дополнительных плоскостей появится в нулевом слое. Номер плоскости в нулевом слое будет определяться кортежем . Плоскость с номером будем считать плоскостью исходной базовой топологической структуры. Число плоскостей в нулевом слое будет равно произведению оснований: . По мере движения к выходному слою число дополнительных плоскостей будет уменьшаться и для последнего слоя , т.е. их не будет совсем, останется только одна плоскость базовой топологии. Таким образом, в новой топологии плоскость последнего слоя останется прежней, а в младших слоях появятся дополнительные плоскости. Номер ядра теперь следует уточнять его размещением в дополнительной плоскости. На рис. 9 показана новая топология, построенная на базе трёхслойной БНС с основаниями 2.
Рис. 9. Топология самоподобной нейронной сети с дополнительными плоскостями
В сети условно показаны коммутаторы (SW), которые служат для пояснения принципа работы сети. Коммутаторы управляются разрядными переменными точек выходной плоскости. Фактически коммутаторов нет, они реализуются в составе алгоритма и не препятствуют параллельной обработке входных данных. В контексте спектрального преобразования точки выходной плоскости точки ассоциируются со спектральными коэффициентами, поэтому привязка спектрального коэффициента к координатам выходной плоскости предопределяет выбор дополнительных плоскостей, которые используются для обработки входных образов. При построении полного спектрального анализатора все векторные входы сети параллельно объединяются.
Поскольку правило порождения новых плоскостей не противоречит базовой топологической модели, то для настройки ядер преобразования к эталону можно использовать прежнее правило (2), расширив его аргументом для дополнительных плоскостей:
.
здесь – номер эталонной функции, - точка привязки, - номер настраиваемых ядер по слоям, - номер плоскости размещения ядер.
Индекс в правой части нумерует точку приспособления. Для имеем , a варьируемыми переменными в левой части являются номер плоскости и разряд .
Вместе они покрывают весь диапазон координат выходной плоскости. Этому диапазону отвечают возможные значения индекса в правой части, отсюда следует, что каждая точка выходной плоскости может быть связана с собственной эталонной функцией, т.е. построенная сеть обладает максимально возможным числом точек привязки, покрывающих всю выходную плоскость и, таким образом, может быть использована для реализации произвольного линейного преобразования размерности .
В модели PCA-классификатора для каждого класса сохраняется только часть ортогональных векторов, которые обладают наибольшей значимостью. Размерность выходной плоскости следует выбрать так, чтобы значение было не меньше, чем общее число всех векторов модели классификатора. Подобным образом можно построить все частные классификаторы комитета. Нейросетевая реализация обеспечивает максимальное распараллеливание вычислительных операций, что позволяет получить высокое быстродействие классификатора на специализированных процессорах.
Заключение. Рассмотренный метод построения коллективных классификаторов отличается от методов bagging и adaboost использованием классификаторов с заданными областями компетенции и способом получения агрегативного решения комитета.
В отличие от метода коллективного распознавания Л.А. Растригина и Р.Х. Эренштейна, области компетенции классификаторов не локализуются расчётным путём, а назначаются, исходя из условия достаточной представительности классов в базовых множествах и областях компетенции. Допустимо также частичное пересечение областей компетенции. Благодаря принципу повторного входа, частные классификаторы идеально обучаются в пределах областей их компетенций. Это позволяет сделать процедуру классификации одноступенчатой, без предварительного определения области компетенции. Предложенный способ агрегации решений частных классификаторов по принципу максимума позволяет наращивать классификатор в процессе функционирования и реализовать принцип непрерывного обучения.
Для построения ортогонального базиса подпространства класса можно использовать также сингулярное разложение матрицы, составленной из векторов обучающей выборки [18]. Эти классификаторы также обучаются по методу повторного входа, причём скорость обучения оказывается несколько выше, чем у PCA-классификаторов. Точность комитета классификаторов данного типа примерно соответствует точности комитета с PCA- классификаторами.
В статье показано, что PCA-классификаторы можно реализовать в классе линейных самоподобных нейронных сетей с дополнительными плоскостями, при этом число реализуемых эталонных функций по сравнению с БНС кардинально возрастает и покрывает все элементы выходной плоскости нейронной сети. Такое расширение топологии не нарушает принципа построения обучающего алгоритма и позволяет строить и обучать PCA- классификаторы с произвольной размерностью модели. Более того, можно показать, что нейросетевые реализации сегментируются в лес независимых пирамидальных сетей [19]. Это порождает уникальное качество – возможность дообучения классификаторов к новым образам без изменения или потери ранее накопленных знаний. Алгоритмы обучения к модельным векторам являются абсолютно устойчивыми и завершаются за конечное число шагов.
作者简介
Alexander Dorogov
St. Petersburg State Electrotechnical University; PJSC “Information Telecommunication Technologies” (“Inteltech”)
编辑信件的主要联系方式.
Email: vaksa2006@yandex.ru
ORCID iD: 0000-0002-7596-6761
SPIN 代码: 8645-5873
Doctor of technical sciences, associate professor, professor of the department of automation and control Processes, Chief researcher
俄罗斯联邦, St. Petersburg; St. Petersburg参考
- Edelman G. M. Group selection and phasic reentrant signaling: a theory of higher brain function. The mindful brain: cortical organization and the group-selective theory of higher brain function, Eds. Edelman G.M., Mountcastle V.B. Boston, MIT Press, 1978, pp 51–98.
- Mountcastle V.B. An organizing principle for cerebral function: the unit model and the distributed system. The mindful brain: cortical organization and the group-selective theory of higher brain function, Eds. Edelman G.M., Mountcastle V.B. Boston, MIT Press, 1978, pp. 7-50, ISBN 0-262-05020-X.
- Edelman G.M. Neural Darwinism: The theory of neuronal group selection. New York, Basic Books, 1987, 240 p.
- Gorodeckij V.I., Serebrjakov S.V. Metody i algoritmy kollektivnogo raspoznavaniya: obzor [Methods and algorithms of collective recognition: an overview]. Trudy SPIIRAN [Proceedings of SPIRAN], 2006, no. 3, vol.
- Terekhov S.A. Genial'nyye komitety umnykh mashin [Brilliant committees of smart machines]. Nauchnaya sessiya MIFI 2007. IX Vserossiyskaya nauchno-tekhnicheskaya konferentsiya «NEYROINFORMATIKA–2007», Lektsii po neyroinformatik [Scientific session of MEPhI 2007. IX All-Russian Scientific and Technical Conference "NEUROINFORMATICS–2007": Lectures on neuroinformatics], 2008, part 2, Moscow, MIFI, pp. 11–43.
- Eric Bauer, Ron Kohavi An empirical comparison of voting classification algorithms: Bagging, boosting, and variants. Machine learning, 1999, vol. 36, pp. 105–139.
- Breiman L. Bagging predictors. Department of Statistics University of California Berkeley, California. Technical Report No. 421, 1994.
- Yoav Freund, Robert E. Schapire A decision-theoretic generalization of online learning and an application to boosting. Second european conference on computational learning theory, 1995, pp 23-37, doi: 10.1007/3-540-59119-2_166.
- Rastrigin L. A., Erenshteyn R. Kh. Obucheniye kollektiva reshayushchikh pravil [Teaching a team of crucial rules]. Adaptivnye sistemy [Adaptive systems], 1974, no. 4, c. 8–20.
- Rastrigin L.A., Erenshteyn R.Kh. Prinyatiye resheniy kollektivom reshayushchikh pravil v zadachakh raspoznavaniya obrazov [Decision-making by a team of decisive rules in image recognition tasks]. Avtomatika i telemekhanika [Automation and telemechanics], 1975, no.9, pp. 133–144.
- Rastrigin L.A., Erenshteyn R.Kh. Metod kollektivnogo raspoznavaniya [The method of collective recognition]. Moskva, Energoizdat [Moscow, Energoizdat], 1981.
- Lagutin M.V. Naglyadnaya matematicheskaya statistika [Visual mathematical statistics]. M., BINOM. Laboratoriya znaniy [Moscow, BINOM. Laboratory of knowledge], 2007, 472 p.
- THE MNIST DATABASE of handwritten digits. Available at: http://yann.lecun.com/exdb/mnist/
- Adam Byerly, Tatiana Kalganova, Ian Dear No routing needed between capsules. ArXiv:2001.09136, doi: 10.48550/arXiv.2001.09136.
- Dorogov A.Yu. Bystrye preobrazovaniya i samopodobnye neyronnye seti glubokogo obucheniya. Chast' 1. Stratifitsirovannye modeli samopodobnykh neyronnykh setey i bystrykh preobrazovaniy [Fast transformations and self-similar deep learning neural networks. Part 1. Stratified models of self-similar neural networks and fast transformations]. Informacionnye i matematiceskie tehnologii v nauke i upravlenii [Information and mathematical technologies in science and management], 2023, no. 4(32), pp.5-20, doi: 10.25729/ESI.2023.32.4.001.
- Dorogov A.Yu. Bystrye preobrazovaniya i samopodobnye neyronnye seti glubokogo obucheniya. Chast' 2. Metody obucheniya bystrykh neyronnykh setey [Fast transformations and self-similar neural networks of deep learning. Part 2. Methods of training fast neural networks]. Informacionnye i matematiceskie tehnologii v nauke i upravlenii [Information and mathematical technologies in science and management], 2024, no. 1(33), pp. 5-19. doi: 10.25729/ESI.2024.33.1.001.
- Dorogov A.Yu. Bystryye neyronnyye seti glubokogo obucheniya [Fast deep learning neural networks]. III Mezhdunarodnaya nauchnaya konferentsiya po problemam upravleniya v tekhnicheskikh sistemakh (STS'2019). Sbornik dokladov. Sankt-Peterburg. SPb.: SPbGETU “LETI” [Proceedings of 2019 3rd international conference on control in technical systems [CTS 2019. Saint Petersburg, LETI], 2019, pp. 275-280.
- Voevodin V.V., Kuznetsov Yu.A. Matritsy i vychisleniya [Matrices and calculations]. M., Nauka [Moscow, Science], 1984, p.320.
- Dorogov A.Yu. Bystrye preobrazovaniya i samopodobnye neyronnye seti glubokogo obucheniya Chast' 3. Piramidal'nye neyronnye seti s glubokoy stepen'yu obucheniya [Fast transformations and self-similar deep learning neural networks Part 3. Pyramid neural networks with a deep learning degree]. Informacionnye i matematiceskie tehnologii v nauke i upravlenii [Information and mathematical technologies in science and management], 2024, no. 3(35), pp. 33–43, doi: 10.25729/ESI.2024.35.3.003.
补充文件
