1. Введение
В данной работе рассматриваются только многослойные нейронные сети с прямым распределением сигнала (далее, просто сети, нейросети или нейронные сети). Информацию о нейронных сетях и их структурах (архитектурах) можно найти в [1-4]. Работа направлена на построение группоидов, позволяющих моделировать композицию многослойных нейронных сетей.
В работах [5-6] изучались коммутативные (но в общем случае не ассоциативные) группоиды , элементы которых тесно связаны с подсетями нейронной сети . Изучались эндоморфизмы (см. теорема 2 из [5] и теорема 1 из [6]) этих группоидов и их подгруппоиды (см. теорема 1 из [5]). Определение 2.1, которое формализует понятие нейронной сети в данной работе, строится на основании определения нейронной сети из работ [5-6]. Нейронная сеть в смысле данного определения является математическим объектом: кортежем, элементы которого определяют структуру (по другому архитектуру или внутреннее устройство) нейронной сети.
Другим подходом к математической формализации понятия нейронной сети является понятие абстрактной нейронной сети, построенное в работе [7]. Такой подход имеет свои достоинства и близок к подходу, использующемуся в теории абстрактных автоматов ([8]). Представление нейронной сети в виде конкретного абстрактного автомата, который при этом не является конструкцией, построенной с помощью других абстрактных автоматов, не дает возможности изучать или принимать во внимание архитектуру нейронной сети. Данное обстоятельство является хорошо известным и отмечалось В. М. Глушковым в обзоре [8] для любых конкретных автоматов, представляемых в виде абстрактных автоматов.
Основные результаты. В работе строится полный группоид композиции многослойных нейронных сетей (см. определение 2.2). Основным результатом работы является Теорема 5.1, которая показывает, что полный группоид композиции является свободным группоидом. Найдена система свободных образующих группоида построенного группоида (см. теорема 5.1, лемму 5.2 и предложение 5.3). Свойство группоида быть свободным достаточно полно характеризует его алгебраические свойства. В частности, можно считать известным моноид всех эндоморфизмов такого группоида.
Результаты работы будут полезны для разработки методов исследования нейронных сетей с помощью алгебраических объектов. Другим подходом исследований в этом направлении является моделирование композиции с помощью частичных группоидов (результаты авторов по этому направлению в настоящее время готовятся к отправке в журнал).
2. Основные определения и обозначения
Всюду далее множество действительных чисел; множество натуральных чисел и множество всех отображений множества в множество . Сформулируем определение многослойной нейронной сети. Как обычно, мощность множества обозначим через .
Определение 2.1. Пусть заданы следующие объекты:
1) кортеж длины конечных непустых множеств, где при справедливо условие ;
2) множество ;
3) отображение ;
4) множество ;
5) отображение ;
6) отображение ;
7) биективное отображение ;
8) биективное отображение .
Тогда кортеж будем называть многослойной нейронной сетью прямого распределения.
Отображение задает веса синаптических связей, отображение определяет функции активации у каждого нейрона, определяет пороговые значения нейронов (подробную информацию о перечисленных структурных единицах можно найти, например, в [5]). Совокупность нейронов будем называть входным слоем, а выходным слоем. Отображения и задают упорядочение входного и выходного слоя. Отображения будем называть структурными отображениями нейронной сети , поскольку они определяют структуру сети . Количество слоев в сети будем обозначать через .
Приведенное определение построено на основе определения 1 из [5], в котором отсутствовали пункты 7) и 8). Последнее объясняется тем, что в работе [5] изучались подсети нейронной сети и не было необходимости рассматривать пункты 7) и 8), которые отвечают за упорядочение входного и выходного слоя нейронов. Последнее необходимо в контексте передачи выходного сигнала первой сети на вход второй сети. Кроме того, определение 1 разрешает однослойные нейронные сети (в отличии от определения 1 из [5]).
Для каждого целого и непустого множества введем следующие обозначения:
В частности, выполняются равенства
Определение 2.2. Для любого множества через обозначим множество всевозможных нейронных сетей, таких что нейронная сеть из имеет ровно входов и ровно выходов, а ее нейроны являются элементами множества . Пусть множество свободное от специальных кортежей. Тогда введем множество нейронных сетей
где объединение берется по всем натуральным .
Всюду далее это множество свободное от кортежей, содержащих компоненты, равные числам или (или просто множество, свободное от специальных кортежей). Обозначение возникает как аббревиатура Set of All Networks. В следующем разделе на множестве будет введена бинарная алгебраическая операция (см. определение 4.1).
Две сети и из считаем равными, когда они равны как кортежи. Ясно, что тогда и только тогда, когда выполняются равенства
где под равенством отображений понимается поточечное равенство.
3. Описание основных результатов
Каждой нейронной сети будет соответствовать отображение , которое реализует действие нейронной сети на входных сигналах из . Отображение определяется стандартным способом с помощью модели искусственного нейрона Мак-Каллока Питтса, (подробную информацию об этом можно найти, например, в [1] или [2]).
На множестве вводится бинарная алгебраическая операция (см. определение 4.1), которая любым двум сетям и ставит в соответствие нейронную сеть , такую что на любом входном сигнале имеет место равенство
(3.1)
(см. утверждение 4.1). Поэтому нейронная сеть действует на множестве входных сигналов как последовательное применение сетей и потом . Такой подход, с точки зрения теории абстрактных автоматов, можно интерпретировать, как подачу выходных сигналов первого автомата на вход второго автомата (см., например, определение 25 [8, с. 54]). Операция некоммутативна и неассоциативна (следует из теоремы 5.1).
Нейронная сеть содержит в себе информацию о структуре нейронных сетей и . Однако при этом сеть не содержит нейронов, входящих в сети и . Вместо них нейронами сети выступают кортежи и , где нейрон сети и нейрон сети . Данный прием необходим для корректного определения сети как математического объекта, введенного определением 2.1 (подробнее см. замечание 4.1). Группоид строился так, чтобы для любых двух сетей и , принадлежащих ему, выполнялось соотношение (3.1) (это позволяет использовать его для моделирования композиций сетей). Свойство группоида быть свободным не обеспечивалось специально.
4. Построение группоида
В данном разделе строится группоид , в котором будет являться сетью из , полученной в соответствие с принципом композиции нейронных сетей. Введем объекты, которые необходимы для формулировки группоида . Как правило, декартово произведение множеств. Для всякого множества и каждого определим множество .
Каждой паре сетей
из сопоставим множества
Пусть и два отображения. Тогда через будем обозначать отображение множества в множество , которое для любого и действует по правилу:
Пусть и . Тогда через обозначим отображение множества в множество , которое для любого действует следующим образом: .
Определение 4.1. Для любых нейронных сетей
из множества определяем отображения
и отображение , которое однозначно определяется соотношениями:
Операцию определим равенством
(4.1)
Замечание 4.1. Отметим, что отображения и выполняют функцию покраски элементов множества в два различных цвета (первый цвет и второй цвет). Покраска является необходимым условием корректности определения 4.1. В самом деле, для покрашенных множеств выполняется равенство
которое обеспечивает корректность введения структурных отображений . При отсутствии покраски и наличия в двух сетях одинаковых нейронов данный способ задания структурных отображений результирующей сети приводил бы к тому, что на одном нейроне одно и то же отображение имеет различные значения. Последнее не корректно.
Структурные отображения из определения 4.1 подобраны так, чтобы сеть действовала на любом входном сигнале, как последовательное применение сетей и .
Группоид назовем полным группоидом композиции многослойных нейронных сетей.
Работа сети. Работу нейронной сети из как вычислительной схемы будет реализовывать функция . Действие этой функции опишем помощью модели искусственного нейрона Мак-Каллока Питтса ([1]). Пусть нейрон слоя при . Нейрон получает сигнал (в виде числа) от каждого нейрона предыдущего слоя. Обозначим эти нейроны символами , а сигналы (числа), которые они посылают, обозначим символами . Тогда генерирует свой сигнал по правилу
где функция активации нейрона (для каждого нейрона функцию активации определяет структурное отображение ; здесь значение отображения на нейроне ). Дальше сигнал передается через соответствующие синаптические связи.
Действие функции состоит в том, что сигнал передается на входной слой так, что нейрон получает сигнал , когда . Нейроны входного слоя передают свои сигналы ( , ) по синаптическим связям на второй слой. Далее сигнал распространяется по сети в соответствии с моделью искусственного нейрона, описанной выше. Выходной слой генерирует вектор , где число сгенерировано нейроном таким, что .
Для любых двух сетей и из и всякого сигнала выполняется равенство
Доказательство. Рассмотрим сети
из множества .
Из построения сети видно, что сигнал распространяется по слоям так же, как он распространялся бы по сети (действительно, это гарантируется способом задания структурных отображений сети ). Поэтому слой сгенерирует сигнал . Нейрон из будет соединяться с нейроном синаптической связью, имеющей вес 1, тогда и только тогда, когда . С другими нейронами слоя нейрон соединяется синаптическими связями, имеющими вес 0. Следовательно, слой получает сигнал , который распространяется по слоям так же, как он распространялся бы по сети . Поэтому сеть возвращает сигнал , когда на ее вход подается сигнал . Утверждение доказано.
5. Структура группоида
Главным результатом данного раздела будет являться теорема 5.1, которая показывает, что группоид является свободным группоидом. Вспомогательные утверждения дадут арифметические свойства данного группоида в терминах нейронных сетей.
Если элемент группоида нельзя разложить в произведение двух элементов данного группоида, то будем называть такой элемент простым элементом. Для каждой сети из определим множество
Будем использовать обозначение
Ясно, что это множество всех возможных нейронов, из которых формируются нейронные сети группоида .
Определение 5.1. Для каждой нейронной сети из введем натуральное число такое, что выполняются условия:
1) если сеть имеет вид
для подходящих подмножеств множества и выполняются неравенства , , то полагаем по определению ;
2) если не существует натурального числа такого, что выполняются условия первого пункта, то .
Число назовем разделителем первого типа сети .
Из определения 4.1 операции вытекает
Предложение 5.1. Если , то простой элемент группоида .
Если разделитель первого типа сети равен , то это означает, что основной кортеж нейронов сети имеет структуру непригодную для того, чтобы представить данную сеть в виде произведения некоторых двух сетей из группоида (см. равенство (4.1)).
При выполняется необходимое (но не достаточное) условие того, что нейронную сеть можно представить в виде произведения , где .
Не сложно увидеть, что все однослойные нейронные сети из являются простыми элементами группоида (обратное не верно). Последнее вытекает из того, что группоид для любого из выполняется неравенство и равенство .
Далее введем объект, который позволит сформулировать необходимое и достаточное условие того, что нейронную сеть можно представить в виде композиции двух сетей (см. ниже предложение 5.2 пункт 3).
Определение 5.2. Пусть нейронная сеть принадлежит . Тогда определим множество , состоящее из всевозможных натуральных чисел (и только из них), таких что одновременно выполняются условия:
1) сеть имеет вид ;
2) выполняются равенства ;
3) выполняются неравенства и ;
4) в каждый нейрон , входящий в , входит только одна синаптическая связь с весом , а все остальные синаптические связи, входящие в нейрон , имеют нулевой вес;
5) из каждого нейрона , принадлежащего , выходит только одна синаптическая связь с весом , а все остальные синаптические связи, выходящие из нейрона , имеют нулевой вес.
Множество будем называть разделителем второго типа сети .
Рассмотрим условия на число из определения 5.2. Условие 2) продиктовано тем, что в множество входят только нейронные сети, у которых во входном слое нейронов и в выходном слое нейронов. Условие 3) продиктовано тем, что в множество входят нейронные сети, у которых число слоев строго больше 1. Условия 4) и 5) объясняются определением структурного отображения результирующей сети из определения 4.1.
Вхождение некоторого натурального числа в разделитель второго типа сети является необходимым условием для того, чтобы нейронную сеть можно было разбить в произведение , где . Из определений 4.1, 5.1 и 5.2 вытекает
Предложение 5.2. Выполняются следующие утверждения:
1) Если , то простой элемент группоида .
2) Если , то простой элемент группоида .
3) Сеть не является простым элементом группоида тогда и только тогда, когда разделитель первого типа является элементом разделителя второго типа.
Пусть множество всех простых элементов группоида . Тогда из пункта 3) предложения 5.2 вытекает
Предложение 5.3. Справедливо равенство
Лемма 5.1. Для каждого элемента группоида выполняется условие .
Доказательство. Если простой элемент группоида , то . В этом случае неравенство из утверждения выполняется.
Пусть . Тогда существуют сети
из множества такие, что . Предположим, что существуют сети и такие, что и В этом случае выполняются равенства
которые вместе с определением опреации показывают, что
Из определения операции следует, что структурные отображения сети совпадают со структурными отображениями сети при . Поэтому , следовательно, имеем противоречие, которое дает условие . Лемма доказана.
Далее под символом будем понимать разность двух множеств.
Лемма 5.2. Группоид порождается своим множеством простых элементов.
Доказательство. Истинность этого утверждения вытекает из существования процедуры, которая за конечное число шагов позволяет представить любую сеть из группоида в виде алгебраического выражения, записанного с помощью скобок, операции и простых элементов группоида (далее это алгебраическое выражение будем называть разложением через простые элементы). Опишем указанную процедуру.
Этап 1. Пусть произвольная сеть из . Если простой элемент группоида, то оставляем его без изменений. Если сеть из множества , то данная сеть раскладывается в произведение , где подходящие сети (единственные в силу леммы 5.1) такие, что выполняются неравенства и .
Этап 2. Если обе сети являются простыми элементами группоида, то фиксируем это (т. е. записываем полученное выражение). В этом случае мы получили, что сеть принадлежит , следовательно, получим разложение этой сети через простые элементы.
Этап 3. Если одна или обе из сетей окажутся не простыми элементами группоида , то будем раскладывать их в произведения подходящих сетей (применяем к этим сетям первый этап процедуры). Данный процесс продолжаем, пока не получим разложение сети через простые элементы.
Построенный процесс обязательно приведет к получению разложения сети через простые элементы. Каждый раз, когда мы раскладываем некоторую сеть в произведение подходящих сетей , то число слоев в сетях будет строго меньше, чем число слоев в сети . Поскольку для каждой сети из число слоев конечное число и все сети из с условием являются простыми элементами, то за конечное число шагов можно получить разложение любой сети через простые элементы. Лемма доказана.
Свободный группоид слов в заданном алфавите. Будем говорить, что свободный группоид слов со свободной системой образующих , если элементами группоида являются слова в алфавите , где под словом понимают любую конечную упорядоченную систему элементов из с любыми повторениями, причем в этой системе задано распределение скобок (каждый символ считается взятым в скобки, а затем скобки расставлены так, что каждый раз перемножаются только две скобки).
В свободном группоиде слов любая пара различных слов дает пару различных элементов, а множество свободных образующих является множеством всех простых элементов данного свободного группоида. Например, если система свободных образующих, то слова не являются элементами свободного группоида (т. к. нет корректной расстановки скобок), а слова являются элементами свободного группоида (кроме того, данные слова различны).
Всякий группоид , который изоморфен свободному группоиду слов, будем называть свободным группоидом. Если группоид порождается множеством всех своих простых элементов и каждый непростой элемент этого группоида можно только одним способом представить в виде произведения двух элементов этого группоида, то свободный группоид (в этом случае любое отображение множества простых элементов группоида в группоид продолжается до эндоморфизма группоида ).
Теорема 5.1. Группоид является свободным группоидом со свободной системой образующих .
Доказательство. В силу леммы 5.2 мы можем считать, что система образующих группоида . Лемма 5.1 показывает, что всякий элемент группоида либо простой элемент, либо единственным образом раскладывается в произведение элементов этого группоида. Следовательно, два различных слова в алфавите являются различными элементами в группоиде . Поэтому множество является свободной системой образующих группоида . Теорема доказана.
Благодарности. Работа поддержана Красноярским математическим центром, финансируемым Минобрнауки России (Соглашение 075-02-2024-1429).