Ontology-oriented information system for verification of formalized documents

Abstract

The paper raises the problem of improving the efficiency of processing documents submitted to the tax authority during the state registration of entrepreneurial activity by reducing the time of document processing through the automation of the verification process. The relevance of the study is due to a significant number of routine operations performed manually by specialists of the tax authority, as well as a large volume of income documents. The article considers the process of processing documents submitted to the tax authority when registering various forms for business activities. On the basis of the conducted research the expediency of development of software tools for automated verification of documents is substantiated. The peculiarities of this task requiring the use of ontological approach to data representation are highlighted. The ontology of a formalized document and the rules of its verification are described. An algorithm of document verification within the framework of the constructed ontological model is proposed. The architecture of information system including metadata, application server and user application is described. The metadata layer is represented by a set of ontologies built on the basis of the developed ontology model. An information system providing support for ontologies as well as automated document verification is developed. The results of automated document processing using the developed system are presented, confirming the reduction of time costs for verification of documents.

Full Text

Введение

Государственная регистрация является обязательным условием для осуществления предпринимательской деятельности и осуществляется в строго предусмотренном законом порядке органами исполнительной власти, ответственными за регистрацию субъектов предпринимательской деятельности [1]. При регистрации бизнеса в налоговую службу подается установленный законом пакет документов. В налоговой службе документы проходят поэтапную проверку (рис. 1).

 

Рис. 1. Состояния обработки документов, подаваемых при регистрации бизнеса

Fig. 1. State of processing documents that are submitted during business registration

 

Время обработки документов – один из важнейших количественных показателей эффективности документооборота. Верификация – ключевая операция, которая осуществляется на различных этапах обработки поданного пакета документов. В случае электронной подачи документов частичный контроль за заполнением документов обеспечивается специальным интернет-сервисом Федеральной налоговой службы «Государственная онлайн-регистрация бизнеса». Электронное взаимодействие заявителей и регистрирующего органа повышает эффективность выполнения налоговым органом его функций за счет упрощения и доступности процедуры регистрации для субъектов предпринимательства [2].

При подаче документов в бумажном виде верификация выполняется специалистами службы, при этом данный процесс автоматизирован лишь частично.

Часто задачи верификации на различных этапах существенно различаются, в результате чего верификация одного типа может выполняться неоднократно и занимать при этом значительное время. Автоматизация верификации позволит решить проблему распределения и перекрытия всех типов верификации, сократить время, затрачиваемое специалистом на данном этапе проверки документов, тем самым повысить эффективность процесса государственной регистрации предпринимательской деятельности.

Материалы и методы

Для повышения эффективности предлагается метод верификации документов, подаваемых при государственной регистрации юридических лиц (ЮЛ) и индивидуальных предпринимателей (ИП), основанный на онтологическом подходе к представлению метаданных. Документы для регистрации ЮЛ и ИП относятся к формализованным документам и имеют четко определенную форму и структуру, утвержденную ФНС России. В электронном виде такие документы представляются в формате XML. Обеспечить поддержку унифицированного представления данных с учетом их семантических свойств позволяет использование онтологии в качестве модели данных [3]. Онтологический подход обеспечивает высокую гибкость моделирования посредством использования стека семантических технологий [4]. Семантические технологии позволяют создавать модели, которые могут быть легко адаптированы к различным ситуациям и требованиям. Также обеспечивается возможность автоматического анализа и обработки данных, что дает возможность автоматически извлекать информацию из базы знаний и применять алгоритмы и инструменты для анализа, классификации и принятия решений.

Управление документами включает в себя также управление метаданными. Использование XML-описания метаданных позволяет включить метаинформацию, несущую машинопонимаемую семантику, в представление данных [5]. XML делает данные более понятными и легко интерпретируемыми для программного обеспечения за счет описания метаинформации в иерархической и структурированной форме. Также XML является широко поддерживаемым форматом, что обеспечивает совместимость и переносимость метаинформации между разными приложениями и платформами. Подобный подход часто используется для построения онтологий при разработке семантически-ориентированных программных систем [6–10]. Выделение данных о документе и его содержимом в онтологию метаданных (рис. 2) позволит организовать автоматическую верификацию формализованного документа.

 

Рис. 2. Многоуровневое представление метаданных документа

Fig. 2. Multilayered representation of document metadata

 

В метаданных должны присутствовать структурные описания документов, а также правила их верификации, соответствующие различным видам контроля.

Онтологическая модель документа и алгоритм верификации

Построена онтология документа, фрагмент которой представлен на рисунке 3. Совокупность реквизитов, идентифицирующих документ, представлена классом «Форма». Структурные части документа выделены классами «Лист», «Раздел» и «Поле». Условия формирования значения полей заданы классом «Условие». Класс «Данные» описывает совокупность внесенных в документ данных. Критерии заполнения данными структурных единиц документа содержатся в классе «Объем». Класс «Правило» содержит множество правил верификации. Его подклассы соответствуют группам правил, применяемых при различных видах контроля: форматного, логического, справочного и объемного. Класс «Справочник» содержит пути к справочной информации, предназначенной для верификации значений полей документа.

 

Рис. 3. Фрагмент иерархии классов онтологии «Документ»

Fig. 3. Fragment of class hierarchy of the ontology “Document”

 

Определен набор  свойств онтологии. Описание важнейших из них представлено в таблице 1.

 

Таблица 1. Свойства онтологии

Table 1. Ontology properties

 

Семантика

Домен

свойства

Диапазон

значений свойства

Описание

 

«включает»

Форма

Лист

Свойство описывает структурную топологию документа

Лист

Раздел

Раздел

Поле

 

«заполняется

согласно

правилу»

Лист

Поле

Раздел

Форма

Правило

Свойство определяет совокупность правил заполнения соответствующих структурных единиц документа

 

«является

правилом вида»

Правило

Правило форматного контроля

Правило логического контроля

Правило справочного контроля

Правило объемного контроля

Свойство устанавливает принадлежность правила к соответствующему виду

 

«определяет

формат»

Правило форматного контроля

Тип формата

Свойство описывает характеристическое свойство правила форматного контроля

 

«определяет

условие»

Правило логического контроля

Значение

Свойство описывает характеристические свойства правила логического контроля

Правило логического контроля

Условие

 

«верифицируется по справочнику»

Правило справочного контроля

Справочник

Свойство описывает характеристическое свойство правила справочного контроля

 

«должен быть

заполнен»

Лист

Поле

Правило ОК

Раздел

Объем

Свойство задает требование заполнения структурных единиц документа

 

На классах «Правило» и «Форма» онтологии задана функция w – «являться правилом формы», отражающая связь правила и его компонент с заданной формой. В синтаксисе дескрипционной логики ALC (от англ. attributive language with complement) функция w имеет вид:

IПР w IФРМ : ((IПРIФК)⨅(IФКIФТ)) ⨆ ((IПРIЛК)⨆(IЛКIУСЛ)) ⨆

((IПРIЛК)⨆(IЛКIЗНЧ)) ⨆ ((IПРIСК)⨆ (IСКIСПР)) ⨆

((IПРIОК)⨅(IОКIОБМ))⨅((IПОЛЕIПР)⨅(IПОЛЕIРЗДЛ)⨅(IРЗДЛIЛСТ)⨅(IЛСТIФРМ)),

где IПР: «Правило»; IФРМ: «Форма»; IФК: «Правило форматного контроля»; IФТ: «Формат»; IЛК: «Правило логического контроля»; IУСЛ: «Условие»; IЗНЧ: «Значение»; IСК: «Правило справочного контроля»; IСПР: «Справочник»; IОК: «Правило ОК»; IОБМ: «Объем»; IПОЛЕ: «Поле»; IРЗДЛ: «Раздел»; IЛСТ: «Лист».

Функция определяет правило верификации поля документа заданной формы.

Разработан алгоритм верификации на основе представленной онтологической модели, последовательность реализации которой включает следующие шаги:

Шаг 1 – определение формы верифицируемого документа на основе метаданных онтологии.

Шаг 2 – построение набора правил для каждого структурного элемента формы.

Шаг 3 – получение данных о значении структурного элемента загруженного документа по тегам, определенным в онтологии документа.

Шаг 4 – оценка соответствия полученного значения правилам верификации.

Шаг 5 – подсчет количества и анализ типа выявленных ошибок.

По результатам выполнения процедуры разбора составляется отчет, в котором сохраняются основные ошибки в документе по всем видам контроля.

Результаты

Предложенный метод реализован в виде системы автоматизированной верификации документов. Архитектура разработки состоит из трех уровней: метаданные, сервер, приложение пользователя. Уровень метаданных включает совокупность онтологий, описывающих документы и правила их верификации. Структура системы приведена на рисунке 4.

 

Рис. 4. Структура среды информационной системы

Fig. 4. Structure of the information system environment

 

Загрузка проверяемого файла происходит в верификаторе, в состав которого входят библиотеки, производящие разбор документа. По результатам работы верификатора осуществляется построение отчета (рис. 5).

 

Рис. 5. Фрагмент отчета о результатах верификации документа

Fig. 5. Fragment of the report on the results of document verification

 

Наличие ошибок является основанием решения об отказе в рассмотрении документов.

Обсуждение

Проведен анализ времени, затрачиваемого на верификацию документов вручную и с помощью разработанной системы. Для этого в отделе налогового органа собрана статистика времени проверки документов за рабочую неделю (табл. 2).

 

Таблица 2. Среднее время проверки документов вручную

Table 2. Average time for checking an application for registration in manual mode

Показатель

Пн

Вт

Ср

Чт

Пт

В среднем

за неделю

Количество проверенных форм (шт.)

7

11

5

6

8

7,4

Среднее время проверки (мин.)

68,5

80

48

67

81,5

69

 

При подключении программных средств время проверки сократилось почти на 50 % (табл. 3).

 

Таблица 3. Среднее время проверки документов в информационной системе

Table 3. Average time for verification of an application for registration in the information system

Показатель

Пн

Вт

Ср

Чт

Пт

В среднем

за неделю

Количество проверенных форм (шт.)

15

17

14

12

14

14,4

Среднее время проверки (мин.)

32

28,2

34,2

40

34,2

33,7

 

Как видно, количество проверенных форм при этом возросло почти в два раза.

Заключение

Использование разработанной системы в работе налоговой службы позволяет сократить материальные и временные затраты на верификацию документов при регистрации юридических лиц и ИП, что способствует повышению эффективности данной процедуры. Построенная онтологическая модель и процедура верификации могут быть расширены, что обеспечивает легкость внесения модификаций в форму или правила верификации при их изменении уполномоченным органом. Полученные результаты применимы в теоретических и практических исследованиях, связанных с разработкой систем верификации структурированных электронных документов.

 

×

About the authors

Irina Yu. Balashova

Penza State University

Email: irs-80@mail.ru
ORCID iD: 0009-0003-9388-7375

Candidate of Technical Sciences, Associate Professor, Associate Professor of the Department of Mathematical Support and Computer Use

Russian Federation, 440026, Penza, 40 Krasnaya street

Elena A. Dzyuba

Penza State University

Author for correspondence.
Email: dzyuba_ea@mail.ru

Senior Lecturer of the Department of Mathematical Support and Computer Use, Penza State University

Russian Federation, 440026, Penza, 40 Krasnaya street

Nataliya A. Popova

Penza State University

Email: popov.tasha@yandex.ru
ORCID iD: 0000-0001-9713-4897

Candidate of Technical Sciences, Associate Professor of the Department of Mathematical Support and Computer Use

Russian Federation, 440026, Penza, 40 Krasnaya street

References

  1. Zorina E.A. State registration of legal entities in the russian federation: administrative and legal status of business entities as the parts of registration production. Chelovek: prestuplenie i nakazanie [Man: crime and punishment]. 2013. No. 4(83). Pp. 125–127. (In Russian)
  2. Trofimova E.V. Electronic legitimation and interaction of entrepreneurships with registration (tax) authority. Courier of the Kutafin Moscow State Law University (MSAL). 2020. No. 7(71). Pp. 29–36. doi: 10.17803/2311-5998.2020.71.7.029-036. (In Russian)
  3. Maksimov N.V., Lebedev A.A. Ontological system “knowledge-activity”. Ontology of designing. 2021. Vol. 11. No. 2(40). Pp. 185–211. doi: 10.18287/2223-9537-2021-11-2-185-211. (In Russian)
  4. Volchek D.G., Romanov A.A. Creation and training of ontologies based on the analysis of context and metadata of poorly structured content. Ekonomika: vchera, segodnya, zavtra [Economics: yesterday, today, tomorrow]. 2020. Vol. 10. No. 1-1. Pp. 303–312. doi: 10.34670/AR.2020.91.1.033. (In Russian)
  5. Vorobiev V.I., Monakhova T.V. Protection of metadata in xml format. Ontology of designing. 2018. Vol. 8. No. 2(28). Pp. 253–264. doi: 10.18287/2223-9537-2018-8-2-253-264. (In Russian)
  6. Polovikova O.N. Analysis of XML-based approach to description of semantic web metadata and ontologies. Izvestiya Altayskogo gosudarstvennogo universiteta [News of Altai State University]. 2014. No. 1-2(81). Pp. 119–123. doi: 10.14258/izvasu(2014)1.2-19. (In Russian)
  7. Vorobev V.I., Soldatkina A.A. Method of ontological analysis of a web-resource based on metadata. Science Bulletin of the Novosibirsk State Technical University. 2018. № 3(72). Pp. 43–58. doi: 10.17212/1814-1196-2018-3-43-58. (In Russian)
  8. Shchekin A.V. The specifics of information inheritance in cad/cam-integration. Ontology of designing. 2020. Vol. 10. No. 2(36). Pp. 201–217. doi: 10.18287/2223-9537-2020-10-2-201-217. (In Russian)
  9. Muromtsev D.I., Volchek D.G., Romanov A.A. Industrial'nye grafy znaniy – intellektual'noe yadro tsifrovoy ekonomiki [Industrial knowledge graphs – the intellectual core of the digital economy]. Control Engineering Rossiya [Control engineering Russia]. 2019. № 5(83). Pp. 32–39. (In Russian)
  10. Shachnev D. A. Searching for activity results and experts in a given subject area, taking results significance into account. Programmnaya Ingeneria. 2021. Vol. 12. No. 5. Pp. 260–266. doi: 10.17587/prin.12.260-266

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. State of processing documents that are submitted during business registration

Download (68KB)
3. Fig. 2. Multilayered representation of document metadata

Download (46KB)
4. Fig. 3. Fragment of class hierarchy of the ontology “Document”

Download (62KB)
5. Fig. 4. Structure of the information system environment

Download (83KB)
6. Fig. 5. Fragment of the report on the results of document verification

Download (80KB)

Copyright (c) 2024 Balashova I.Y., Dzyuba E.A., Popova N.A

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».