Распознавание табличной информации с использованием свёрточных нейронных сетей

Обложка

Цитировать

Полный текст

Аннотация

Показана актуальность выявления табличной информации и распознавания её содержимого для обработки отсканированных документов. Описано формирование набора данных для обучения, валидации и тестирования нейронной сети глубокого обучения (DNN) YOLOv5s для обнаружения простых таблиц. Отмечена эффективность использования этой DNN при работе с отсканированными документами. С использованием Keras Functional API сформирована свёрточная нейронная сеть (CNN) для распознавания основных элементов табличной информации — цифр, основных знаков препинания и букв кириллицы. Приведены результаты исследования работы этой CNN. Описана реализация выявления и распознавания табличной информации на отсканированных документах в разработанной ИС актуализации информации в базах данных системы ЕГРН Росреестра.

Об авторах

Игорь Викторович Винокуров

Финансовый Университет при Правительстве Российской Федерации

Автор, ответственный за переписку.
Email: igvvinokurov@fa.ru
ORCID iD: 0000-0001-8697-1032
Кандидат технических наук (PhD), ассоциированный профессор в Финансовом Университете при Правительстве Российской Федерации. Область научных интересов: информационные системы, информационные технологии, технологии обработки данных.

Список литературы

  1. Винокуров И. В.. «Using a convolutional neural network to recognize text elements in poor quality scanned images», Программные системы: теория и приложения, 13:3 (2022), с. 29–43 (in Russian).
  2. Harit G., Bansal A.. “Table detection in document images using header and trailer patterns”, Proceedings of the Eighth Indian Conference on Computer Vision, Graphics and Image Processing, ICVGIP'12 (December 16–19, 2012, Mumbai, India), ACM, New York, 2012, ISBN 978-1-4503-1660-6, 8 pp.
  3. Gatos B., Danatsas D., Pratikakis I., Perantonis S.. “Automatictable detection in document images”, ICAPR 2005: Pattern Recognition and Data Mining, Lecture Notes in Computer Science, vol. 3686, Springer, Berlin–Heidelberg, 2005, ISBN 978-3-540-28757-5, pp. 609–618.
  4. Kasar T., Barlas P., Adam S., Chatelain C., Paquet T.. “Learning to detect tables in scanned document images using line information”, 2013 12th International Conference on Document Analysis and Recognition (25–28 August 2013, Washington, DC, USA), 2013, pp. 1185–1189.
  5. Jahan M. A., Ragel R. G.. “Locating tables in scanned documents for reconstructing and republishing”, 7th International Conference on Information and Automation for Sustainability (22-24 December 2014, Colombo, Sri Lanka), 2014, pp. 1–6.
  6. Kieninger T. G.. “Table structure recognition based on robust block segmentation”, Document Recognition V, Photonics West'98 Electronic Imaging (1998, San Jose, CA, United States), Proc. SPIE, vol. 3305, 1998, pp. 22–32.
  7. Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou, Zhoujun Li. TableBank: A benchmark dataset for table detection and recognition, 2020, 9 pp.
  8. Fang J., Tao X., Tang Z., Qiu R., Liu Y.. “Dataset, ground-truth and performance metrics for table detection evaluation”, 2012 10th IAPR International Workshop on Document Analysis Systems (27–29 March 2012, Gold Coast, QLD, Australia), 2012, pp. 445—449.
  9. Gobel M., Hassan T., Oro E., Orsi G.. “Icdar 2013 table competition”, 2013 12th International Conference on Document Analysis and Recognition (15 October 2013, Washington, DC, USA), 2013, pp. 1449–1453.
  10. Shahab A., Shafait F., Kieninger T., Dengel A.. “An open approach towards the benchmarking of table structure recognition systems”, Proceedings of the 9th IAPR International Workshop on Document Analysis Systems, DAS'10 (June 9–11, 2010, Boston, Massachusetts, USA), 2010, ISBN 978-1-60558-773-8, pp. 113–120.
  11. Gao L., Huang Y., Dejean H., Meunier J. -L., Yan Q., Fang Y., Kleber F., Lang E.. “ICDAR 2019 competition on table detection and recognition (cTDaR)”, 2019 International Conference on Document Analysis and Recognition (ICDAR) (20–25 September 2019, Sydney, NSW, Australia), 2019, pp. 1510–1515.
  12. Ren S., He K., Girshick R., Sun J.. “Faster R-CNN: towards real-time object detection with region proposal networks”, IEEE transactions on pattern analysis and machine intelligence, 39:6 (2016), pp. 1137–1149.
  13. Redmon J., Divvala S., Girshick R., Farhadi A.. “You only look once: Unified, real-time object detection”, Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 779–788.
  14. Gilani A., Qasim S. R., Malik I., Shafait F.. “Table detection using deep learning”, 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). 1 (09–15 November 2017, Kyoto, Japan), 2017, pp. 771–776.
  15. Banerjee A.. YOLOv5 vs YOLOv6 vs YOLOv7, 2022–2023, Learn With A Robot, https://www.learnwitharobot.com/p/yolov5-vs-yolov6-vs-yolov7.
  16. Lebiedzinski P.. A single number metric for evaluating object detection models, 2021, Towards Data Science, https://towardsdatascience.com/a-single-number-metric-for-evaluating-object-detection-models-c97f4a98616d.
  17. Surya Gutta. Object Detection Algorithm — YOLO v5 Architecture, Analytics Vidhya, 2021, https://medium.com/analytics-vidhya/object-detection-algorithm-yolo-v5-architecture-89e0a35472ef.
  18. Zixin Ning, Xinjiao Wu, Jing Yang, Yanqin Yang. “MT-YOLOv5: Mobile terminal table detection model based on YOLOv5”, The Fourth International Conference on Physics, Mathematics and Statistics (ICPMS) 2021 (19–21 May 2021, Kunming, China), Journal of Physics: Conference Series, 1978 (2021), 012010.
  19. Yilun Huang, Qinqin Yan, Yibo Li, Yifan Chen, Zhi Tang. “A YOLO-based table detection method”, 2019 International Conference on Document Analysis and Recognition (ICDAR) (20–25 September 2019, Sydney, NSW, Australia), 2019.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».