Контекстно-независимый метод 6ыстрой детекции текста для распознавания номеров телефонов

Обложка

Цитировать

Полный текст

Аннотация

Современные методы детекции текста на изображениях основаны на вычислительно затратных моделях глубокого обучения и требуют большое количество данных для обучения, в том числе реальных. B случае поиска текста в произвольных сценариях, процесс сбора и аннотирования настоящих данных для обучения крайне трудозатратен и дорог из-за высокой вариативности возможных сцен. B данной работе представлен новый метод детекции текста на произвольных изображениях, который не требует для обучения фотографий текста в реальных сценах и может быть обучен на простых синтетических данных в виде строк. Предложенная нейросетевая модель в 42 раза меньше, чем детектор текста в одной из лучших в плане качества и скорости работы системе распознавания текста PaddleOCR (84 КБ против 3.6 МБ), что делает ее отличным выбором для мобильных устройств. Модель была протестирована в составе системы распознавания номеров телефонов, где с ее помощью удалось достичь 80,35% правильно распознанных номеров.

Об авторах

Александр Вячеславович Гайер

Федеральный исследовательский центр «Информатика и управление» Российской академии наук»; ООО «Смарт Энджинс Сервис»

Автор, ответственный за переписку.
Email: agayer@smartengines.com

Младший научный сотрудник. Научный сотрудник-программист. Область научных интересов: глубокое обучение, детекция объектов.

Россия, г. Москва; г. Москва

Список литературы

  1. Arlazarov V.L., Slavin O.A. Issues of recognition and verification of text documents. ITiVS 3. P. 55–61. 2023. doi: 10.14357/20718632230306.
  2. Bulatov K.B., Emelyanova E.V., Tropin D.V., Skoryukina N.S., Chernyshova Y.S., Sheshkus A.V., Usilin S.A., Ming Z., Burie J.C., Luqman M.M., Arlazarov V.V. Midv-2020: A comprehensive benchmark dataset for identity document analysis. Computer Optics 46(2). Р. 252–270 (2022). doi: 10.18287/2412-6179-CO-1006.
  3. Okun O., Yan Y., Pietikainen M. Robust text detection from binarized document images. In: 2002 International Conference on Pattern Recognition. Vol. 3. P. 61–64 vol.3 (2002). https:// doi.org/10.1109/ICPR.2002.1047795.
  4. Diem M., Kleber F., Sablatnig R. Text line detection for heterogeneous documents. In: 2013 12th International Conference on Document Analysis and Recognition. P. 743–747 (2013). https://doi. org/10.1109/ICDAR.2013.152.
  5. dos Santos R.P., Clemente G.S., Ren T.I., Cavalcanti G.D. Text line segmentation based on morphology and histogram projection. In: 2009 10th International Conference on Document Analysis and Recognition. P. 651–655 (2009). https://doi. org/10.1109/ICDAR.2009.183.
  6. Gatos B., Papamarkos N., Chamzas C. Skew detection and text line position determination in digitized documents. Pattern Recognition 30(9), 1505–1519 (1997). https://doi.org/ https://doi. org/10.1016/S0031-3203(96)00157-4.
  7. Lin T.Y., Dollár P., Girshick R., He K., Hariharan B. and Belongie S. “Feature Pyramid Networks for Object Detection,” 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, 2017. P. 936-944. doi: 10.1109/CVPR.2017.106.
  8. Baek Y., Lee B., Han D., Yun S., Lee H. Character region awareness for text detection. In: 2019 IEEE/ CVF Conference on Computer Vision and Pattern Recognition (CVPR). P. 9357–9366 (06 2019), doi: 10.1109/CVPR.2019.00959.
  9. Chen Z., Wang J., Wang W., Chen G., Xie E., Luo P., Lu T. Fast: Faster arbitrarily-shaped text detector with minimalist kernel representation. In: arXiv (2021), 2111.02394.
  10. Liao M., Wan Z., Yao C., Chen K., Bai X. Real-time scene text detection with differentiable binarization. Proceedings of the AAAI Conference on Artificial Intelligence 34(07), 11474–11481 (Apr 2020). https://doi.org/10.1609/aaai.v34i07.6812.
  11. Liao M., Zou, Z., Wan Z., Yao C., Bai X. Realtime scene text detection with differentiable binarization and adaptive scale fusion. arXiv (2022), 2202.10304.
  12. Zhang S.X., Zhu X., Yang C., Yin X.C. Arbitrary shape text detection via boundary transformer. IEEE Transactions on Multimedia 26. Р. 1747– 1760 (2022), https://api.semanticscholar.org/ CorpusID:248693243.
  13. Bu Q., Park S., Khang M. & Cheng Y. (2024). SRFormer: Text Detection Transformer with Incorporated Segmentation and Regression. Proceedings of the AAAI Conference on Artificial Intelligence, 38(2). Р. 855-863. https://doi. org/10.1609/aaai.v38i2.27844.
  14. Ye M., Zhang J., Zhao S., Liu J., Du B., Tao D. Dptext-detr: towards better scene text detection with dynamic points in transformer. In: Proceedings of the AAAI Conference on Artificial Intelligence. AAAI’23/IAAI’23/EAAI’23, AAAI Press (2023). https://doi.org/10.1609/aaai.v37i3.25430, https:// doi.org/10.1609/aaai.v37i3.25430.
  15. Li C., Liu W., Guo R., Yin X., Jiang K., Du Y., Du Y., Zhu L., Lai B., Hu X., Yu D., Ma Y. Pp-ocrv3: More attempts for the improvement of ultra lightweight ocr system. ArXiv abs/2206.03001 (2022), https:// api.semanticscholar.org/CorpusID:249431435.
  16. Layek A.K., Mandal S., Ghosh S. (2020). A Fast Approach for Text Region Detection from Images on Online Social Media. In: Das, A., Nayak, J., Naik, B., Pati, S., Pelusi, D. (eds) Computational Intelligence in Pattern Recognition. Advances in Intelligent Systems and Computing, vol 999. Springer, Singapore. https://doi.org/10.1007/978-981-13-9042-5_31.
  17. Gayer A.V., Sheshkus A.V. and Chernyshova Y.S. “Augmentation on the fly for the neural networks learning,” Trudy ISA RAN (Proceedings of ISA RAS), vol. 68, Спецвыпуск № S1. P. 150-157, 2018, doi: 10.14357/20790279180517.
  18. Trusov A.V., Limonova E.E., Nikolaev D.P. and Arlazarov V.V. “p-im2col: Simple Yet Efficient Convolution Algorithm with Flexibly Controlled Memory Overhead,” IEEE Access, vol. 9. P. 168162-168184, 2021. DOI: 10.1109/ ACCESS.2021.3135690.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».