Извлечение данных из сканированных документов со сходной структурой

Main Article Content

Рустем Дамирович Саитгареев
Булат Рифатович Гиниатуллин
Владислав Юрьевич Топоров
Артур Александрович Атнагулов
Фарид Радикович Аглямов

Аннотация

На текущий момент времени значительная часть передаваемых и хранимых данных не структурирована. Количество неструктурированных данных растет большими темпами каждый год, несмотря на то, что по таким данным трудно производить поиск, к ним нельзя совершать запросы и в целом их обработка не автоматизирована. В то же время наблюдается развитие систем электронного документооборота.


Настоящая работа предлагает инструмент для извлечения данных из фотографий бумажных документов, принимая во внимание их структуру и разметку. Представлены результаты разных испытанных подходов, включая нейронные сети и алгоритмический метод, а также проведен анализ полученных результатов.

Article Details

Как цитировать
Саитгареев, Р. Д., Гиниатуллин, Б. Р., Топоров, В. Ю., Атнагулов, А. А., & Аглямов, Ф. Р. (2021). Извлечение данных из сканированных документов со сходной структурой. Электронные библиотеки, 24(4), 667-688. https://doi.org/10.26907/1562-5419-2021-24-4-667-688
Биографии авторов

Рустем Дамирович Саитгареев

Студент магистратуры кафедры программной инженерии Института информационных технологий и интеллектуальных систем, Казанский федеральный университет.

Булат Рифатович Гиниатуллин

Студент магистратуры кафедры программной инженерии Института информационных технологий и интеллектуальных систем, Казанский федеральный университет.

Владислав Юрьевич Топоров

Студент магистратуры кафедры программной инженерии Института информационных технологий и интеллектуальных систем, Казанский федеральный университет.

Артур Александрович Атнагулов

Студент магистратуры кафедры программной инженерии Института информационных технологий и интеллектуальных систем, Казанский федеральный университет.

Фарид Радикович Аглямов

Студент магистратуры кафедры программной инженерии Института информационных технологий и интеллектуальных систем, Казанский федеральный университет.

Библиографические ссылки

1. Развитие электронного документооборота в России. Статистика, факты, перспективы // Taxcom. URL: https://taxcom.ru/baza-znaniy/ elektronnyy-dokumentooborot/stati/razvitie-elektronnogo-dokumentooborota-v-rossii-statistika-fakty-perspektivy/ (дата обращения 24.02.2021).
2. СЭД (рынок России) // TAdviser. URL: https://www.tadviser.ru/index.php/Статья:СЭД_(рынок_России) (дата обращения 08.03.2021).
3. AI Unleashes the Power of Unstructured Data // CIO.
URL: https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html (дата обращения 23.03.2021).
4. Structured vs. Unstructured Data // Datamation. URL: https://www.datamation.com/big-data/structured-vs-unstructured-data/ (дата обращения 23.03.2021).
5. Structured and Unstructured Documents: What are the Differences? // Optiform
URL: https://www.optiform.com/news/structured-unstructured-documents/ (дата обращения 23.03.2021).
6. McKendrick J. The Post-Relational Reality Sets in: 2011 Survey on Unstructured Data // Unisphere Research. 2011.
7. Rusu O. and al. Converting unstructured and semi-structured data into knowledge // 2013 11th RoEduNet International Conference. IEEE, 2013. P. 1–4.
8. Mori S., Suen C. Y., Yamamoto K. Historical review of OCR research and development // Proceedings of the IEEE. 1992. V. 80, No. 7. P. 1029–1058.
9. Memon J. and al. Handwritten optical character recognition (OCR): A comprehensive systematic literature review (SLR) // IEEE Access. 2020. V. 8. P. 142642–142668.
10. Vihar Kurama. Table Detection, Information Extraction and Structuring using Deep Learning // Nanonets. URL: https://nanonets.com/blog/table-extraction-deep-learning/ (дата обращения 23.02.2021).
11. Hwang W. and al. Spatial Dependency Parsing for Semi-Structured Document Information Extraction // arXiv. 2020.
12. Xu Y. and al. Layoutlm: Pre-training of text and layout for document image understanding // Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020. P. 1192–1200.
13. Ye Y. and al. A unified scheme of text localization and structured data extraction for joint OCR and data mining // 2018 IEEE International Conference on Big Data (Big Data). IEEE. 2018. P. 2373–2382.
14. Luo S. and al. Deep Structured Feature Networks for Table Detection and Tabular Data Extraction from Scanned Financial Document Images // arXiv. 2021.
15. Haase F., Kirchhoff S. Taxy. io@ FinTOC-2020: Multilingual Document Structure Extraction using Transfer Learning // Proceedings of the 1st Joint Workshop on Financial Narrative Processing and MultiLing Financial Summarisation. 2020. P. 163–168.
16. Rahman M. M., Finin T. Unfolding the Structure of a Document using Deep Learning // arXiv. 2019.
17. Dos Santos J. E. B. Automatic content extraction on semi-structured documents //2011 International Conference on Document Analysis and Recognition. IEEE. 2011. P. 1235–1239.
18. Alexander Jung. Imgaug Documentation Release 0.4.0 // Readthedocs. URL: https://imgaug.readthedocs.io/en/latest/ (дата обращения 02.27.2021).
19. Visvalingam M., Whyatt J. D. The Douglas‐Peucker algorithm for line simplification: re‐evaluation through visualization // Computer Graphics Forum. Oxford, UK: Blackwell Publishing Ltd, 1990. V. 9, No. 3. P. 213–225.
20. Intersection over Union (IoU) for object detection // PyImageSearch. URL: https://www.pyimagesearch.com/2016/11/07/intersection-over-union-iou-for-object-detection/ (дата обращения 27.02.2021).


Наиболее читаемые статьи этого автора (авторов)