Data Extraction from Similarly Structured Scanned Documents

Рустем Дамирович Саитгареев; Булат Рифатович Гиниятуллин; Владислав Юрьевич Топоров; Артур Александрович Атнагулов; Фарид Радикович Аглямов

doi:10.26907/1562-5419-2021-24-4-667-688

PDF

Опубликован: 12.09.2021

УДК004.8 УДК004.91

DOI: https://doi.org/10.26907/1562-5419-2021-24-4-667-688

Выпуск

Том 24 № 4 (2021)

Рустем Дамирович Саитгареев

Казанский (Приволжский) Федеральный университет

Булат Рифатович Гиниятуллин

Казанский (Приволжский) Федеральный университет

Владислав Юрьевич Топоров

Казанский (Приволжский) Федеральный университет

Артур Александрович Атнагулов

Казанский (Приволжский) Федеральный университет

Фарид Радикович Аглямов

Казанский (Приволжский) Федеральный университет

Аннотация

На текущий момент времени значительная часть передаваемых и хранимых данных не структурирована. Количество неструктурированных данных растет большими темпами каждый год, несмотря на то, что по таким данным трудно производить поиск, к ним нельзя совершать запросы и в целом их обработка не автоматизирована. В то же время наблюдается развитие систем электронного документооборота.

Настоящая работа предлагает инструмент для извлечения данных из фотографий бумажных документов, принимая во внимание их структуру и разметку. Представлены результаты разных испытанных подходов, включая нейронные сети и алгоритмический метод, а также проведен анализ полученных результатов.

Ключевые слова:

нейронные сети, машинное обучение, извлечение структуры, извлечение структуры документов, OCR , неструктурированные данные , распознавание текста.

Как цитировать

Саитгареев, Р. Д., Гиниятуллин, Б. Р., Топоров, В. Ю., Атнагулов, А. А., & Аглямов, Ф. Р. (2021). Извлечение данных из сканированных документов со сходной структурой. Электронные библиотеки, 24(4), 667-688. https://doi.org/10.26907/1562-5419-2021-24-4-667-688

Биографии авторов