Как оптическое распознавание текста (OCR) помогает в обработке документов

Целью внедрения инноваций не всегда бывает первенство и лидерство в своей сфере, главное — быть лучшими.

Ричард Брэнсон

Клиенты часто спрашивают нас: «Вы умеете распознавать документы?». Выполнять оптическое распознавание текста (англ. Optical Character Recognition – OCR), мы, конечно же, умеем. Однако, следует различать такие понятия как «Распознавание текста документа» и «Распознавание документа», данные понятия не равны и первое уже второго, а второе включает в себя первое.

схема

В данной статье Вы узнаете о том, из каких этапов складывается процесс «Распознавания документов» и какое место занимает технология оптического распознавание текста (OCR) в данном процессе.

Оставить заявку
o1
o5
Подготовка документа к распознаванию
OCR

Для упрощения задачи по автоматизированному распознаванию, документы, поступающие в обработку, необходимо советующим образом подготовить.

 

Процедуры по подготовке от части очевидны, но отчасти могут вызвать удивление. Например, очевидно, что необходимо удалить скобы, скрепки и резиновые стяжки, однако в большинстве случаев этого недостаточно. Как правило, требуется так же разложить документы в определенном порядке или добавить технологические листы-штрихкода между разными комплектами, поступающими на сканирование единым потоком. Для чего пользователю требуется «прилагать усилия», если машина и сама может все определить?

 

Расскажем обо всем по порядку. Итак, подготовленные должным образом документы подаются в сканер и в специальном каталоге на сервере появляются сканированные образы документов в виде файлов в одном из растровых форматов, например JPG или PDF.

o1
o5
Распознавание текста документа

После того, как изображение документа получено и сохранено, необходимо преобразовать его в машиночитаемый вид. Другими словами, необходимо преобразовать статические изображения слов и фраз в набор текстовых символов, которые можно редактировать в текстовом редакторе, сохранять, передавать и анализировать как текстовые, а не графические данные. Данная задача выполняется с помощью OCR технологии.

 

Подробный рассказ о теоретической базе и практической реализации технологии оптического распознавания текста (OCR) не входит в цели статьи, скажем об этом кратко. Процесс распознавания текста начинается с процедуры предварительной обработки изображения, во время которой выделяются темные (потенциально текстовые) и светлые (потенциально фоновые) области. Далее происходит анализ текстовых областей, выделение текстовых строк и разбиение текстовых строк на отдельные знакоместа, каждое из которых соответствует одному текстовому символу.

 

На завершающем этапе процедуры распознавания текста используется словарь слов для нахождения и исправления ошибок по контексту. Результатом данного этапа является формирование текстовых файлов формата HTML содержащих распознанный текст документа и информацию о расположении элементов распознанного текста на исходном растровом изображении. Иными словами, в результате процедуры распознавания текста мы получаем текстовую подложку скан-образа документа.

 

Теперь данный документ, точнее его текст, может быть скопирован и отредактирован пользователем, но сказать, что документ распознан мы не можем, поскольку информация, полученная в виде подложки не отвечает на два важнейших вопроса: во-первых, что за документ перед нами (счет, накладная, расписка водителя или почтовый конверт) во-вторых, оформлен данный документ надлежащим образом или в нем есть ошибки (отсутствует печать, не хватает одной из подписей или не указано значение важного реквизита). Для того, чтобы ответить на данные вопросы требуется распознать не только текст документа, но и его структуру, найти табличные части, выделить изображения подписей и печатей, определить расположение и корректность заполнения значимых реквизитов документа — все это выходит за пределы возможностей, представляемых технологией OCR.

 

Данная технология создана для быстрого и максимально точного «узнавания» символа по его изображению, но она не заточена под распознавание вида документа в целом.

o1
o5
Определение вида документа

Чтобы научить машину самостоятельно определять является ли распознанный документ счетом-фактурой, товарной накладной или договором на оказание услуг, требуется обучить её сортировать документы на основании той информации, которая получена на этапе распознавания текста. На профессиональном языке данная процедура называется «сепарацией».

схема

Есть много способов определения вида документа (сепарации), среди них есть как относительно простые, например, распознавание штрих-кода или договоренность о том, что все документы подаются в обработку в строго определенном порядке, так и более сложные, например, анализ видов документов с применением методик машинного обучения (англ. Machine Learning – ML). Об особенностях и ограничениях данных способов мы поговорим в других статьях, а сейчас скажем только о том, что в сочетании с технологией OCR данные методики позволяют не только определить текстовое содержание документа, но и с высокой вероятностью предположить к какому типу документов он относится.

 

Однако мы до сих пор не ответили на один вопрос: корректно или нет оформлен документ? Без ответа на данный вопрос мы все еще не можем считать, что распознавание документа завершено успешно.

o1
o5
Определение атрибутов документа

Чтобы завершить процедуру распознавания документа в целом, необходимо не только классифицировать документ и распознать его текстовое содержание. Не менее серьезной задачей является определение соответствия ключевых атрибутов документа определенным диапазонам приемлемых значений.

 

Примеров тут можно привести много: от соответствия даты документа текущему отчетному периоду, или соответствия суммы определенному диапазону, до наличия печати в правом нижнем углу, или наличия подписи синего цвета. В распознаваемом документе может быть не один десяток таких атрибутов и от того, насколько программе удастся определить корректность их заполнения зависит КПД автоматизированного процесса обработки документов в целом.

 

На профессиональном языке такие атрибуты называются «индексными» а процесс их определения называется «индексацией».

схема

На этапе индексации документа очень важно иметь максимально точно распознанный текст значений индексных атрибутов, однако не менее важно, совместно с заказчиком, максимально полно определить состав индексных атрибутов и диапазоны значений, которые они могут принимать.

o4
o5
Результат
Результат

В данной статье мы постарались познакомить Вас с нашим видением процесса распознавания документов. Данные процесс не ограничен одним лишь распознаванием текста, хотя данная процедура занимает в общем процессе одно из важнейших мест.

Выбирая нас в качестве партнеров по автоматизации, Вы сможете рассчитывать на нашу экспертизу не только в вопросах распознавания текста, но и в организации полного цикла распознавания документации.

Реализованные проекты

Стать партнером

Оставить заявку

Мы всегда рады ответить на любые Ваши вопросы

* Обязательные поля для заполнения

Спасибо!

Благодарим за обращение. Ваша заявка принята

Наш специалист свяжется с Вами в течение рабочего дня