Оптическое распознавание текстов (OCR)

OCR-технология позволяет преобразовать любые отсканированные документы или фотографии в редактируемый формат. Но что делать, если документов много и на их регистрацию в систему уходит много времени?

Система «РИО» позволяет решить данный вопрос! Особенностью нашей OCR-технологии является то, что результатом распознавания является не только распознанный текст документа, но и электронная карточка с реквизитами каждого документа.

Оставить заявку
o1
o5
Как работать с OCR-программой
ОСОБЕННОСТИ

«РИО» — это система корпоративного уровня. Она рассчитана на автоматизацию процесса для подразделений, который заняты тем, что каждый день вручную сканируют, регистрируют или проверяют документы.

Как выглядит процесс, в котором применяется технология автоматического распознавания документов:

  • отсканированные документы с мест сканирования передаются в систему;
  • система автоматически распознает виды документы, их комплектность и все атрибуты документов;
  • далее система автоматически сверяет распознанные данные с различными справочниками (внутренними или внешними);
  • после этого система помечает те документы, которые не прошли проверку, или данные, которые нужно завести вручную;
  • специалист проверяет помеченные документы и вводит вручную недостающие данные;
  • в конечном итоге система автоматически формирует электронные карточки на каждый документ (или на каждый комплект документов), включающий в себя как отсканированных файл документа (в формате PDF), так и атрибуты документа, и передает их в систему, установленную у заказчика.

Благодаря развитию OCR-технологии наша система может распознавать автоматически более 95% документов. Таким образом ручной труд по обработке данных документов может быть сокращен в несколько раз!

Что дает OCR-технология

С использованием нашей технологии OCR-распознавания вы получаете систему:

  • способную самостоятельно распознать параметры любого документа и имеющую возможность вручную скорректировать результаты распознавания;
  • в которой можно настроить новые виды документов и правила их распознавания;
  • которая заменяет ручной труд при работе с документами.
o1
o5
Как работает OCR-технология
РЕШЕНИЕ

OCR-технология в нашей системе «РИО» работает на трех принципах IPA — целостность, целенаправленность и адаптивность. Разберем каждый подробнее.

Принцип целостности (integrity)

Система «РИО» рассматривает отсканированный объект как целое, но понимает, что в нем есть связанные между собой элементы. Например, в тексте есть абзацы, строки, слова, буквы, знаки препинания. Все они находятся между собой в разных отношениях. Таким образом, система «РИО» анализирует текст или изображение согласно принципу целостности. Для каждого документа формируется уникальная карта параметров, которая потом проходит ряд проверок и сопоставлений.

Принцип целенаправленности (purposefulness)

Благодаря этому правилу система «РИО» на основе накопленных знаний выдвигает гипотезы, на что похож отсканированный объект, и проверяет их. Например, программа видит что ряд документов похожи друг на друга. Ей остается только понять, к какому виду относятся данные документы. Таким образом в системе накапливается библиотека шаблонов документов. Каждый новый документ пополняет библиотеку шаблонов, тем самым развивает в ней способность к распознаванию все новых и новых видов документов.

Принцип адаптивности (adaptability)

Система «РИО» сама обучается и сама определяет верность своих гипотез. Она получает информацию, адаптируется к новым форматам, упорядочивает данные, сохраняет их, а затем использует в распознавании, опровержении и подтверждении гипотез. Для тех документов, которые система видит впервые, на помощь приходит оператор, которому достаточно один раз подсказать системе, что за документ перед ней и как его обрабатывать.

o1
o5
Производительность в OCR
ПРОИЗВОДИТЕЛЬНОСТЬ

Насколько верна гипотеза, которую выдвинула система «РИО», определяется по числовому значению, который является индикатором уверенности. Каждой гипотезе соответствуют определенные символы. Например, система «РИО» решила, что Д — это все-таки Д. Здесь включается механизм распознавания символов — классификатор, который имеет несколько типов:

растровый

анализирует изображение, сравнивает символы с эталоном;

признаковый

выдвигает гипотезы;

дифференциально-признаковый

проверяет выдвинутые гипотезы, различает похожие объекты, например, букву m и сочетание rn;

контурный

выдвигает гипотезы на основе контуров, подходит для декоративных шрифтов;

контурный

выдвигает гипотезы на основе контуров, подходит для декоративных шрифтов;

структурный

подтверждает или опровергает выдвинутые гипотезы, которые превышают заданный уровень уверенности или очень похожи между собой;

структурно-дифференциальный

различает похожие объекты, если с этим не справился дифференциально-признаковый классификатор.

o4
o5
Результат
Результат

Система «РИО» способна обрабатывать ежедневно более 300 000 листов и способна экономить до 80% рабочего времени ваших сотрудников. Мы поможем вам повысить вашу производительность и сделать, так чтобы вы больше не тратили свои ресурсы на то, что можно сделать автоматически.

Реализованные проекты

Стать партнером

Оставить заявку

Мы всегда рады ответить на любые Ваши вопросы

* Обязательные поля для заполнения

Спасибо!

Благодарим за обращение. Ваша заявка принята

Наш специалист свяжется с Вами в течение рабочего дня