Обработка текста с помощью нейронных сетей

Нейронные сети заменят людей.
Не надо этого бояться, надо готовиться.

Александр Сербул

Люди способны без труда распознавать образы, однако они не способны производить вычисления с такой же легкостью. Компьютеры быстро и идеально точно считают, но совершенно бесполезны при распознавании образов. Во всяком случае, так было до недавнего времени, до того, как технологии искусственного интеллекта (ИИ) стали частью нашей жизни. Нейронные сети (НС) – представляют одно из направлений развития искусственного интеллекта. Благодаря заложенным в нейронные сети принципам они способны в том числе определять корреляции и распознавать образы почти так же хорошо, как люди.

Способность нейронных сетей самостоятельно анализировать и сопоставлять образы нашла применение в том числе в технологических процессах, основанных на оптическом распознавании изображений. В данном вопросе НС оставили далеко позади программные алгоритмы в их традиционном понимании.

В данной статье мы хотим рассказать о том, как технологии нейронных сетей помогают добиваться высоких результатов в распознавании документов.

Оставить заявку
o1
o5
Принципы работы нейронных сетей
Сети

Чтобы обеспечить машины возможностью совершать работу, требующую немного большего, чем просто выполнения логических операций, люди поделились с ними частью самого дорогого – устройством своего мозга.

 

Искусственная нейронная сеть представляет собой упрощенную математическую модель сетевой структуры реальных биологических нейронов, воплощенную в виде программного или программно-аппаратного продукта.

Благодаря такой структуре, программа обретает способность анализировать и сохранять в памяти различную информацию.

Нейронные сети обладают также способностью воспроизводить ранее изученную информацию из своей памяти.

схема

Для того, чтобы обучить нейронную сеть работе с определенным видом данных требуется наличие большого числа примеров советующего характера.

Данные могут быть самого различного типа: числовые, текстовые, графические, аудио, например таблица с числовыми данными, или набор фотографий.

 

Подготовленные для обучения нейронной сети данные называют дата сетом (англ. Data set). Обрабатывая, дата сет, нейронная сеть определяет и запоминает корреляции в данных при помощи сети нейронов, что позволяет в дальнейшем выявлять необходимые соответствия в данных, выходящих за пределы дата сета.

 

Нейронные сети используются для решения сложных задач, которые требуют аналитических вычислений подобных тем, что делает человеческий мозг.

 

Самыми распространенными применениями нейронных сетей является:

1. Классификация — распределение данных по параметрам. Данный тип НС находит широкое применение в банковской сфере при анализе платежеспособности заемщиков на основании данных о возрасте, уровне дохода, семейном положении и т. п. 2.

Предсказание — возможность предсказывать следующий шаг. Примером здесь служит широкое применение НС в различного рода финансовых инструментах, помогающих анализировать тренды и предсказывать поведение биржевых котировок.

3. Распознавание — возможно, одно из самых распространенных направлений с точки зрения применения в повседневной жизни.

Нейронные сети помогают распознавать положение лица на фотоснимке, признаки жизни на съемках спасательных дронов, эффективно распознают текстовые символы и могут определить тип текстового документа в целом.

Ниже мы рассмотри более подробно примеры использования нейронных сетей в процессах распознавания и обработки документов.

o1
o5
Оптическое распознавание текста документа

После того, как изображение документа получено и сохранено, необходимо преобразовать его в машиночитаемый вид. Данная задача выполняется с помощью технологии OCR (англ. Optical Character Recognition).

 

На текущем этапе развития данной технологии ключевую роль в ней играют искусственные нейронные сети.

В данном случае нейронная сеть может использоваться в системе распознавания текста в качестве классификатора.

Обучение сети проходит в несколько этапов, на каждом из которых она запоминает изображение конкретного символа алфавита в различных вариантах его начертания.

Далее, при поступлении графически изображенного текста в качестве входящей информации, происходит предобработка изображения, выявление светлых (потенциально пустых) и темных (потенциально текстовых) областей.

Далее потенциально текстовые участки разбиваются на строки, а строки на знакоместа.

 

Знакоместа содержат изображения символов, которые необходимо идентифицировать.

 

Пропуская изображение символа через обученную нейронную сеть, мы получаем отклик одного или группы нейронов, которые отвечают за конкретный символ.

В так очень упрощенно можно представить процесс распознавания текста на изображении.

 

Результатом данного процесса является формирование текстовых файлов формата HTML содержащих распознанный текст документа и информацию о расположении элементов распознанного текста на исходном растровом изображении.

Теперь данный документ, точнее его текст, может быть скопирован и отредактирован пользователем.

o1
o5
Определение вида и параметров документа при помощи нейронной сети

В предыдущем разделе был описан процесс распознания текста документа, но сказать при этом, на распознавании текста документа процесс работы с ним заканчивается нельзя.

 

Полученная текстовая информация не отвечает, во-первых, на вопрос, что за документ перед нами (счет, накладная, расписка водителя или почтовый конверт), во-вторых, на сколько корректно заполнен ключевые атрибуты документы (номер документа, дата, подписи, печати, фамилии, суммы и т. д.).

Чтобы научить машину самостоятельно определять тип документа, требуется обучить её сортировать документы на основании той информации, которая получена на этапе распознавания текста.

Для этих целей потребуется формирование нового дата сета и обучение новой нейронной сети, которая будет анализировать документ в целом.

 

Человек не задумываясь узнает хорошо знакомые ему формы документов, поскольку много раз с ними сталкивался и одного взгляда достаточно, чтобы однозначно понять, что перед ним за бумага.

 

Стоит заметить, что для этого ему даже не нужно вчитываясь в документ. Данное умение потребуется при формировании дата сета.

Потребуется предоставить большое количество примеров форм документов в максимально возможных вариациях оформления, чтобы машина сформировала максимальное количество нейронных связей, для последующей классификации реальных документов.

После того, как вид документа определен, необходимо определить наличие в документе присущих данному виду ключевых атрибутов и корректность их заполнения. В автоматизированной информационной системе «РИО» для решения данной задачи применяются различные технологии.

В случае, если расположение атрибута является постоянным и формат его заполнения не меняется от документа к документу, с ним хорошо справляются специализированные, заточенные под данный атрибут, алгоритмы, выполненные в виде программ — роботов.

Однако, роботы будут неэффективны в тех случаях, когда формат и расположение атрибута не имеет жесткой привязки к странице документа, в таких случаях наибольшую эффективность показывают нейронные сети.

 

Хотя нейронные сети не застрахованы от ошибки в определении атрибута, который, например, поступил обработку в неожиданном формате, они обладают способностью к самообучению на исправленных ошибках.

Это означает, что несколько раз скорректированное человеком значение «выучивается» сетью и в дальнейшем она такой ошибки уже не допустит.

Если у роботов всё параметры должны быть определены точно (координаты, расположение, названия), то нейронная сеть просто учится повторять.

o1
o5
Автоматизированная информационная система «РИО»

В настоящее время уже созданы и успешно применяются системы, способные заменить труд человека в ряде рутинных задач, связанных с автоматизацией документооборота.

 

В режиме промышленной эксплуатации уже сегодня данные системы:

1. Автоматически регистрируют информацию о поступающих и исходящих документах с использованием интерактивных роботов.

2. Автоматически инициируют обработку документа по соответствующему его параметрам сценарию.

3. Распознают и сохраняют текст документа и его разметку.

4. При помощи технологий нейронных сетей и машинного обучения определяют виды обрабатываемых документов, находят ключевые атрибуты, и анализируют корректность их заполнения.

5. При поддержке специалистов-операторов постоянно совершенствуют свои алгоритмы распознавания, благодаря чему, процент ошибок, допускаемых самими системами, постоянно снижается.

 

Программный комплекс АИС «РИО» является одной из таких систем. В нем реализованы и постоянно развиваются инструменты распознавания и дальнейшей обработки документов, основанные на технологиях искусственного интеллекта.

 

Благодаря высокой эффективности в условиях недостаточной точности данных и способности к самообучению нейронные сети широко применяются в АИС «РИО» как на этапе распознавания, так и на этапах сортировки и идентификации атрибутов документа.

o4
o5
Результат
Результат

В данной статье мы постарались продемонстрировать, каким образом технология нейронных сетей применяется в процессе распознавания документов.

Выбирая нас в качестве партнеров по автоматизации, Вы сможете рассчитывать на нашу экспертизу не только в технологиях искусственного интеллекта, но и в организации полного цикла распознавания документации.

Реализованные проекты

Стать партнером

Оставить заявку

Мы всегда рады ответить на любые Ваши вопросы

* Обязательные поля для заполнения

Спасибо!

Благодарим за обращение. Ваша заявка принята

Наш специалист свяжется с Вами в течение рабочего дня