Рейинг@Mail.ru

Как узнать, что в поле?

С помощью нового алгоритма российских программистов можно значительно повысить качество и скорость обработки цифровых документов, создавая массивы информации — библиотеки, базы данных.

Патент: 2721189

Авторы: Cтанислав Семенов

Патентообладатель: Аби Продакшн

Развитие электронного документооборота, перевод бумажных носителей в цифровые форматы — тренд последних лет, который только ускорился на фоне пандемии. В цифровые форматы переводятся не только документы последнего времени, но и многочисленные архивные документы. Каждый из документов содержит стандартные поля с информацией определённого вида.

Как правило, набор постоянных полей или разделов, которые заполняются подателями документов, имеют одинаковую структуру, определяемую набором правил. Например, адрес или название продукта. Или классы МПК/МКТУ в заявках, которые отправляются в Роспатент. Соответственно, автор документа заполняет их, используя предсказуемый набор символов и их порядок. Для адреса, в частности, это индекс из шести цифровых символов, типичные сокращения «г.», «ул.», «б-р», «наб.», «кв.» или «оф.» и тому подобное.

На этих алгоритмах «пользовательского поведения» и построена новая разработка известной во всем мире российской компании ABBYY. Способ, который защищен патентом, основан на использовании при обработке текстов документов обучающихся нейронных сетей, иными словами — искусственного интеллекта. Распознавая документы, нейронная сеть изучает характерные способы заполнения одинаковых полей в документах.

Затем обученная нейронная сеть используется при проведении автоматического анализа цифрового документа, например, сравнения его с другим или вычленения из него нужной информации. Благодаря этому снижается вероятность ошибок при анализе неструктурированного текста цифрового документа, а также растет число возможностей по структурированию информации внутри больших массивов, что расширяет арсенал возможных аналитических построений или статистики.

Подробности способа распознавания документов с помощью искусственного интеллекта — в опубликованном патенте.

Напечатать

Поделиться:

следующая новость
Эффективно и прозрачно - Российская Газета
к списку новостей

Дата последнего обновления страницы:

Все обновления

Размер шрифта

Интервал между буквами (кернинг):

Рейтинг@Mail.ru