РБК Компании
Главная Smart Engines 4 сентября 2024

IDP и OCR: как сделать выбор

Что из себя представляют технологии IDP и OCR, в чем их принципиальное различие и на чьей стороне правда
IDP и OCR: как сделать выбор
Источник изображения: Adobe Stock
Владимир Арлазаров
Владимир Арлазаров
Генеральный директор Smart Engines, доктор технических наук

Ведущий ученый в области ИИ, распознавания текстов и компьютерного зрения, изобретатель и предприниматель. Автор 120 научных публикаций (индексируемых Web of Science, Scopus), 6 патентов США.

Подробнее про эксперта

Системы OCR и IDP неоправданно остаются вечными соперниками на рынке распознавания и обработки документов. Подробному сравнению двух технологий с последующим выбором победителя посвящаются объемные статьи. Однако на деле это не более, чем пресловутый маркетинг, призванный ввести неискушенного потребителя в заблуждение и втридорога продать ему одну технологию в обертке другой. Настало время внести ясность в этот вопрос и объяснить природу OCR и IDP.

В двух словах

Если резюмировать, то OCR значительно превосходит IDP. И вот почему -

  • функционирование IDP невозможно без технологий OCR. Никакая интеллектуальная обработка не может происходить без предварительного распознавания и извлечения данных из документа.
  • контекстуальный анализ, лежащий в основе IDP, может исправить ошибку OCR, но вредит точности обработки данных. Для пользователей, которым требуется полное соответствие информации в документе и его цифровой копии, это недопустимо.
  • хорошая OCR работает точно, автономно и не требует участия внешних операторов в процессе обработки изображений документов. Никаких HITL и облаков! А если есть точность, то IDP нечего исправлять.
  • людям, даже если их запутали в терминах, нужна качественная OCR. Рынок только растет, но сделать свою качественную OCR могут единицы. А тем, кто хочет, но не может, остается брать чужую OCR (от гугла или амазона) и продавать в упаковке IDP.
  • для науки IDP не существует, во всяком случае пока. Это следует из статистики упоминаний OCR и IDP в научных публикациях и докладах.

Подробнее — ниже.

Что такое OCR

Оптическое распознавание символов или OCR (Optical Character Recognition) — это технология, которая позволяет распознавать и анализировать символы на изображениях и в видеопотоке и переводить его в машиночитаемый редактируемый формат. Иными словами, OCR — это технология «чтения» изображения и извлечения из него текстовой информации.

Современные решения OCR могут автоматически улучшать качество изображения, добавлять контрастность или повышать резкость для повышения точности распознавания. Алгоритмы OCR с применением машинного обучения и сверхлегких нейронных сетей идентифицируют и извлекают содержимое документа, а при возникновении сложностей отмечают проблемное место для его последующей оценки человеком.

OCR извлекает информацию из любых источников: со сканов, фотографий или видео, в приложении или браузерном окне и т.д. Причем «читать» и распознавать с посимвольной точностью удается любые, даже откровенно неудачные «вводные»: с искажениями пропорций, заломами, корешками, гербовыми линиями, защитными элементами вроде голографических деталей или гильоширного фона и тому подобного. И все это — быстро и надежно, не доверяя содержание документов третьим лицам. Нашей OCR, к слову, с недавнего времени стала доступна даже верификация документов с целью выявления подделок.

В общем, главная задача, решаемая OCR, — автоматическое точное преобразование символов в текст, который при необходимости можно редактировать. А основное направление работы в этой области сегодня — это распознавание документов, включая распознавание и аутентификацию паспорта

Первый вывод: современная качественная OCR — это быстро, точно и надежно.

О применении OCR

Для всех без исключения отраслей, активно взаимодействующих с документами, будь то банкинг, ритейл, телеком, библиотеки и архивы, медицина или логистика, промышленность и так далее, OCR давно стала привычной и неотъемлемой в рабочем процессе технологией. 

OCR широко используется для преобразования бумажных документов или книг в цифровые файлы, что позволяет легко искать, редактировать и хранить в электронном виде информацию. С этого, к слову, все и начиналось. Бумажный документ можно порвать, потерять или отдать на съедение собаке, а вот виртуальный — вряд ли. Кроме того, оцифровка автоматически означает и повышение доступности, что прекрасно понимают и пользователи. Доказательством тому — кипы оцифрованных и преобразованных в PDF-файлы важных книг, счетов, квитанций и любой другой документации.

OCR дает возможность компаниям автоматизировать ввод данных, минимизируя ручной ввод, а в некоторых задачах и полностью исключая его. Это существенно повышает производительность и снижает риск неточностей. Особенно это важно в сферах, где необходимы точность и конфиденциальность. Итог — вполне реальная выгода за счет экономии на дорогостоящих ошибках.

OCR используется в серверных и мобильных решениях и позволяет распознавать текст, в том числе рукописный, с фото или скана. Эта функция позволяет в считанные мгновения извлекать информацию из банковских выписок, юридических контрактов, счетов и других документов любых размеров, форм и серьезности. OCR также применяется в системах контроля доступа, где необходимо не просто считывать данные документов, удостоверяющих личность, но и проверять их на подлинность. Например, такие решения сегодня эффективно применяются в системах автоматических пропускных пунктов аэропортов, авиа- и жд-кассах и, конечно, в банках.

Пару слов про IDP

Теперь к IDP. Здесь все не так однозначно: сформулировать более-менее внятное — и одобренное научным сообществом — определение пока не удалось, увы, никому. IDP расшифровывается как интеллектуальная обработка документов (Intelligent document processing). Она сочетает OCR с технологиями интерпретации текста, извлечения ценной информации и обработки этой информации подобно человеку. При этом демонстративно игнорирует OCR и подается как новый этап систем распознавания. Если короче, то ​​IDP читает и «думает» над извлеченным текстом, оценивает и дорабатывает его.

Некоторые утверждают, что отличительной чертой IDP является  использование технологии обработки естественного языка (NLP). Благодаря ей извлеченная информация строится с учетом контекста исходных данных. И чем больше трактовок у отдельного слова или фразы, тем более сложным становится процесс. Например, «замок» — это крепость или дверной механизм? А «машина» — это автомобиль или ЭВМ? Но это еще цветочки, а как насчет «кофейный напиток», «зерновой продукт», «газированный напиток», «молочный продукт»? А «красный свет»?

IDP использует OCR для преобразования текста в машиночитаемый формат — это неотъемлемый этап, без которого не заработает никакой IDP, а затем при помощи технологий машинного обучения интерпретирует данные, содержащиеся в документе. Следовательно, чем лучше технология OCR, тем быстрее работать и легче интегрироваться будет и IDP. А вот без использования OCR дальнейшая «интеллектуальная» работа с данными невозможна. Что неудивительно — их попросту не будет существовать в текстовом варианте.

Верно ли после этого сравнивать OCR и IDP как равноправных, независимых друг от друга соперников — вопрос скорее риторический. Дело в том, что все иллюстративные доказательства того, какую космическую скорость способен развивать IDP в соревновании с абстрактными людочками и наташеньками, абсолютно верны! Только вот благодарить за это надо не IDP, а OCR в ее основе.

Второй вывод: функционирование IDP просто невозможно без технологий OCR.

В чем разница

Теперь по фактам. OCR — признанная научным сообществом технология компьютерного зрения, которая благополучно используется во всем мире и успешно выполняет четко поставленную задачу: распознает содержание любого документа — текст, графы, таблицы, изображения, схемы, — и его абсолютно точно выдает. Вся обработанная алгоритмами OCR информация становится доступной для редактирования, поиска, анализа и любых других манипуляций, которые можно выполнить с текстовыми данными. Содержание документа в итоговом цифровом варианте никак не отличается от содержания исходника.

IDP представляет собой программное решение, которое, как следует из открытых источников, собирает, преобразует и обрабатывает данные из документов на основе ИИ. Причем, как мы уже выяснили, собирать, преобразовывать и обрабатывать информацию здесь не столько уникальная способность IDP как цельной технологии, сколько функционал «вшитых» в IDP алгоритмов OCR. Сегодня IDP любят преподносить как более масштабный инструмент интеллектуальной автоматизации, в котором работа OCR — лишь быстрый начальный этап, на котором в 2024 году не стоит даже и останавливаться. Но это не совсем так.

Все, чем хвалится технология IDP, делает в сущности не сама IDP «целиком», а неотделимая от нее технология OCR. Пойдем по порядку.

  • Различение видов документов, полей, таблиц и их содержания. Сегодня это сложно назвать даже достижением, не то что ноу-хау. OCR от Cognitive Technologies умела делать это еще три десятилетия назад.
  • Использование алгоритмов ИИ в работе. Взгляните на ресурсы самых престижных конференций по искусственному интеллекту и вы не найдете там раздела, посвященного IDP. А вот распознавание и анализ документов с помощью OCR — еще как.
  • Обработка тысяч документов с большой скоростью. Скоростью не хвалится в наше время только ленивый. Но это не более, чем техническая характеристика. Некоторые разработчики сегодня достигают впечатляющих показателей быстродействия даже на мобильных телефонах — в том числе Smart Engines.

Словом, все ключевые продающие базисы  IDP на самом деле исполняет OCR. А вот то, что происходит после распознавания текста OCR, — так называемый процессинг — вызывает оправданные сомнения.

Таким образом, весь раскрученный «уникальный» потенциал IDP относится скорее к надстройке, чем к технологии как таковой. Но только второе слагаемое IDP — процессинг — это порой откровенно опасная для деловой документации вещь, приносящая хаос туда, где необходим строжайший порядок. 

Судите сами: если в исходном варианте значимого документа написано: 100 (тысяча), то нужно ли додумывать и исправлять это? Допустим, это действительно простая опечатка, а не намеренное искажение. OCR сохранит ее в цифровой копии и сигнализирует об этом. Что делать дальше — решает человек. А вот поведение IDP предсказать гораздо сложнее: что вам больше нравится — 1000 (тысяча) или 100 (сто)? В какую сторону полетит фантазия ИИ?

Все это контекстное додумывание — пример процессинга. Другой наглядный пример — когда из молока получается сыр, творог или сметана. Кажется, что в агропромышленности он уместен и полезен, а вот в области технологий может нехило навредить. Не согласны с примером о молоке? А если речь о хрестоматийной фразе казнить нельзя помиловать? Где здесь будет поставлена запятая и, главное, нужна ли она вообще, если в исходнике ее нет?

В практической плоскости эта ситуация представляет определенную угрозу для заказчика, желающего получить в цифровом виде точные данные исходника. И в сущности не важно, идет ли речь о паспорте РФ, кредитном договоре, счет-фактуре или рукописном заявлении на отпуск. Порой жизненно важные для клиента вещи кроются именно в неочевидных деталях, а их во всем нашем многообразии документов сегодня столько, что интерпретировать и «исправлять» можно до бесконечности. Только вот нужно ли оно пользователю в действительности?

Отсюда третий вывод: хотите получать все данные в цифре целыми и невредимыми — вам нужна именно OCR.

В чем причина популярности IDP 

Здесь может возникнуть резонный вопрос: почему же вокруг IDP в последнее время столько шумихи? К чему все эти гипотетические кейсы и надуманные сравнения, неизменным победителем из которых — о чудо! — выходит IDP? Ответ прозаичен: это не более чем сила маркетинга. Цитируя классику: невозможно убедить потребителей купить твою гренку за шесть долларов. А вот если всего лишь немного поиграть с названием и выставить на продажу крутон — запросто.

Взглянем на ситуацию с позиций теории маркетинга. OCR занимает высокую долю на рынке, но темп роста объема продаж технологии замедлился. Перед нами классическая дойная корова по матрице БКГ. Чтобы качественно изменить ситуацию и придать новый импульс продукту, его решили просто переупаковать. Только вот вскрылся один нюанс: действительно качественный OCR — это дорого. А вот для IDP нужно совсем немного: бесплатная OCR, общедоступные модели обработки текста и 1-2 человека, чтобы за всем этим приглядывать. Вуаля — можно кричать налево и направо, что научился решать суперзадачу. Вот только так ли это будет надежно, удобно и подконтрольно клиенту?

Примечательно, что вопреки прогнозам OCR переживает пору расцвета: для OCR придумана новая математика — сверхлегкие сети, 4,6-битные сети, биполярные морфологические сети и так далее. Объем мирового рынка оптического распознавания символов в 2023 году оценивался в 10,45 млрд долларов США. По прогнозам,  за ближайшие 8 лет (в 2032 году) его объем достигнет отметки в 43,69 млрд долларов США, а темпы роста составят 17,23% в течение прогнозного периода. Глобальный сдвиг в сторону автоматизации и оцифровки во всех отраслях промышленности стимулирует рынок OCR. Поэтому назвать технологию «устаревшей» язык уж точно не поворачивается.

Доклад на ICDAR 2024
Участники главной международной конференции по распознавания ICDAR-2024 подтвердили: OCR как и раньше остается полезной и нужной технологией.

Предложений IDP сильно больше: это десятки ИИ компаний, даже если отбросить число инхаус-решений. IDP могут сделать ИТ-специалисты практически любой компании. Но кто продает IDP? Те, кто понял, что открыто продавать бесплатную OCR от Google или Amazon очень сложно. А вот под видом IDP можно, причем очень даже неплохо. Так и живем.

Вывод: если вы хотите надежность и результативность, не дайте себя запутать и выбирайте качественную OCR. 

OCR и IDP с точки зрения науки

Принципам функционирования OCR посвящаются книги, научные конференции, доклады. Если прошерстить сборники самой авторитетной международной конференции по анализу и распознаванию документов ICDAR за прошлый год в поиске упоминаний IDP и OCR, то можно обнаружить следующее: в 6 опубликованных сборниках OCR упоминается (хотя бы один раз) примерно в 97 статьях, IDP — в 3 статьях. Касаемо Workshops: OCR — в 19 статьях, IDP не упоминается вообще.

Еще раз заметим: на ICDAR попадает все самое важное из мира распознавания. Казалось бы, все преимущества IDP должны быть оценены по достоинству или как минимум замечены, но увы. Стоит ли здесь ради наглядности вести счет? Думается, все ясно и так.

Технологии OCR повсеместно дорабатываются, обновляются, адаптируются под конкретные нужды конкретного заказчика и совершенно благополучно, стабильно и автономно работают. Высокая точность, скорость обработки, надежность, легкость интеграции и, главное, предсказуемость OCR научно подтверждены и неоспоримы. А можно ли с уверенностью сказать все то же самое в отношении IDP? Во всяком случае на сегодняшнем этапе — едва ли.

Smart Engines создает системы распознавания и анализа документов на базе собственной OCR. Для нас все вполне очевидно.

Источники изображений:

Пресс-служба Smart Engines

Интересное:

Новости отрасли:

Все новости:

Профиль

Дата регистрации25.01.2016
Уставной капитал10 000,00 ₽
Юридический адрес г. Москва, вн.тер.г. Муниципальный округ Академический, пр-кт 60-летия Октября, д. 9
ОГРН 1167746085297
ИНН / КПП 7728328449 772801001
Среднесписочная численность35 сотрудников

Контакты

Адрес 117312, Россия, г. Москва г., 60-летия Октября пр-кт, д. № 9

Социальные сети

ГлавноеЭкспертыДобавить
новость
КейсыМероприятия