Многие офисные приложения уже давно «перебрались» в интернет. Вы можете создавать сложные электронные таблицы и текстовые документы, подготавливать отчеты и презентации прямо в браузере — установка дополнительных программ не потребуется. Вот и распознавание документов все чаще предлагается онлайн-сервисами. Почему такие сервисы стали популярными? Можно ли считать использование онлайн-сервисов для распознавания документов безопасным? Попробуем выяснить это.

Распознавание документов вчера и сегодня

Вероятно, вы помните, как приходилось работать с электронными копиями документов еще пятнадцать лет назад. Сначала вам требовалась программа для получения изображения со сканера. После того как вы настраивали не самую простую утилиту, взаимодействующую с оборудованием, вы получали изображение документа, чаще всего в формате JPG. Но информацию из графического файла неудобно обрабатывать, например, копировать и вставлять в другие документы. Поэтому требовалась еще и вторая программа — для распознавания графического файла, «превращающая» картинку в текст. Большинство подобных программ были и остаются платными и достаточно дорогими, хотя есть и бесплатные решения (например, Tesseract). К слову, и тут пользователю приходилось повозиться с настройками — нередко качество распознавания могло заметно улучшиться (или ухудшиться) от установленных опций программы. Результат работы программы для распознавания текста экспортировался в текстовый файл — дальше его уже можно было редактировать (исправляя ошибки распознавания и добавляя нужное форматирование).

Не самое простое занятие, верно? Разумеется, IT-менеджеры и разработчики захотели упростить эту задачу (и получить прибыль за счет рекламы и продажи дополнительных функций приложений). Распространение быстрого безлимитного интернета способствовало переходу множества сервисов для распознавания текста в онлайн. Пользователь загружает изображение документа на удаленный сервер, на стороне сервиса работает программа для распознавания текста, высылающая файл с полученным текстом пользователю. Как правило, пользователю доступны лишь самые базовые настройки: можно указать язык документа для лучшего распознавания и формат получаемого текстового файла. Остальные опции задаются на стороне сервиса. Благодаря такой простоте миллионы людей предпочли онлайн-сервисы для распознавания документов традиционным программам.

Стоит сказать, что платные подписки на онлайн-сервисы обычно обходятся дешевле, чем покупка лицензии на программное обеспечение (если вы распознаете не более нескольких тысяч страниц в год).

Популярные сервисы для распознавания документов

Современные онлайн-сервисы для распознавания текста обычно существуют в виде сайтов или мобильных приложений (последние наиболее подойдут тем, кто фотографирует документы смартфоном). Вот некоторые популярные решения:

FineReader Online – онлайн-версия OCR-системы от компании ABBYY. Поддерживает более сотни языков, в том числе английский и русский, умеет редактировать PDF-файлы, распространяется также в виде мобильного приложения. Большинство функций системы доступны за дополнительную плату (бесплатная версия дает распознать 5 страниц в месяц, а подписка за 3190 руб. в год — 2000 страниц в год).

Office Lens – бесплатное приложение от Microsoft, позволяющее редактировать и распознавать документы на мобильных устройствах. Полученные файлы могут сохраняться локально или загружаться в сервис OneDrive. Режим создания PDF-файлов позволяет «склеивать» снимки в документы (до 20 страниц).

Adobe Scan – приложение от компании Adobe, позволяющее создавать PDF-файлы из сфотографированных документов. Adobe Scan умеет распознавать документы, добавляя в файл текстовый слой. Также в приложении есть базовые функции ретуширования: можно удалить с фотографий пятнышки или карандашные пометки. Полученные файлы сохраняются в «облаке» от Adobe.

Конечно, существуют и другие бесплатные и платные онлайн-сервисы от крупных компаний и небольших стартапов. Вероятно, какие-то сервисы пригодятся вам в повседневной работе.

Но безопасно ли это?

Теперь вернемся к главному вопросу — безопасно ли использование онлайн-сервисов для распознавания текста?

Популярные крупные сервисы (такие, как FineReader Online) заботятся о безопасности пользователей — документы хранятся в зашифрованном виде на надежных серверах. Крупных утечек документов, произошедших по вине популярных сервисов распознавания документов, в последние годы не зафиксировано.

Использование менее популярных сервисов также может быть удобным (и недорогим), но здесь за безопасность сохраняемых файлов поручиться труднее. Хотя небольшие сервисы, как правило, тоже шифруют документы, никто не может поручиться, что малоизвестное приложение или новый стартап не исчезнут через полгода, удалив все ваши документы с накопителей.

Заметим, что если вы распознаете большие документы, например, часто сканируете книги, стоит приобрести лицензию на офлайн-распознаватель. Это обойдется дешевле, хотя функции программы придется изучить. Также стоит воздержаться от использования онлайн-сервисов тем, кто распознает документы, содержащие коммерческую тайну, персональные или иные чувствительные данные.

Поделиться