Наверное, каждому знакома ситуация, когда скан документа, например, страницы книги, необходимо преобразовать в печатный текст. Для этого существуют специальные программы, но основная их масса очень мало кому известна. На слуху у всех, пожалуй, только ABBYY FineReader. Действительно, FineReader вне конкуренции. Это лучшая программа для сканирования и распознавания текста на русском языке, однако выпускается она исключительно в платных версиях и стоит весьма недешево. Многие ли готовы выложить за самую бюджетную лицензию почти 7 000 рублей, если собираются обрабатывать одну-две книги в год?
Если вы считаете покупку дорогостоящего коммерческого продукта неоправданной, почему бы не воспользоваться аналогами, среди которых есть бесплатные? Да, они не так богаты функциями, но со многими задачами, которые, как считают многие, «по зубам» только FineReader, справляются вполне успешно. Так давайте познакомимся с несколькими доступными альтернативами. И заодно посмотрим, чем они отличаются от общепризнанного эталона.
Чтобы сравнивать другие программы с ABBYY FineReader , выясним, чем же он так хорош. Вот перечень его основных функций:
Возможности программы великолепны, но для домашних пользователей, которые не обрабатывают документы в промышленных объемах, избыточны. Впрочем, тем, кому нужно распознать лишь несколько страниц, компания ABBYY предоставляет услуги бесплатно — через веб-сервис FineReaderOnline . После регистрации доступна обработка 10 страниц отсканированного или сфотографированного текста, в дальнейшем — по 5 страниц в месяц. Больше — за доплату.
Стоимость самой недорогой лицензии FineReader для установки на компьютер — 6990 рублей (версия Standard).
Крошечная и крайне простая бесплатная утилитка , конечно, не в состоянии конкурировать с монстром, но основную задачу — распознавание сканированного текста, решает как положено. Причем для этого она не требует даже установки на ПК (портабельная). И управляется всего тремя кнопками.
Для распознавания текста с помощью WinScan2PDF нажмите «Выбрать источник» и укажите подключенный сканер (с готовыми файлами программа, к сожалению, не работает). Поместите в сканер документ и нажмите «Сканировать». Если хотите отменить операцию, нажмите «Отмена». Вот и вся инструкция.
Утилита поддерживает 23 языка, включая русский, и работает с многостраничными файлами. Готовый результат сохраняется в формате pdf, скан документа — в jpg.
Free-OCR.com (OCR — Optical character recognition, оптическое распознавание символов) — бесплатный Интернет-сервис для распознавания отсканированных или сфотографированных текстов, сохраненных в формате графического изображения (jpg, gif, tiff, bmp) или pdf. Поддерживает 29 языков, включая русский и украинский, причем пользователь может выбрать не один, а несколько, если их содержит исходный текст.
Free-OCR не требует регистрации и не имеет каких-либо ограничений по количеству загруженных документов. Ограничивается только размер файла — до 6 Mb. Многостраничные документы сервис не обрабатывает, точнее, игнорирует всё, кроме первого листа.
Скорость распознавания сканированного текста довольно высока. Лист А4 с фрагментом книги на русском языке был обработан примерно за 5 секунд, но вот качество не порадовало. Крупные шрифты — как в детских книжках, он распознает на 100%, а средние и мелкие — примерно на 80%. С англоязычными документами дела обстоят несколько лучше — мелкий и неконтрастный шрифт распознался правильно примерно на 95%.
— еще один бесплатный веб-сервис, очень похожий на предыдущий, но с расширенным функционалом. Он:
Надо отдать должное Free Online OCR и за то, что он неплохо читает картинки низкого разрешения и малой контрастности. Результат распознавания всех скормленных ему русскоязычных текстов отказался стопроцентным или близким к этому.
Free Online OCR, по нашему мнению, одна из лучших альтернатив FineReader, но бесплатно он обрабатывает только 20 страниц (правда, не указано, за какой период). Дальнейшее использование сервиса стоит от $0,5 за страницу.
Программа для создания заметок Microsoft OneNote , исключая очень старые и последнюю — 17 версии, тоже содержит функционал OCR. Он не такой продвинутый как в специализированных приложениях, но тоже пригодный к использованию, если нет других вариантов.
Чтобы распознать текст с изображения с помощью OneNote, вставьте картинку в файл («Рисунок» — «Вставить»), нажмите на нее правой клавишей мышки и выберите «Копировать текст из рисунка».
После этого вставьте скопированный текст в любое место заметки.
По умолчанию языком распознавания назначен английский. Если вам нужен русский или какой-либо другой, измените настройку вручную.
Качество распознавания русскоязычного текста в Microsoft OneNote оставляет желать лучшего, поэтому его нельзя назвать полноценной заменой FineReader. Да и обрабатывать в нем большие многостраничные документы весьма неудобно.
Старенькая бесплатная программа SimpleOCR — тоже весьма достойный инструмент распознавания текстов с электронных изображений и сканов, но, к сожалению, без поддержки русского языка. Зато в ней есть уникальная функция считывания рукописных слов, а также редактор, позволяющий исправить ошибки перед сохранением готового результата.
Другие возможности SimpleOCR:
Качество распознавания и печатных текстов, и рукописей довольно высокое.
Программу можно было бы назвать универсальной, если бы не ограничение языковой поддержки. Последняя версия поддерживает только английский, французский и датский языки, добавление других, скорее всего, не планируется. Интерфейс полностью на английском, но прост для понимания. Кроме того, в главном окне есть кнопка «Demo», которая запускает обучающий ролик по работе с SimpleOCR.
Программа бельгийской компании-разработчика I.R.I.S — вот это действительно настоящий конкурент российскому ABBYY FineReader. Мощная, быстрая, кроссплатформенная, основанная на фирменном OCR-движке, используемом производителями Adobe, HP и Canon, она великолепно распознает даже самые трудночитаемые тексты. Поддерживает 137 языков, среди которых есть русский и украинский.
Особенности и функции Readiris:
Интерфейс программы русскоязычный, использование интуитивно понятно. Она не предоставляет пользователям возможности редактировать содержимое файлов pdf, как FineReader, но с главной задачей — распознаванием текстов, на наш взгляд, справляется отлично.
Readiris выпускается в двух платных версиях. Стоимость лицензии Pro составляет 99,00€, Corporate — 199€. Почти как у ABBYY.
Freemore OCR — (! сайт программы http://freemoresoft.com/freeocr/index.php может блокироваться антивирусами из-за встроенного в установщик рекламного «мусора») — еще одна простая, компактная и бесплатная утилитка, которая тоже неплохо распознает тексты, но по умолчанию только на английском. Пакеты других языков нужно загружать и устанавливать отдельно.
Прочие функции и возможности Freemore OCR:
На первый взгляд интерфейс программы может показаться сложным, но на самом деле пользоваться ею очень легко. Инструменты поделены на группы, как на ленте Microsoft Office. Если рассмотреть их повнимательнее, назначение той или иной кнопки быстро станет понятным.
Чтобы загрузить электронный документ в окно Freemore OCR, сначала выберем его тип — изображение или файл pdf, и следом нажмем соответствующую кнопку «Load». Чтобы начать процесс распознавания, нажимаем на кнопку «OCR» в одноименной группе инструментов рядом с изображением волшебной палочки (показана на скриншоте).
Результат сканирования англоязычных текстов как с хорошо-, так и с плохочитаемой картинки оказался вполне удовлетворительным. Не понравилось лишь одно — то, что вместе с программой на компьютер устанавливается всякий мусор — какие-то липовые антивирусные сканеры, оптимизаторы и прочие ненужные вещи, причем без возможности отказаться от них во время установки. Словом, если бы не этот недостаток, приложение можно было бы рекомендовать в качестве неплохой бесплатной альтернативы FineReader.
Чтобы получить качественные сканы, необязательно использовать фирменные программы для сканирования Canon.
Хотя они дают весьма позитивный результат, среди программных продуктов, представленных пользователям, найдется немало неплохих аналогов, заслуживающих внимания.
Часть из них распространяется бесплатно, а часть требует некоторых затрат в зависимости от функционала, который они предоставляют.
Распознавание документов различных типов в последнее время стало настоящей необходимостью ввиду того, что стали более востребованными, чем бумажные оригиналы.
Связано это с тем, что их гораздо удобнее хранить, передавать, а подчас и обрабатывать.
Именно поэтому качество полученных цифровых копий становится главным критерием подбора программных средств используемых, в том числе с популярной техникой марки Canon.
К сожалению, не все производители программ могут порадовать пользователей.
Одной из часто встречающихся проблем среди продуктов является отсутствие региональных настроек, вроде русскоязычного интерфейса, что является особым критерием на отечественном пространстве.
И подобных критериев достаточно много.
Некоторые продукты лучше справляются с обработкой графической информации, другие более пригодны для работы с текстами, в том числе содержащими несколько различных .
Параллельно с ними существуют и другие программы и утилиты, включая те, что на «отлично» справляются с информацией, представленной в табличной форме.
Мы уже выделили ряд полноценных программных комплексов и вполне простых утилит, удовлетворяющих ряду пользовательских требований и, в итоге, в этот список вошли:
Начать обзор моделей стоит с фирменного приложения торговой марки Canon, а именно MF Toolbox . Главный его недостаток в том, что русскоязычной его версии нет.
Весь интерфейс, с помощью которого пользователь взаимодействует с данными – англоязычный.
Впрочем, этот недостаток с лихвой компенсируется достоинствами программного продукта, а их у него немало.
Во-первых, это небольшой вес приложения, который составляет всего 9,5 Мб, что в хорошую сторону отражается на его загрузке и скорости работы.
Во-вторых, приложение бесплатное и поставляется вместе с аппаратной частью производителем, что гарантирует проверку на совместимость.
Приложение работает совместно с ОС Windows, что отметит львиная доля пользователей офисной техники.
Несмотря на это, работа с ним происходит достаточно оперативно, а для сканирования достаточно пары кликов.
Дополнительным преимуществом программы можно считать возможность сохранения .
Такой функционал дает преимущество, в первую очередь даже не в удобстве, а в экономии времени, затрачиваемом на конвертацию из одного формата файлов в другой.
Набор форматов состоит из наиболее популярных, поэтому MF Toolbox позволяет покрыть большое количество базовых потребностей пользователя.
На тот случай, если документ требуется подкорректировать, можно использовать настроенный набор редакторов, а для быстрой передачи сканов можно использовать опцию быстрой отправки .
Рис. 3 – Окно ABBYY FineReader
Со сканерами Canon может использоваться и OCR CuneiForm . Это небольшая утилита с довольно мощным функционалом. Ее основное назначение – сканирование текстов с богатым форматированием.
Разработчики позаботились о том, чтобы утилита смогла распознавать любые шрифты и не нарушала исходной структуры документа.
При этом распознанный документ может передаваться в либо сохраняться в одном из заданных форматов, в том числе графических.
Обратите внимание: производитель утилиты выпускает обновления достаточно регулярно, поэтому она будет работать даже в самых новых версиях операционных систем.
Особый бонус при распознавании текстов – проверка орфографии. Помогает в этом специально разработанный словарь.
Программа имеет ряд ключевых преимуществ, к которым можно смело отнести русскоязычный интерфейс, а также наличие бесплатной лицензии.
Рис. 4 – Работа с OCR CuneiForm
Некоторые программы для сканирования имеют один недостаток – они после оцифровки документа моментально сохраняют полученные данные в файл без возможности добавления данных.
Утилита Scanitto Pro его лишена. С ее помощью пользователь получает возможность создавать цифровые данные в многостраничном формате – таком как PDF.
Если же пользователю требуется отредактировать полученный текст, его разрешается сохранить в формате tiff.
Он открывается многими программами, в том числе бесплатными, что расширяет круг манипуляций с данными.
Помимо этого, программка позволяет сохранять данные в графических форматах. К их числу относятся jpeg, png, jp2 и bmp.
Если, к примеру, требуется откорректировать полученное изображение, можно использовать специальные функции его коррекции.
В их список разработчики включили регулировку насыщенности, яркости и контрастности картинка со сканера Canon.
Оцифровка документов происходит достаточно быстро. При этом процедуру можно даже дополнительно сократить, если использовать опцию регулировки размеров сканируемой области.
Нельзя недооценивать также интерфейс, реализованный с русифицированными меню, поскольку ряд пользователей не сможет воспользоваться программой при отсутствии русификации.
Рис. 5 – Окно Scanitto Pro
В том случае, когда приходится работать на старых сканерах Canon, еще и с устаревшими операционными системами, процесс оцифровки может превратиться в пытку.
Однако утилита VueScan позволяет этого избежать. Она совместима с огромным количеством моделей сканеров, что делает ее просто незаменимой.
В частности, стоит выделить такие модели Canon: E510, MG2200, MG3200, MG4200, MG5400, MG6300, MP230, PIE PrimeFilm 7200.
Особенностью работы с ней является быстрое подключение к сканирующему устройству, а также расширенные пользовательские настройки при оцифровке изображений.
Последняя опция особенно важна при восстановлении старых фотоснимков, с которой программа справляется на «отлично».
Вручную можно настраивать не только контрастность изображения, но и цветопередачу и даже степень сжатия полученного скана.
Первый используется при сохранении изображений, второй – текста, а третий – данных обоих типов.
Есть еще пара недостатков у этой утилиты.
Во-первых, она не во всех версиях предоставляет пользователю русскоязычный интерфейс, а во-вторых, применять ее бесплатно можно лишь ограниченный период времени.
Более поздние версии утилиты дают возможность сканировать даже полупрозрачные слайды, поддерживают также текстовый формат TXT, а для обработки изображений имеют встроенные инструменты редактирования.
Рис. 6 – Работа с VueScan
Сканирование документов может носить как необходимый характер, так и бытовой. К необходимому можно приравнять методические материалы для уроков в учебном заведении, а вот второй случай может касаться, например, сохранения семейных ценных документов, фотографий и всего в таком роде. И делается это, как правило, дома.
Принтеры и сканеры HP – это очень популярная техника у простых пользователей. Такой продукт можно встретить практически в каждом доме, где у хотя бы одного человека есть потребность в сканировании документов. Даже вышеописанную бытовую надобность такое устройство выполнит быстро и несколькими способами. Осталось разобраться, какими.
Для начала необходимо рассмотреть программы, хотя бы на примере одной, которые предоставляются непосредственно самим производителем. Скачать их можно на официальном сайте или же установить с диска, который обязательно должен быть в комплекте с купленным устройством.
На этом рассмотрение данного способа можно завершить.
Большинство принтеров HP, выполняющих процедуру сканирования, имеют на передней панели специальную кнопку, нажатием на которую открывается меню сканирования. Это немного быстрее, чем искать и запускать программу. Никаких пользовательских возможностей детальной настройки при этом не теряется.
Такой вариант сканирования может показаться проще, чем первый. Однако существуют некоторые ограничения, не позволяющие им воспользоваться. Например, в принтере может не быть черного или цветного картриджа, что обычно актуально для струйных устройств. Сканер будет постоянно показывать ошибку на дисплее из-за чего потеряется работоспособность всей панели.
Как итог, такой способ удобнее, но не всегда доступен.
Для более продвинутых пользователей не является секретом тот факт, что к любому печатному устройству можно подключать сторонние программы, которые будут управлять им. Это актуально и для сканера HP.
Такой способ достаточно удобен, ведь он не требует много времени на освоение программы.
Можно сделать простой вывод о том, что любой файл можно отсканировать на технике компании HP тремя разными способами, которые между собой практически равнозначны.
Хотите сэкономить время при печати текста? Незаменимым помощником будет сканер. Ведь, чтобы набрать страницу текста, нужно 5-10 минут, а сканирование займёт всего 30 секунд. Для качественного и быстрого сканирования потребуется вспомогательная программа. В её функции должны входить: работа с текстовыми и графическими документами, редактирование скопированного изображения и сохранение в нужном формате.
Среди программ из этой категории ScanLite отличается малым набором функций, но есть возможность сканировать документы в больших объёмах. Нажатием одной клавиши можно сканировать документ, а затем сохранить его в формат PDF или JPG.
Следующая программа – это Scanitto Pro бесплатная программа для сканирования документов.
Минус в этой программе - это работа не со всеми типами сканеров.
Приложение Naps2 имеет гибкие параметры. При сканировании Naps2 использует TWAIN и WIA драйвера. Здесь также есть возможность указывать название, автора, тему и ключевые слова.
Ещё одной положительной функцией будет передача PDF файла по электронной почте.
PaperScan – это бесплатная программа для сканирования документов. По сравнению с другими подобными утилитами, она может убирать ненужные следы границ.
Также в ней есть удобные функции для более глубокого редактирования изображения. Программа совместима с любыми видами сканеров.
Её интерфейс имеет только английский и французский языки.
Интересной особенностью Скан Корректор А4 является установка границ области сканирования. Сканирование полного А4 формата обеспечивает сохранение пропорций файла.
В отличии от других подобных программ Скан Корректор А4 может запоминать 10 подряд введённых изображений.
Программа VueScan является универсальным приложением для сканирования.
Простота интерфейса позволяет быстро освоиться в ней и научиться качественно производить цветокоррекцию. Приложение совместимо с ОС Windows и Linux.
WinScan2PDF – это отличная программа для сканирования документов в формат PDF. Утилита совместима с ОС Windows и занимает не много места на компьютере.
Недостатки программы – это её ограниченный функционал.
С помощью представленных программ пользователь может выбрать для себя подходящую. При выборе следует обратить внимание на качество, функционал и цену программы.
Сканирование из Acrobat принимает изображения с разрешением в диапазоне 10–3000 dpi. При выборе параметра Изображение в возможностью поиска или ClearScan в разделе Стиль вывода PDF требуется разрешение выводимого изображения не ниже 72 dpi. Кроме того, разрешение выводимого изображения, превышающее 600 dpi, будет уменьшено до 600 dpi или менее.
Сжатие изображения без потери качества может выполняться только с монохромными изображениями. Для сжатия отсканированного изображения без потери качества выберите в разделе «Параметры оптимизации» диалогового окна «Оптимизация отсканированного PDF» один из следующих параметров: «CCITT Group 4» или «JBIG2 (без потери качества)» для монохромных изображений. Если это изображение добавлено к документу PDF, можно сохранить файл с помощью параметра Сохранить; отсканированное изображение остается без сжатия. При сохранении документа PDF с помощью функции Сохранить как отсканированное изображение может быть сжато.
Для большинства страниц сканирование в черно-белом режиме при 300 dpi дает лучшие результаты для преобразования. При разрешении 150 dpi точность оптического распознавания символов несколько снижается и количество ошибок распознавания шрифта возрастает; при разрешении 400 dpi и выше обработка замедляется, а размер файлов со сжатыми страницами увеличивается. Если на странице содержится много нераспознанных слов или текст небольшого размера (9 пунктов и меньше), попытайтесь выполнить сканирование в более высоком разрешении. Когда это возможно, сканируйте в черно-белом режиме.
Если функция Оптическое распознавание символов выключена, можно использовать разрешением в диапазоне 10–3000 dpi, рекомендованное разрешение - 72 dpi и выше. Для параметра адаптивного сжатия рекомендуемые разрешения при сканировании: 300 dpi для изображений в градациях серого и RGB и 600 dpi для черно-белых изображений.
Страницы, отсканированные в режиме 24-разрядных цветов, 300 dpi, размером 8,5 х 11 дюймов (21,59 х 27,94 см) до сжатия представляют собой изображения большого размера (25 МБ). Системе может потребоваться 50 МБ виртуальной памяти и более для сканирования изображения. При разрешении 600 dpi процесс сканирования и обработки обычно происходит в четыре раза медленнее, чем при 300 dpi.
Избегайте настройки параметров полутонов и диффузионного смешения сканера. Это может улучшить внешний вид, но станет сложно распознавать текст.
Для текстов, распечатанных на цветной бумаге, рекомендуется увеличить яркость и контрастность примерно на 10%. Если сканер обеспечивает световую фильтрацию, следует подавить цвет фона при помощи специального фильтра или лампы. Или, если текст не подавляется, попробуйте настроить контрастность и яркость сканера, чтобы очистить отсканированный документ.
Если у сканера есть ручное управление яркостью, настройте его так, чтобы символы были четкими и имели правильную форму. Если символы соединены между собой, используйте более высокие параметры (более яркого цвета). Если символы разделены, используйте более низкие параметры (более темного цвета).