Finereader для чего эта программа
ABBYY Finereader: что это за программа
ABBYY FineReader на руссском языке идеально подходит тем, кто работает с текстами, которые были сфотографированы, а также старыми печатными изданиями после оцифровки. Даже если понадобится перевести конспект в электронный вид, это программа тоже очень поможет. Производителем софта является российская компания ABBYY. С 2009 года эта программа постоянно удостаивается различных международных наград и премий.
Особенности программы
Abby FineReader – это специальная утилита, которая используется для сканированных бумажных документов и дальнейшего распознавания текста. Программа использует в работе передовые технологические решения по распознаванию и содержит почти 200 словарей на разных языках, которые используют латиницу, кириллицу, а также арабские, армянские знаки, иероглифы.
Программа имеет такие особенности:
Таким образом, утилита дает возможность качество и быстро получить текст со сфотографированного или отсканированного документа, при этом, не изменяя последовательность страниц и структуру текста. Получаемый файл можно сохранить в разных форматах, просматривать его, редактировать при необходимости, искать в его содержимом необходимую информацию, а также прикреплять документ к электронным письмам.
ВНИМАНИЕ!
15 декабря на «Клерке» стартует обучение на онлайн-курсе повышения квалификации для получения удостоверения, которое попадет в госреестр. Тема курса: управленческий учет.
Повышайте свою ценность как специалиста прямо на «Клерке». Подробнее
На пути к профессиональному использованию современных OCR. Understanding FineReader
Я занимаюсь разработкой технологий, используемых в продуктах распознавания текста компании ABBYY. Самым известным продуктом (а точнее – семейством продуктов), использующим эти технологии, является FineReader.
Чем занимается программа FineReader?
А чем занимается пользователь?
Обычно почти ничем — сперва заказывает работу, а потом её принимает. Иногда пользователя что-то не устраивает в результате автоматической обработки, но в таких случаях типичный пользователь смиренно думает «Не повезло. »
К сожалению, далеко не все знают, что помимо окна «Задача», которое показывается и при запуске, есть другие способы управлять работой программы. Они помогают с помощью человеческого интеллекта преодолеть недостатки и ограничения (иногда принципиальные) искусственного интеллекта программы.
С чего начать?
Начать нужно с привычки сохранять результат работы не только в виде документа в целевом формате, но и как документ FineReader, содержащий результаты проделанной работы. Это позволяет работать с большим документом не несколько часов подряд в один подход, а когда удобно и сколько угодно раз, возвращаться к распознанному и вычитанному документу для экспериментов с настройками сохранения и так далее. Все действия с документом FineReader собраны в Меню «Файл».
Нет ничего практичнее хорошей теории, или из чего состоит «распознавание»
Глядя на лаконичные названия задач, например, «Сканировать в PDF», трудно вообразить, сколько всего происходит в промежутке между «Сканировать» и «PDF» (то есть на месте одной буквы «в»). Давайте посмотрим, сколько.
Задача «преобразования документов из растрового представления в редактируемое» (не просто «распознавания») включает следующие основные этапы:
Зачем так много модулей (подсистем)?
Для начала необходимо заметить, что перечислены только основные, а не все. Подсистема сканирования, например, не день и не два писалась, а многие месяцы и даже, возможно, годы. Впрочем, вернёмся к вопросу, обозначенному выше.
Во-первых, проект «Технологии распознавания» и много сложных продуктов на его основе разрабатываются уже не первое десятилетие большими коллективами людей — их работу просто необходимо делить организационно и технологически на части, чтобы разрабатывать каждую более-менее независимо — конечно же, детально описав интерфейсы и правила взаимодействия модулей, чтобы выход предыдущего модуля в цепочке стыковался со входом следующего.
Во-вторых, некоторые продукты могут использовать не все из перечисленных стадий обработки (и реализующих их подсистем), а только некоторые. Например, модуль «Распознаватель» имеет собственные подмодули для обработки печатного и рукописного текста, а его «печатный» под-модуль – ещё и свои под-под-модули для обработки языков со сложной письменностью. Похожая ситуация с модулем разпознавания штрихкодов и кодеками некоторых форматов изображений – некоторые продукты обходятся без них.
Какой результат и зачем нужен пользователю?
Не озадачившись вовремя этим вопросом, можно остаться недовольным даже полностью правильным результатом OCR в узком смысле – когда вроде все буквы найдены и правильно распознаны, но в целом что-то в результате печалит.
Перечислю некоторые из популярных сценариев использования FineReader с особенностями каждого сценария.
Преобразование архива документов-изображений в электронный вид, с максимальным сохранением внешнего вида страниц, но добавлением возможности поиска и копирования небольших фрагментов текста.
Этот сценарий обычно использует сохранение обработанного документа в PDF с видимым изображением страницы (не всегда в полностью оригинальном виде, но по возможности максимально похожим на него) и добавлением «невидимого» распознанного текста, который в PDF-просмотрщиках можно искать, выделять и копировать. На нашем жаргоне этот режим сохранения в PDF называется «Текст под изображением», он наиболее популярен, но это лишь один из 4 режимов сохранения в PDF (на остальных остановлюсь подробнее в статье про сохранение). Ценители формата DjVu также могут использовать аналогичный режим сохранения.
Важное достоинство режима «Текст под изображением» в том, что он требует минимальных знаний о структуре сохраняемого текста, привязывая символы к нужным местам результирующей страницы просто по координатам на исходном изображении. Поэтому неважно, если таблицы не были правильно автоматически детектированы в оригинале (развалившись на кучу текстовых областей), или текст немного нелогично выделился в текстовые области – в результирующем PDF найдётся всё или почти всё, лишь бы символы правильно распознались и собрались в слова.
Создание документа в формате любого из популярных текстовых редакторов (Microsoft Word или OpenOffice/LibreOffice Writer), более-менее похожего на оригинал — для последующего редактирования и/или переиспользования значительных фрагментов в новых документах.
При сохранении в форматы RTF и DOCX (для Word) и ODT (для Writer) поддержаны 4 режима сохранения, отличающихся балансом «точное сохранение вида простота редактирования и копирования содержимого». Я ещё напишу подробнее об их различиях, но общим требованием для разумного вида результата обработки является разумность разметки всех элементов документа в FR — областей и их свойств.
Создание электронной книги на базе сканированной бумажной книги.
Во многом похож на предыдущий, но в силу упрощённой модели документа в форматах электронных книг, ограничений средств их редактирования и показа после FineReader, иногда требует больше внимания к некоторым мелочам.
Abbyy FineReader — Файн Ридер скачать бесплатно на русском
Abbyy FineReader – это широко известная программа для сканирования документов и распознавания текста. На сегодняшний день она является наиболее популярной благодаря понятному и удобному интерфейсу, большому набору всевозможных функций, связанный со сканированием и работой с готовым документом, а также удобством в использовании.
При помощи программы Файн Ридер можно:
Сканировать любой документ через ваш сканер и после распознать и сохранить для дальнейшего редактирования на компьютере, отправить по электронной почте, сохранить на флешке и т.д. Так же можно переводить изображения, сканы, PDF-файлы, фотографии в другие форматы, например, конвертировать их в таблицы и тексты без необходимости набирать текст заново. При этом распознаются многие форматы изображений, а форматирование текста часто остаётся не тронутым.
Файн Ридер программа для сканирования документов умеет работать со всеми сканерами включая самые популярные такие как Canon (Кэнон), HP, Kyocera (Куосера), Samsung (Самсунг) и другие.
Программа для сканирования может сохранить документ в редакторы — Word (Ворд), Excel (Эксель), OpenOffice, Adobe Acrobat а так же экспортировать файлы в облачные хранилища по вашему выбору.
Название | Язык | Рейтинг: | Загрузки | |
Abbyy FineReader 10 | На Русском | Хорошо 8/10 | Скачать бесплатно >> | |
Abbyy FineReader 11 | На Русском | Очень хорошо 9.7/10 | Скачать бесплатно >> | |
Abbyy FineReader 12 | На Русском | Очень хорошо 9.7/10 | Скачать бесплатно >> | |
Abbyy FineReader 14 | На Русском | Очень хорошо 9.8/10 | Скачать бесплатно >> | |
Abbyy FineReader 15 | На Русском | Очень хорошо 9.8/10 | Скачать бесплатно >> |
Помимо широкого функционала эта программа для скана выпускается более, чем на 170 языках мира, в том числе и на русском. Скорость и эффективность работы, особенно в самой новой версии Abbyy FineReader, удивительны. А улучшенный редактор изображений позволяет сделать предварительную обработку сканов и фотографий.
Можно по своему желанию добавить или снизить яркость и контрастность, скорректировать погрешности, допущенные камерой. Это позволит как можно точнее распознать текст и области рисунков. Удобный и понятный даже впервые столкнувшемуся с программой человеку интерфейс, делает её незаменимым помощником как на рабочем месте, так и дома.
Как сканировать и распознать документ:
Если программа на русском все достаточно просто и понятно, версия скачанная с нашего сайта бесплатна.
На верхней панели достаточно большие значки основных функций, на скрине ниже 11 версия но и в других все примерно одинаково изменены лишь сами значки.
Для того чтоб распознать нужно сначала сканировать со сканера документ либо загрузить картинку например с текстом, после нажать на кнопочку Распознать.
После распознания и корректировки можно сохранять документ в редактируемый а также желаемый формат например ПДФ (PDF).
Настройки Файн Ридер программы:
При обычном использовании например только распознать или только сканировать углубленные настройки вообще не нужны.
Из углубленных функций можно воспользоватся редактором языков если у вас текст который нужно распознать не Русский.
Укрощение строптивого (на самом деле, нет) FineReader
После короткого рассказа о том, как устроен ABBYY FineReader (aka «теоретическая часть»), самое время перейти к применению полученных знаний. И да, котиков под катом нет: всё очень серьёзно.
Как пользователю поучаствовать в обработке документа
Чтобы не изобретать велосипед, начну с простой и понятной схемы из Справки (см. рисунок справа).
Теперь, зная список всех операций, посмотрим на примерах – что может пойти не по плану и как с этим бороться.
Хорошо распознаются только хорошие изображения
А что делать, когда изображения есть, но не очень хорошие? Улучшить прямо в FineReader всё что можно, а, если улучшить нельзя, — попытаться получить изображение заново, устранив проблему. Поскольку тема очень обширная, то при должном интересе будет отдельный пост про то, как подружиться с автоматическими и ручными инструментами обработки изображений прямо в FineReader. Пока же ограничусь замечанием, что изображение будет обработано лучше, если оно:
Этап настройки документа/проекта
Можно и нужно сразу указать язык текста, параметры предобработки изображений, некоторые параметры анализа и распознавания. Вот скриншот одной из вкладок диалога настроек.
Эти и прочие настройки подробно описаны в Справке
Этап анализа
Программа автоматически выделяет области различных типов с точки зрения распознавания. На этом этапе мы можем как самостоятельно разметить области, так и поправить (при необходимости) те, что нашёл модуль Анализа.
Чтобы не писать много лишнего про инструменты работы с областями, сошлюсь на раздел Справки, а здесь объясню, что для чего, «что такое хорошо, что такое плохо» (применительно к областям) и как исправить плохой результат.
Назначение областей разных типов
В пользовательском интерфейсе FineReader доступны области нескольких типов, для них есть разные варианты скрываемой панели свойств (внизу окна «Изображение») и контекстного меню (по щелчку правой кнопкой мыши):
Эти параметры задаются на блок, так что выделять текст разного направления или разной инверсности в один блок – другая плохая идея.
Важные соображения
Особенности взаимодействия близкорасположенных или пересекающихся областей
Пересечение картиночных областей друг с другом – практически всегда ошибка, хотя и менее критичная для обработки именно текста. Такие случаи тоже желательно исправлять.
Текстовая область на фоне «картиночной» области — тоже важный инструмент: на фоне обычных картиночных областей могут находиться подписи к ним, на «фоновых» картиночных областях может располагаться и основной («колоночный») текст документа, а также таблицы.
Маленькие хитрости для облегчения работы с блоками
Описанные соглашения отражены в поведении редактора блоков. Например, если вы рисуете новый или растягиваете имеющийся блок так, что он полностью или почти полностью перекрывает другие блоки — эти другие блоки автоматически удаляются.
Логичность/нелогичность выделения областей
Тут самое время подумать — для каких целей и какого формата документ хочется получить в результате обработки. Вот некоторые соображения, влияющие на количество и характер исправлений разметки блоков в сложных случаях:
Вариант 1: нам нужен только текст (возможно, мы этого не понимаем, но дело обстоит именно так)
Если отдельные картинки не должны копироваться из выходного PDF-документа – то такие области можно из документа исключить вовсе (не создавать новые и не оставлять найденные автоматикой, как минимум – удалять нелогично найденные картинки, а если не лень – то и все).
Я надеюсь шире и глубже раскрыть тему «разумности» картинок в статье про сохранение документов — если такая будет интересна читателям данного материала.
Вариант 2: нужно всё и сразу
Если документ, включающий не одно лишь текстовое содержимое (в одну или две колонки), предполагается сохранить сразу как электронную книгу в форматах FB2/e-pub или в любой промежуточный редактируемый формат (Вордовый или HTML) для дальнейшего редактирования и производства электронной книги, то осмысленное выделение таблиц и картинок становится особенно важно.
Среди прочего нужно определиться с тем, что делать с группами рядом расположенных картинок, и что делать с подписями к картинкам, как рядом стоящими, так и накладывающимися на картинки. Подробнее разберём эту тему в «Практикуме», на реальных примерах.
Как пользоваться программой ABBYY FineReader
Один из популярнейших функционалов по работе со сканированием и обработкой файлов различного типа — Файн Ридер. Функционал программного продукта был разработан российской компанией ABBYY, он позволяет не только распознавать, но и обрабатывать документы (переводить, менять форматы и другое). Многие пользователи могут только установить, а как пользоваться ABBYY FineReader, сразу разобраться не могут. На многие вопросы вы сможете найти ответы в этой статье.
Программа позволяет сканировать и распознавать текст — и не только
Что представляет собой приложение от ABBYY?
Чтобы подробно разобраться, что это за программа ABBYY FineReader 12, необходимо подробно рассмотреть все её возможности. Первой и самой простой функцией является сканирование документа. Существует два варианта сканирования: с распознаванием и без него. В случае обычного сканирования печатного листа вы получите изображение, которое сканировали в указанной папке на вашем компьютерном устройстве.
Поместите документ в сканер для того, чтобы перевести его в электронный вид
Вы должны самостоятельно решить, для чего нужен FineReader именно вам, так как утилита имеет значительный функционал, например, вы можете самостоятельно выбрать в каком цвете хотите получить изображение, есть возможность перевести все фото в чёрно-белый. В чёрно-белом цвете распознавание происходит быстрее, качество обработки возрастает.
Если же вас интересует функция распознавания текста ABBYY FineReader, перед сканированием вам нужно нажать специальную кнопку. В этом случае есть несколько вариантов получения информации. Стандартно на ваш экран выведется распознанный кусок листа, который вы сможете скопировать или отредактировать вручную.
Если вы выберите другие функции, то сможете сразу получить файл Word-документом или Excel-таблицей. Выбирать функции очень просто, меню интуитивно понятно, легко настраивается благодаря тому, что все нужные вам кнопки перед глазами.
Несколько режимов работы
Чтобы полностью разобраться, как пользоваться ABBYY FineReader 12, необходимо попробовать два режима работы «Тщательный» и «Быстрое распознавание». Второй режим подходит для высококачественных изображений, а первый — для низкокачественных файлов. Режим «Тщательный» в 3–5 раз дольше обрабатывает файлы.
На иллюстрации показан результат работы программы — распознавание текста с изображения
Какие ещё есть функции?
Распознавание текста в программе ABBYY FineReader не единственная полезная функция. Для большего удобства пользователей имеется возможность переводить документ в необходимые пользователю форматы (pdf, doc, xls и др.).
Изменение текста
Чтобы понять, как в Файн Ридере изменить текст, пользователю необходимо открыть вкладку «Сервис» — «Проверка». После этого откроется окно, которое позволит редактировать шрифт, менять символы, цвета и др. Если вы редактируете изображение, то стоит открыть «Редактор изображений», он практически полностью соответствует простой рисовалке Paint, но сделать минимальные правки позволит.
Теперь вы знаете, для каких целей служит программа FineReader, и сможете правильно её применять у себя дома или в офисе. Функционал приложения огромен, воспользуйтесь им и вы сможете убедиться в незаменимости этого программного продукта при обработке документов и файлов во время офисной работы.