файн ридер разбивает страницу на две как исправить
Как мы научили ABBYY FineReader PDF редактировать целые абзацы
Сегодня мы обновили ABBYY FineReader 15 и выпустили его под брендом ABBYY FineReader PDF, потому что он объединяет все инструменты для работы с PDF. По этому поводу публикуем первый пост из серии материалов о фичах программы. В нем мы расскажем об одной интересной возможности, которая не первый месяц есть в программе, но, возможно, не все о ней знали.
Давно ли вы открывали PDF-файлы? Готовы поспорить, что совсем недавно. Скорее всего, на вашем компьютере точно найдется пара сканов, а может, еще и макет презентации, аналитическое исследование или техническая инструкция. Для каких задач обычно используют эти документы? По данным опроса ABBYY, 62% респондентов ищут информацию в PDF, 60% — копируют текст из документа, а 52% — редактируют: вносят в файл правки, исправляют ошибки и опечатки.
Даже сейчас не все знают, что можно редактировать текст в PDF. Да, изменение таких файлов устроено не так, как редактирование обычного текстового документа. ABBYY FineReader PDF с многофункциональным текстовым редактором для работы с PDF и сканами позволяет быстро внести изменения прямо в PDF, без утомительной конвертации файла в другие форматы. При редактировании текст в PDF плавно перетекает со строчки на строчку, как в MS Word. Можно добавить или удалить несколько слов, изменить целые абзацы или даже поменять их местами.
В этом посте мы раскроем технические подробности редактирования многострочных фрагментов текста в FineReader: как мы изменили движок программы, как редактирование устроено изнутри и как оно выглядит для пользователя. Поехали!
Форматом PDF пользуются по всему миру: его содержимое одинаково отображается на любых компьютерах, смартфонах и планшетах с разными операционными системами. Это удобно и помогает избежать неловких ситуаций. Например, когда вы написали текст в MS Word, отправили коллегам, а они открывают его LibreOffice’ом или Wordpad’ом, и все поехало и начинается веселье. PDF, конечно, в этом плане удобнее, но с текстом здесь все сложно. В 70% всех существующих PDF-документов текст есть, а в 30% — нет, так как это изображения.
Поговорим сначала о PDF, в которых текст есть. Чтобы редактировать PDF, надо понимать, как в нем записан текст. Открывали когда-нибудь PDF в блокноте? Если да, то вы видели такое:
Чтобы все это отображалось понятно для пользователя, нужно проделать большую работу.
Задача: понять PDF
В PDF нет ни строк, ни абзацев, которые есть в документах текстовых форматов. Даже порядок текста не всегда определен. То есть вы видите текст, но на самом деле текста не существует. Это хаос из трудно понятных инструкций (как на изображении выше), которые нужно правильно отобразить в конкретных местах документа, с соответствующим форматированием.
«А как же текст?» – спросите вы.
Текст в PDF все же существует, и его даже получится редактировать. Для этого мы учим наши технологии понимать структуру текста, например, определять и выделять строки. Расскажем об этом подробнее.
Библиотеки PDF и как мы их поменяли
Чтобы сделать возможным редактирование целых абзацев, мы сильно поменяли нашу внутреннюю подсистему (библиотеку), которую мы называем PdfTools. Она занимается тем, что открывает PDF-файлы, парсит потоки команд (т.е. понимает, где расположен текст, где картинки, и воссоздает структуру документа) и помогает пользователям оперировать этими данными: прочитать, изменить, сохранить в PDF.
Подсистема PdfTools содержит все необходимые инструменты, чтобы прочитать содержимое и обернуть его в объекты (страница, картинка, комментарий), с которыми удобно работать программе. С этими объектами уже могут работать наши продукты, в частности ABBYY FineReader PDF и другие.
Как было раньше. В FineReader 14 мы умели редактировать текст только в рамках одной строчки. После редактирования необходимо было выполнить «рендеринг» — расставить глифы на свои новые места.
Вообще рендеринг — это визуализация. Но мы вкладываем в это слово иное понятие — расположение объектов в PDF на своих местах. Для PDF-специалистов это и есть визуализация, которую больше никто не видит. Когда мы говорим о визуализации в привычном понимании, то используем слово «растеризация».
Весь этот процесс располагался в подсистеме PdfTools. Она помогала нам собирать содержимое PDF в строчки и редактировать их. Например, надо поставить на 5-ое месте глиф «А». FineReader передавал подсистеме PdfTools, что на пятое место нужно поставить глиф «А» с заданным размером и шрифтом, а PdfTools вставляла «А» и перемещала на нужное место в строчке все глифы, которые следовали за буквой «А». Построчное редактирование довольно легкое: текст просто смещался вправо или, например, влево, если он записан на иврите или арабском языке. Это позволяло внести небольшие корректировки, например, исправить опечатку, но не давало возможность сделать более глобальные изменения в тексте PDF-документа.
Что решили изменить. Когда появилась задача многострочного редактирования, мы поняли, что в рамках одной библиотеки PdfTools это будет проблематично делать. Нам необходимо было научиться автоматически находить в тексте PDF более крупные фрагменты, например, «видеть» абзацы, понимать, где находятся их границы, какое форматирование должно быть у целого фрагмента текста и что происходит при переходе с одной строки на другую. Чтобы определить все эти параметры, мы решили привлечь для решения этой задачи и другие наши OCR-технологии — Document Analysis (DA) и Synthesis, которые умеют строить структуру документа.
Document Analysis и Synthesis
Чтобы определять в тексте блоки, ABBYY FineReader PDF использует технологию Document Analysis. Она позволяет найти абзацы, таблицы, картинки. Программа подсвечивает найденные блоки небольшими бледными рамками, чтобы пользователю удобнее было вносить правки:
Далее мы усовершенствовали другую подсистему нашей программы – Synthesis. Мы уже рассказывали на Хабре, зачем она нужна. Если вкратце, именно она определяет структуру и все характеристики распознанного текста: какие используются шрифты и размеры, какое начертание (bold, italic, underline), где заголовки, списки, отступы и многие другие параметры, которые можно настраивать в том же MS Word. Мы доработали Synthesis для того, чтобы при распознавании и воссоздании страницы очень точно восстанавливать исходные параметры текста.
Особенности подчеркнутого текста
В PDF нет такого атрибута текста как подчеркивание, привычного, например, пользователям MS Word. Подчеркивание в PDF – это векторная графика, никак не связанная с текстом. Без дополнительной доработки продукта при редактировании «подчеркнутого» текста символы бы перемещались привычным образом, а линии, обозначающие подчеркивания, оставались бы на месте. ABBYY FineReader PDF умеет определять и редактировать подчеркнутый текст привычным пользователю образом.
Редактирование таблиц в PDF
Изменилось и редактирование таблиц. Раньше программа «видела» таблицу, как отдельные строки, и редактировала ее так же. Теперь при работе с таблицами ABBYY FineReader PDF определяет содержимое каждой ячейки, умеет извлекать из них текст и работать с ним. Это удобно, когда надо исправить ошибку в цифре, поменять точку на запятую и при этом сохранить структуру таблицы, сделать это быстро и без конвертации PDF-документа в другие форматы.
Как отредактировать скан?
Возможность многострочного редактирования доступна и для сканов. Кстати, пользователю даже не надо задумываться, скан перед ним или нет. ABBYY FineReader PDF сам определит это и запустит нужные механизмы. Например, в дате договора — опечатка, или ФИО контрагента поменялось: оно стало длиннее и должно «перетечь» на следующую строчку.
В программе скан сначала распознается, а потом происходит подготовка к редактированию. Когда скан распознали, то текст получается не в нашем исходном документе, а в его виртуальном «двойнике». И именно в нем происходят все операции по редактированию.
Когда пользователь закончил редактировать документ, программа автоматически собирает все изменения со страницы и заменяет эти фрагменты в исходном документе. Наша задача — встроить текст обратно в PDF-документ, не повредив все то остальное, что уже есть в нем.
Редактирование скана позволяет не тратить время на конвертацию документа в другие форматы и обратно. Это удобно, когда нужно быстро внести забытую правку в дату или другой фрагмент текста.
Пример многострочного редактирования. Текст автоматически перераспределяется по строкам по мере добавления слов и предложений внутри абзаца.
Вместо заключения
Исправить опечатку в листовке, поменять местами текстовые блоки в инструкции, изменить целый абзац в скане договора или добавить несколько новых, поправить форматирование всего текста – все эти задачи теперь возможно решить:
В следующем посте через неделю мы расскажем о том, как научили ABBYY FineReader PDF еще одной интересной фиче и для чего может пригодиться новая функциональность.
Пишите в комментариях, о каких еще технологических особенностях нашей программы вам было бы интересно узнать?
ABBYY FineReader зависает при сканировании (Ошибка «Параметр задан неверно»)
За последние несколько дней, пришлось два раза столкнуться с проблемой при сканировании в ABBYY FineReader. Изучив форумы и опыт других людей, я пришел к выводу, что проблема зачастую связана с самим приложением и его настройками. В обоих случаях помог один и тот же способ о котором дальше пойдет речь.
Содержание:
Введение
Первым делом нужно проверить, что сканер или любое другое ваше устройство подключено правильно и установлены последние драйвера для него. Можете еще проверить, как работает сканирование через стандартное приложение Windows. Если там всё работает, а в ABBYY FineReader отказывается, значит продолжаем разбираться дальше. В противном случае, скачиваем драйвера с официального сайта производителя и обновляем их.
Ошибки, с которыми я столкнулся
Первая. При попытке отсканировать документы, ABBYY FineReader зависает и уходите в бесконечное ожидание. Выйти из которого помогает только «Диспетчер задач» через снятие задачи с программы.
Вторая. При попытке отсканировать выходит ошибка «Параметр задан неверно» или вы также можете увидеть «Ошибка инициализации источника». Означает, что программа не может найти устройство для сканирования.
В обоих случаях, ABBYY FineReader использует не соответствующий драйвер для сканирования и поэтому возникают ошибки. Исправить их одинаково просто, для этого необходимо выбрать нужный нам драйвер.
Инструкция для исправления ошибки
Запускаем ABBYY FineReader, в моем случае это 10 версия:
Находим на верхней панели «Сервис» и открываем меню:
Далее переходим в «Опции» (так же, можно воспользоваться сочетанием клавиш «Ctrl+Shift+O») и открываем вкладку «Сканировать/Открыть»:
В выпадающем списке выбираем подходящий драйвер для вашего сканера. Возможно придется попробовать несколько драйверов по очереди:
Как правило, в большинстве случаев, и в моем тоже, рекомендуется выбирать TWAIN драйвер. Под списком драйверов, ставим галочку «Использовать интерфейс сканера». Закончив с настройкой, нажимаем на «ОК» для сохранения всех изменений. Если после выбора драйвера проблема не ушла, нужно попробовать другой.
Заключение
Этот способ сработает при условии, что у вас корректно установлены драйвера для вашего устройства. В противном случае, сначала придется обновить драйвера сканера и только потом повторить инструкцию выше. Вполне возможно, что после обновления драйверов у вас всё заработает.
Всем удачи!
Возможно вам так же будет интересно:
Файн ридер разбивает страницу на две как исправить
В программе ABBYY FineReader вы можете менять общие опции автоматической обработки документа, а также опции сканирования и открытия страниц документа: включать/отключать автоматический анализ и автоматическое распознавание документа, предобработку изображений, выбирать интерфейс сканирования.
Выбрать необходимые параметры вы можете непосредственно в диалогах открытия или сканирования изображений (если вы используете для сканирования интерфейс ABBYY FineReader), а также на закладке Сканировать/Открыть диалога Опции (меню Сервис>Опции…).
Подробнее см. «Выбор интерфейса сканирования», «Диалог Опции».
Внимание! Если вы изменили настройки программы в диалоге Опции, то необходимо отсканировать или открыть изображение заново. Только после этого ваше изображение будет обработано с указанными настройками.
На закладке Сканировать/Открыть диалога Опции вы можете изменить следующие настройки:
Запуск автоматического анализа и распознавания полученных изображений.
Подробнее.
Способы обработки изображений.
Подробнее.
Замечание. Вы можете не использовать опции предобработки изображений при сканировании или открытии страниц документа, а выполнить необходимую обработку в уже открытом документе с помощью редактора изображений. Подробнее см. «Как обработать изображение вручную».
Интерфейс сканера, который будет использоваться при сканировании.
Подробнее см. в статье «Выбор интерфейса сканирования».
Файн ридер разбивает страницу на две как исправить
У вас есть возможность настроить рабочее пространство файн ридер. Начнем с Главного окна программы
Чтобы показать или скрыть окна Документ, Текст или изображение кликните на соответствующей кнопочке.
Для открытия панели св-ва в окошке Текст или Изображение, в контекстном меню окна нужно выбрать Свойства.
Файн ридер: Окошко Документ
Дабы поменять вид страничек в окошке Документ, надавите соответствующую кнопочку на инструментальной панели данного окошка и в появившемся списке нужно выбрать нужный вид.
Дабы поменять расположение окошка Документ на дисплее в меню Вид>Окно Документ нужно выбрать один из пунктов Вверху, Слева, Внизу или Справа.
Для переключения меж окон кликните CTRL+TAB.
Дабы активизировать окошко Документ, нажмите Alt+1.
Для активизации окна Текст, нажмите Alt+3.
Для активизации окна Изображение, нажмите Alt+2.
abby fine reader русская версия скачать бесплатно: Панели инструментов
Для изменения вида кнопочек на панелях инструментов, нужно выбрать Маленькие кнопочки в меню Вид>Панели инструментов;
Файн ридер: настраиваем инструментальные панели
Пункт первый. Откройте диалоговое окно Настройка.
Пункт второй. На закладке инструментальной панели в поле Категории выбирайте нужную категорию.
Пункт третий. В поле Панель инструментов нужно выбрать панель инструментов, на которой необходимо удалить или добавить команду.
Пункт четвертый. В перечне Команды нужно выбрать команду и кнопите клавиши » или «.