для чего используют программы распознавания текстовых документов

Методы распознавания текстов

Несмотря на то, что в настоящее время большинство документов составляется на компьютерах, задача создания полностью электронного документооборота ещё далека до полной реализации. Как правило, существующие системы охватывают деятельность отдельных организаций, а обмен данными между организациями осуществляется с помощью традиционных бумажных документов.

Задача перевода информации с бумажных на электронные носители актуальна не только в рамках потребностей, возникающих в системах документооборота. Современные информационные технологии позволяют нам существенно упростить доступ к информационным ресурсам, накопленным человечеством, при условии, что они будут переведены в электронный вид.

Наиболее простым и быстрым является сканирование документов с помощью сканеров. Результат работы является цифровое изображение документа – графический файл. Более предпочтительным, по сравнению с графическим, является текстовое представление информации. Этот вариант позволяет существенно сократить затраты на хранение и передачу информации, а также позволяет реализовать все возможные сценарии использования и анализа электронных документов. Поэтому наибольший интерес с практической точки зрения представляет именно перевод бумажных носителей в текстовый электронный документ.

На вход системы распознавания поступает растровое изображение страницы документа. Для работы алгоритмов распознавания желательно, чтобы поступающее на вход изображение было как можно более высокого качества. Если изображение зашумлено, нерезко, имеет низкую контрастность, то это усложнит задачу алгоритмов распознавания.

для чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документов

Поэтому перед обработкой изображения алгоритмами распознавания проводится его предварительная обработка, направленная на улучшение качества изображения. Она включает фильтрацию изображения от шумов, повышение резкости и контрастности изображения, выравнивание и преобразование в используемый системой формат (в нашем случае 8-битное изображение в градациях серого).

Подготовленное изображение попадает на вход модуля сегментации. Задачей этого модуля является выявление структурных единиц текста – строк, слов и символов. Выделение фрагментов высоких уровней, таких как строки и слова, может быть осуществлено на основе анализа промежутков между тёмными областями.
К сожалению, такой подход не может быть применён для выделения отдельных букв, поскольку, в силу особенностей начертания или искажений, изображения соседних букв могут объединяться в одну компоненту связанности (рис. 1) или наоборот — изображение одной буквы может распадаться на отдельные компоненты связанности (рис. 2). Во многих случаях для решения задачи сегментации на уровне букв используются сложные эвристические алгоритмы.

для чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документов
Рисунок 1. Объединение нескольких букв в одну компоненту связанности.

для чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документов
Рисунок 2. Распадение изображений букв на несвязанные компоненты вследствие низкого качества сканирования.

Полагаем, что для принятия окончательного решения о прохождении границы букв на таком раннем этапе обработки, системе распознавания недостаточно информации. Поэтому задачей модуля сегментации на уровне букв в разработанном алгоритме является нахождение возможных границ символов внутри буквы, а окончательное решение о разбиении слова принимается на последнем этапе обработки, с учётом идентификации отдельных фрагментов изображения как букв. Дополнительным преимуществом такого подхода является возможность работы с начертаниями букв, состоящих из нескольких компонент связанности без специальной обработки таких случаев.

Результатом работы модуля сегментации является дерево сегментации – структура данных, организация которой отражает структуру текста на странице. Самому верхнему уровню соответствует объект страница. Он содержит массив объектов, описывающих строки. Каждая строка в свою очередь включает набор объектов слов. Слова являются листьями этого дерева. Информация о возможных местах разделения слова на буквы храниться в слове, однако отдельные объекты для букв не выделяются. В каждом объекте дерева хранится информация об области, занимаемой соответствующим объектом на изображении. Данная структура легко может быть расширена для поддержки других уровней разбиения, например колонок, таблиц.

Выявленные фрагменты изображения подаются на вход классификатора, выходом которого является вектор возможности принадлежности изображения к классу той или иной буквы. В разработанном алгоритме используется классификатор составной архитектуры, организованный в виде дерева, листьями которого являются простые классификаторы, а внутренние узлы соответствуют операциям комбинирования результатов низлежащих уровней (рис. 3).

для чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документов
Рисунок 3. Архитектура классификатора.

Работа простого классификатора осуществляется в два шага (рис. 4). Сначала по исходному изображению вычисляются признаки. Значение каждого признака является функцией от яркостей некоторого подмножества пикселей изображения. В результате получается вектор значений признаков, который поступает на вход нейронной сети. Каждый выход сети соответствует одной из букв алфавита, а получаемое на выходе значение рассматривается как уровень принадлежности буквы нечёткому множеству.

для чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документов
Рисунок 4. Простой классификатор.

Задачей алгоритма комбинирования является обобщение информации, поступающей в виде входных нечётких множеств и вычисление на их основе выходного нечёткого подмножества множества распознаваемых символов. В качестве алгоритмов комбинирования используются операции теории нечётких множеств (такие как t-нормы и s-нормы), выбор наиболее уверенного эксперта.

Результатом работы классификатора является нечёткое множество, полученное в результате комбинирования на самом верхнем уровне.
На последнем этапе принимается решение о наиболее правдоподобном варианте прочтения слова. Для этого используются уровни возможности прочтения отдельных букв, межбуквенной сегментации и частоты сочетаний букв в русском языке.

Для оценки эффективности разработанного алгоритма было проведено сравнение с двумя существующими системами OCR. Это бесплатная open-source система CuneiForm v12 и коммерческая система ABBYY FineReader 10 Professional Edition.

К сожалению, для оценки эффективности работы систем распознавания, обычно используются наборы символов, подготовленных иностранными специалистами, либо наборы, собранные авторами и не опубликованные в открытом доступе. Так, например, оценивая эффективность работы алгоритмов ABBYY FineReader автор использовал базы данных CEDAR, NIST, CENPARMI а также сканированные анкеты ЕГЭ. Поскольку данные базы содержат английские и/или рукописные символы, они не могут быть использованы для оценки эффективности выполнения НИР по теме «разработка алгоритма распознавания печатных кириллических символов».

Сравнение производилось на образцах с разрешением 96 dpi и 180 dpi. В сравнении участвовал текст, состоящий из 300 слов, набранных шрифтами Arial 14pt и Times New Roman 14pt. Текст разрешением 96 dpi был создан на компьютере непосредственно в виде графического файла. Для теста с разрешением 180 dpi текст был распечатан на лазерном принтере, а затем сканирован с указанным разрешением. Фрагмент использованного текста приведен на рис. 5.

для чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документов
Рисунок 5. Фрагмент текста, использованного для тестирования систем распознавания.

Результаты сравнения для 96 dpi представлены в таблице 1.

для чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документов
Таблица 1. Результаты распознавания текста разрешением 96 dpi.

Результаты сравнения для текста с разрешением 180 dpi представлены в таблице 2.

для чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документов
Таблица 2. Результаты распознавания текста разрешением 180 dpi.

Лучшие результаты распознавания для 96 dpi можно объяснить тем, что текущая конфигурация системы была обучена на шрифтах Times New Roman 14pt и Arial 14pt при разрешающей способности 96 dpi. Можно ожидать улучшения результатов для этого текста при добавлении в систему простых классификаторов, обученных распознавать шрифты такого размера.

Суммарно, из 1200 слов было распознано:

• разработанным алгоритмом: 1180 слов (98,33%);
• системой с открытыми кодами CuneiForm: 597 слов (49,75%);
• коммерческой системой ABBYY FineReader: 1200 слов (100%).

Стоит отметить, что при низком разрешении, наличии большого числа шума Cuneiform не справляется с распознаванием текста, в то время как предложенный алгоритм распознает текст в таком качестве.

В целом, можно заключить, что хотя предложенный алгоритм уступает лучшему в данном классе коммерческому продукту фирмы Abbyy, он способен распознавать текст худшего качества, чем способна распознать система c открытыми исходными кодами CuneiForm.

Список использованной литературы.

Квасников В.П., Дзюбаненко А.В. Улучшение визуального качества цифрового изображения путем поэлементного преобразования // Авиационно-космическая техника и технология 2009 г., 8, стр. 200-204

Арлазаров В.Л., Куратов П.А., Славин О.А. Распознавание строк печатных текстов // Сб. трудов ИСА РАН «Методы и средства работы с документами». — М.: Эдиториал УРСС, 2000. — С. 31-51.

Проект СПбГУ Открытый код: распознавание текстовых изображений [Электронный ресурс] — Режим доступа: ocr.apmath.spbu.ru

Багрова И. А., Грицай А. А., Сорокин С. В., Пономарев С. А., Сытник Д. А. Выбор признаков для распознавания печатных кириллических символов // Вестник Тверского Государственного Университета 2010 г., 28, стр. 59-73

The concept of a linguistic variable and its application to approximate reasoning, Information Sciences, 8, 199-249; 9, 43-80.

Melin P., Urias J., Solano D., Soto M., Lopez M., Castillo O., Voice Recognition with Neural Networks, Type-2 Fuzzy Logic and Genetic Algorithms. Engineering Letters, 13:2, 2006.

Панфилов С. А. Методы и программный комплекс моделирования алгоритмов управления нелинейными динамическими системами на основе мягких вычислений. Диссертация на соискание ученой степени кандидата технических наук. Тверь, 2005.

Источник

Читальный зал

Как происходит распознавание текста на ПК

Процесс оцифровки и оптического распознавания текста включает в себя пять этапов.

1 Ввод страницы. На этом этапе отсканированный или сфотографированный документ попадает в компьютер в виде изображения.

2 Анализ макета. OCR-приложение определяет, где на странице находятся текст, рисунки, таблицы и т.п., и разбивает ее на блоки. Программа последовательно дробит страницу на все более мелкие блоки: разбивает текст на абзацы, затем на предложения, отдельные слова и символы. В финале анализа макета документ представляет собой набор отдельных символов. Программа запоминает, в каком месте на странице каждый из них находится.

3 Распознавание символов – самый ответственный этап процесса OCR, ведь программа должна правильно идентифицировать все найденные знаки. Используется в тексте буква «В» (и какая – русская или латинская) или это цифра «8»? Если программа допустит ошибку, результат распознавания превратится в абракадабру.

Для более точного распознавания текста программы комбинируют различные методы, которые условно делятся на две категории: методы сопоставления с образцом и методы сопоставления признаков (более подробно о них читайте далее).

4 Реконструкция документа. После завершения процесса распознавания программа начинает воссоздавать страницы, с помощью встроенного словаря объединяя отдельные символы в слова, слова в предложения, предложения в абзацы и т.д.

Для ускорения процесса используются результаты анализа макета страницы (этап 2). Кроме того, применяя специальные методы, программы пытаются учитывать грамматические особенности текста, чтобы в итоге получились корректные с точки зрения распознаваемого языка предложения.

5 Сохранение документа. OCR-приложение сохраняет распознанный документ в определенном пользователем формате (только текст – TXT; макет страницы – файлы Microsoft Word или PDF).

Как выполняется распознавание символов

Для этого используется несколько различных технологий (см. врезку ниже).

Что затрудняет распознавание текста

Распознавание текста даже для мощных компьютеров – задача не из простых. Поэтому раньше существовали специальные типы шрифтов для распознавания, символы которых машина понимала лучше (см. рис. выше).

Программы распознавания текста

Каким должен быть сканер

Первым делом нужно определиться, с какими бумажными носителями вы чаще будете работать. Если это книги, журналы и рукописи (то есть сброшюрованные материалы), вам потребуется планшетный сканер. Требования OCR-программ к подобному оборудованию достаточно скромны: оптимальным решением будет недорогой (от 1500 руб.) «планшетник», позволяющий работать с оригиналами формата A4. Он удобен тем, что на его стекло можно класть не только отдельные бумажные листы, но также книги и журналы. Кстати, во многих моделях крышка не просто откидывается, а еще и приподнимается вверх – можно сканировать толстые книги. Планшетные сканеры обычно встраивают в многофункциональные устройства; такие интегрированные скан-модули вполне пригодны для оцифровки текста и старых фотографий.

Если вы чаще будете сканировать отдельные листы, ищите модель, оборудованную устройством для автоматической подачи оригиналов. Оно освободит вас от необходимости менять страницы вручную, а будет затягивать их из приемного лотка автоматически, аналогично тому, как принтер затягивает листы чистой бумаги.

Может ли OCR-программа распознавать рукописный текст

Решив распознать письмо, написанное от руки, вы будете неприятно удивлены, ведь рукописный шрифт для многих программ является камнем преткновения. Только в том случае, если текст написан печатными буквами, им удается добиться более-менее приемлемого результата.

Совсем по-иному распознавание рукописного текста происходит на планшетных ПК. Поставляемая в комплекте с ними программа умеет читать символы. Она понимает, каким образом пользователь пишет отдельные буквы: к примеру, букву «Е» она узнает по тому, что за вертикальной чертой следует написание трех горизонтальных линий, а цифра «1» для нее представляет собой одну вертикальную линию. Цифра «0» и буква «о» различаются лишь благодаря тому, что первый символ пишется по часовой стрелке, а второй – наоборот.

По следам госслужб

Конец 1989 года. В округе Лихтенберг города Берлина царит суета: после объединения Германии сотрудники секретных служб в спешном порядке уничтожают архивы. Результат: информация об осведомителях, жертвах службы госбезопасности и о проведении тайных операций набита в 16 000 мешков с мелкими бумажными обрезками. Согласно оценкам экспертов, человеку потребовалось бы несколько сотен лет, чтобы вручную сложить этот «пазл». С использованием же последних разработок эксперты Фраунхоферовского института производственного оборудования намерены выполнить данную задачу за пять лет. В настоящее время обрезки сканируются и объединяются в полноценные страницы. Эксперты Фраунхоферовского института намерены соединить 80% кусочков в автоматическом режиме, а позднее пропустить полученные страницы через программу распознавания текста, чтобы получить возможность поиска в архивах – по ключевым словам и именам. Согласно современным прогнозам, восстановленные документы будут переданы специальному ведомству, отвечающему за архивы «Штази», не позднее 2012 года.

Источник

Программы для распознавания текста

Рейтинг: для чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документовдля чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документовдля чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документовдля чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документов для чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документов/ 18

Зачем нужны программы распознавания текста.

Программы распознавания текста позволяют работать с отсканированными изображениями. С их помощью выполняется редактирование информации, исправление ошибок, сохранение данных в нужном формате и т.д.

Как работает сканер.

Чтобы лучше понять ценность упомянутых программ разберемся с тем, как работает сканер. Механизм устройства помещен в корпус, верхняя часть которого представлена стеклом. Внутри находится яркая лампа и зеркала. Именно они отвечают за «фотографирование» источника для сканирования. При этом шрифт и изображения считываются в виде цветных, серых или черно-белых точек (в зависимости от модели устройства). А за распознавание текста и картинок отвечает драйвер сканера.

для чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документов

Полученное изображение является своеобразной фотографией исходного источника, будь то разворот книги, лист формата A4 или справка. Программы для распознавания текста позволяют расширить возможности пользователя, редактировать текст, исправлять ошибки.

Для наглядности рассмотрим пример. Допустим, вам нужно вставить большой кусок текста из книги в дипломную работу. Чтобы не тратить время на перепечатывание с листа, страницы можно отсканировать. Однако этого недостаточно, поскольку вы получите файлы-картинки, которые не подойдут для использования в Microsoft Word. С помощью программ для распознавания текста пользователь отредактирует полученное изображение и сможет вставить информацию в текстовый редактор.

Если предстоит сканирование листов с четко прописанными буквами, читабельным, ярким шрифтом, то с такой задачей справится любой сканер. Куда хуже обстоит дело, если речь идет о таких носителях информации, как старые, потрепанные листы бумаги или пожелтевшие газеты. Не каждый драйвер сможет идентифицировать подобный текст, а потому возможности специальной программы придутся как нельзя кстати. С их помощью утраченные области шрифта легко восстановить, дописав на клавиатуре в рамках редактора.

Отдельные программы предоставляют даже такие эксклюзивные возможности, как правка рукописного текста. Правда, для этого нужно, чтобы разрешение картинки было не меньше 300 точек на дюйм. Кроме того, буквы в строке должны быть примерно одной высоты, одного наклона и написаны как можно аккуратнее.

Функцию распознавания рукописного текста поддерживают такие программы, как ABBYY FineReader, CuneiForm (бесплатная утилита), MyScript Stylus, SimpleOCR и другие. Помимо русских символов они идентифицируют буквы, написанные на иностранном языке. Кроме того, программы распознают таблицы и рисунки, перенося их в компьютер для последующего редактирования.

Таким образом, ни один современный пользователь ПК, имеющий сканер, не обойдется без программы распознавания текста. Выбор платных и бесплатных утилит позволит выбрать то, что отвечает именно вашим запросам с точки зрения функциональности.

Источник

Что являют собою системы оптического распознавания документов

Содержание:

Оцифрованные книги, архивы, периодические издания – это преимущественно изображения. Для внесения изменений, копирования из них информации, картинки приходится превращать в редактируемые текстовые файлы. В этом помогут системы оптического распознавания текста. Разберёмся, как они работают, выявим слабые места.

Принцип функционирования

Текстовый документ занимает порой в десятки раз меньше места, чем его графическая версия.

Распознавание текста – это сложный многошаговый процесс. Состоит из этапов:

Качество и скорость зависят от исходного материала, отточенности алгоритмов программы.

Типы анализа

для чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документов

для чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документов

Программы для OCR обладают десятками наборов шаблонов для разных шрифтов, самообучающимися алгоритмами и технологиями выбора эффективнейшего из них.

Экскурс в историю

С 1970 создаются решения для определения символов, напечатанных различными шрифтами, в конце 70-х выходит первая компьютерная программа для OCR. Аналогичное решение с поддержкой кириллицы появилось в 1992 г. Годом позже компания ABBYY выпустила легендарный FineReader, получивший мировое признание.

Трудности работы систем оптического распознавания цифровых документов

С остальными проблемами алгоритмы справляются хорошо, например, анализ структуры страницы: определение границ текстовых полей, таблиц, формул, размера букв.

Источник

Методы распознавания текста

Немного теории

Тема распознавания текста попадает под раздел распознавания образов. И для начала коротко о самом распознавании образов.
Распознавание образов или теория распознавания образов это раздел информатики и смежных дисциплин, развивающий основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов, которые характеризуются конечным набором некоторых свойств и признаков. Данное определение нам дает Wikipedia.

Итак, моя тема — это распознавание текста на графических изображениях и сейчас говорить о важности данного подраздела не приходиться. Всем давно известно, что существуют миллионы старых книг, которые хранятся в хранилищах строгого режима, доступ к которым имеет только специализированный персонал. Использование этих книг запрещено по причине их ветшалости и дряхлости, так как возможно, что они могут рассыпаться прямо в руках читателя, но знания которые они хранят, представляют, несомненно, большой клад для человечества и поэтому оцифровка этих книг столь важна. Именно этим в частности занимаются специалисты в области обработки данных.

Теперь о самой работе. Было написано приложение, способное распознавать текст при использовании изображений высокого либо среднего качества, со слабым шумом либо без него. Приложение способно распознавать буквы английского алфавита, верхнего и нижнего регистра. Изображение подается для распознавания непосредственно из самого приложения.

Фильтрация и обработка

для чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документов

Сегментация

для чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документов

Непосредственно перед распознаванием изображение нормализуется и приводится до размеров шаблонов, подготовленных заранее.

Далее наступает сам процесс распознавания. Для пользователя имеется два выбора, при помощи метрик и при помощи нейронной сети.

Распознавание
Рассмотрим первый случай — распознавание при помощи метрик.

Метрика – некоторое условное значение функции, определяющее положение объекта в пространстве. Таким образом, если два объекта расположены близко друг от друга, то есть похожи (например, две буквы А написанные разным шрифтом), то метрики для таких объектов будут совпадать или быть предельно похожими. Для распознавания в этом режиме была выбрана метрика Хэмминга.

Метрика Хэмминга – метрика которая показывает, как сильно объекты не похожи между собой.

Данную метрику часто используют при кодировании информации и передаче данных. Например, после сеанса передачи на выходе имеется следующая последовательность бит (1001001), также нам известно, что должна прийти другая последовательность бит (1000101). Мы вычисляем метрику путем сравнения частей последовательности с соответствующими местами из другой последовательности. Таким образом метрика Хэмминга в нашем случае равна 2. Так как объекты отличаются в двух позициях. 2- это степень непохожести, чем больше, тем хуже в нашем случае.
Следовательно, чтобы определить какая буква изображена нужно найти ее метрику со всеми готовыми шаблонами. И тот шаблон, чья метрика окажется наиболее близкой к 0 будет ответом.

Но как показала практика подсчет одной лишь метрики не дает положительного результата, так многие буквы похожи между собой. например «j» «i», что приводит к ошибочному распознаванию.

Тогда было принято решение придумать новые метрики, позволяющие разграничить некоторое множество букв в отдельный класс. В частности, были реализованы метрики (Отражения горизонтального и вертикального, преобладания веса горизонтального и вертикального).

Экспериментом было выяснено, что такие буквы как «H» «I» «i» «O» «o» «X» «x» «l» обладают суперсимметрией (полностью совпадают со своими отражениями и значимые пиксели распределены равномерно по всему изображению), поэтому они были вынесены в отдельный класс, что сокращает перебор всех метрик примерно в 6 раз. Аналогичные действия были проведены в отношении других букв. В среднем уменьшение перебора достигает примерно 3 раза.
Также есть уникальная буква такая как «J», которая находится в своем классе одна, и значит идентифицируются однозначно. Далее, для каждого класса высчитывается метрика Хэмминга, которая на данном этапе дает лучшие показатели чем при прямом применении.
При создании шаблонов использовался шрифт «consolas», поэтому, если распознаваемый текст написан этим шрифтом, распознавание имеет точность порядка 99 процентов. При изменении шрифта, точность падает до 70 процентов.

Второй способ распознавания – при помощи нейронной сети.

Что такое нейронная сеть и в биологическом понимании, и в математическом я рассказывать не буду, так как данного материала полно в интернете и повторять его не хочется. Сказать лишь можно то, что в математическом смысле нейронная сеть — это лишь модель биологического определения.

Существуют также множества разновидностей этих моделей. В своей работе я использовал однослойную сеть Кохонена.
Принцип работы нейронной сети таков, что поучив на входной слой нейронов новое изображение сеть реагирует импульсом того или иного нейрона. Так как все нейроны поименованы значениями букв, следовательно, среагировавший нейрон и несет ответ распознавания. Углубляясь в терминологию сетей можно сказать, что нейрон помимо выхода имеет также множество входов. Данные входы описывают значение пикселя изображения. То есть, если имеется изображение 16х16, входов у сети должно быть 256.

Каждый вход воспринимается с определенным коэффициентом и в результате, по окончанию распознавания на каждом нейроне скапливается определенный заряд, чем заряд будет больше тот нейрон и испустит импульс.

Но что бы коэффициенты входов были правильно настроены необходимо сначала обучить сеть. Этим занимается отдельный модуль обучения. Данный модуль берет очередное изображение из обучающей выборки и скармливает сети. Сеть анализирует все позиции черных пикселей и выравнивает коэффициенты минимизируя ошибку совпадения методом градиента, после чего определенному нейрону сопоставляется данное изображение.

для чего используют программы распознавания текстовых документов. Смотреть фото для чего используют программы распознавания текстовых документов. Смотреть картинку для чего используют программы распознавания текстовых документов. Картинка про для чего используют программы распознавания текстовых документов. Фото для чего используют программы распознавания текстовых документов

Все коэффициенты выровнены и готовы воспринимать изображения.
Точность распознавания при этом методе достигает 80 процентов. Следует заметить, что точность распознавания зависит от обучающей выборки, как от количества, так и от качества.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *