Секреты сканирования на ПК   ::   Леонтьев Б. К.

Страница: 28 из 176



Отечественные разработчики программного обеспечения действительно преуспели в сфере систем распознавания. Между тем проблемы, которые встают перед разработчиками подобных систем, весьма нетривиальны. В зависимости от качества отсканированного изображения приходится разделять склеившиеся символы, домысливать творения матричного принтера, разбивать (фрагментировать) текст на блоки, догадываться о значении не пропечатавшихся символов, настраиваться (через систему обучения) на «почерк» печатающего устройства или пишущей машинки, узнавать широкую гамму шрифтов, начертаний и других параметров символов. Кроме того, современные системы оптического распознавания должны уметь сохранять форматирование исходных документов, присваивать в нужном месте атрибут абзаца, сохранять таблицы, оставлять в покое графику (нераспознаваемые картинки)…

И это лишь малая толика всех задач OCR— пакетов. Из не решенных на сегодняшний день проблем остается уверенное распознавание «вольных» рукописных текстов или декоративных шрифтов. По сложности эта задача приближается к речевому распознаванию. Тем не менее Cognitive Forms (Cognitive Technologies) и FineReader 4.0 Forms (ABBYY) уже уверенно распознают машинописные записи в формулярах (анкетах, декларациях и т.д.). Не так давно появились примеры решений для автоматизации форм, вручную заполняемых пользователями в специально отведенных блоках для букв.

|< Пред. 26 27 28 29 30 След. >|

Java книги

Контакты: [email protected]