Секреты сканирования на ПК   ::   Леонтьев Б. К.

Страница: 27 из 176



В соответствии с этими принципами OCR-система сначала выдвигает гипотезу относительно объекта распознавания (символе, части символа или нескольких склеенных символах), а затем подтверждает или опровергает ее, пытаясь последовательно обнаружить все структурные элементы и связывающие их отношения, при этом в каждом структурном элементе можно выделить определенные части, имеющие значение для человеческого восприятия:

• отрезки дуги кольца точки.

Целостность

Распознаваемый объект воспринимается OCR-системой в качестве целого посредством «значимых» элементов и отношений между ними.

Целенаправленность

Процесс распознавания проходит через выдвижение гипотез и целенаправленной их проверке. Это означает, что OCR-система проводит поиск, учитывает предыдущий контекст и на основе этого распознает даже разорванные и искаженные печатные символы.

Адаптивность

Под адаптивностью подразумевается способность OCR-системы к самообучению. Следуя этому принципу, OCR-система подстраивается к распознаваемому материалу на базе полученного «положительного» опыта.

В итоге в рабочей среде OCR-системы появляется распознанный текст, который можно корректировать и сохранять в том или ином формате.



Глава 19.

Системы распознавания текстов в офисе



Основное назначение пакетов оптического распознавания символов (Optical Character Recognition, OCR) состоит в анализе растровой информации (отсканированного символа) и присвоении точечному изображению символа фиксированного электронного значения. Грубо говоря, OCR-система определяет, какой букве соответствует та или иная картинка.

|< Пред. 25 26 27 28 29 След. >|

Java книги

Контакты: [email protected]