Definição de OCR

Por Carlos E. Morimoto. Há .

Optical Character Recognition. Tecnologia que permite reconhecer caracteres de texto em imagens, transformando-os em texto editável. A grande maioria dos scanners acompanha pelo menos um programa de OCR, que podem ser usados para obter texto de páginas impressas, substituindo a digitação manual.

O principal requisito de um software de OCR, é oferecer suporte à língua Portuguesa, pois, caso contrário, os caracteres acentuados não serão reconhecidos, fazendo com que o texto apresente muitos erros. Dos programas que testei, o que apresentou melhores resultados foi o OmniPage Pro. Você poderá baixar uma versão de teste deste programa (cerca de 20 MB) em http://www.caere.com.

Além do suporte à língua portuguesa, o OmniPage oferece bons recursos, como a possibilidade de reconhecer texto organizado em colunas (como numa revista) e de manter a formatação original do texto, opções que podem ser configuradas em Tools/Options.

Outro recurso interessante é o analista de linguagem, que analisa o texto comparando-o com palavras da língua para a qual o programa estiver configurado, aumentando a precisão do reconhecimento de caracteres e evitando erros bobos, como trocar "l" por "1". O OmniPage possui também um corretor ortográfico.

Para usar o OCR, você deverá escanear a imagem em preto e branco (não escala de cinza). Geralmente esta opção aparecerá como "OCR Text" na configuração de cores do utilitário do scanner.

As fontes True Type utilizadas pelos editores de texto são gravadas em modo vetorial, uma descrição matemática das curvas e linhas que compõem o caracter. Este recurso permite que o tamanho da fonte seja alterado livremente, sem perda de qualidade. Um programa de OCR atua basicamente comparando os caracteres escaneados com estas fontes gráficas.

Inicialmente, o programa examina a página para mapear os espaços em branco, reconhecendo títulos, colunas, parágrafos e imagens, o que permite manter a ordem correta do texto. Programas de OCR mais avançados, são capazes de manter toda a formatação da página.

O segundo passo, consiste em comparar cada caracter com modelos de fontes suportadas pelo OCR. Havendo uma certa porcentagem de coincidência, o caracter é reconhecido. Como este primeiro processo demanda uma semelhança muito grande entre as fontes e os caracteres digitalizados, muitos acabam não sendo reconhecidos, especialmente caracteres em negrito ou itálico.

Nos caracteres não reconhecidos, é aplicado um segundo processo bem mais minucioso, que consiste em analisar geometricamente cada caracter, calculando a altura, largura, e combinações de retas, curvas e áreas em branco.

Novamente, é usada a lei da probabilidade: um caracter com uma curva em forma de meia lua que continua na forma de uma reta, por exemplo, tem uma grande chance de ser um "d" minúsculo por exemplo. Este segundo processo é muito mais demorado, pois para cada letra é preciso gerar todo um novo conjunto de caracteres gráficos.

Se mesmo com o exame minucioso, não for possível reconhecer o caracter, o programa poderá utilizar um corretor ortográfico para corrigir erros bobos, ou preecher espaços vazios. Com a ajuda do corretor, "Ca1e-se" seria substituído por "Cale-se" e "Paralele#ípe~o" seria alterado para "Paralelepípedo"

Uma última alternativa para reconhecer caracteres ilegíveis, pode ser mostrar individualmente o bitmap de cada caracter não reconhecido e, pedir ao usuário que o substitua pela letra correspondente, ou então, simplesmente, usar um símbolo como ~,% ou # no lugar do caractere para que o usuário possa corrigir o erro manualmente depois.

Veja também
Qual o game mais caro da PS Store no Brasil?
Qual o game mais caro da PS Store no Brasil?
Games
Produtos piratas importados da China serão barrados pela Receita Federal
Produtos piratas importados da China serão barrados pela Receita Federal
Notícias
Melissa: o vírus que enganou os viciados em pornô e infectou mais de 100 mil PCs em 1999
Melissa: o vírus que enganou os viciados em pornô e infectou mais de 100 mil PCs em 1999
Artigos
Apple retira WhatsApp, Threads, Telegram e Signal da App Store chinesa
Apple retira WhatsApp, Threads, Telegram e Signal da App Store chinesa
Mobile
Banco Central confirma novo vazamento de chaves Pix
Banco Central confirma novo vazamento de chaves Pix
Notícias
Motorola lança Moto G04s por R$ 747,15 a vista
Motorola lança Moto G04s por R$ 747,15 a vista
Mobile
true