OCR

De Wikinet
Ir para: navegação, pesquisa

OCR é o acrônimo de Optical Character Recognition e, como tudo que depende da inteligência artificial, os resultados dos programas de OCR são uma merda.

OCR é qualquer método ou software que pega uma imagem digitalizada (de preferência pixmap, mas também pode ser feito em imagens vetoriais, como os textos embutidos em documentos PDF) e gera o texto que está na imagem.

Uma das aplicações do OCR é pegar livros velhos e gerar uma cópia digital. Basta dar uma passada pelo Projeto Gutenberg para ver que qualquer criança de 5 anos faz OCR melhor do que os softwares: os textos digitalizados são, na maioria das vezes, incompreensíveis. Claro que, depois do OCR, os livros são dados a um editor humano, que tem mais trabalho de corrigir a cagada feita pelo software do que teria se digitasse o livro a partir do zero.