extrator-texto-em-imagem

Script simples em python para extrair textos de imagens usando Tesseract e OpenCV

O que você irá precisar

Pillow (pip install pillow)
Tesseract (pip install pytesseract)
ImageMagick (pip install wand)
Numpy (pip install numpy)
OpenCV (pip install opencv-python)

Reconhecimento em português

Caso esteja usando linux, basta executar o comando abaixo para que o tesseract reconheça textos em português
sudo apt-get install tesseract-ocr-por

Possível problema e como resolvê-lo

Possívelmente quando você tentar usar o wand para pdf, você irá encontrar o seguinte erro:
python wand PolicyError: not authorized

Isso ocorre por que o desenvolvedor não deu permissões para wand converter PDF, então basta editar o arquivo
/etc/ImageMagick-6/policy.xml

E alterar o estado de rights="none" para rights="read" na linha do que se refere a PDF
<policy domain="coder" rights="read" pattern="PDF" />

Como executar

O script recebe 2 parametros, 1° o caminho da pasta que está os pdfs para extração e o 2° que é o caminho do arquivo que ele irá gerar em txt

python main.py /home/caminho-pasta-arquivo /home/caminho-arquivo-txt

Exemplo

Pdf de exemplo

Output

A Simple PDF File

This is a small demonstration .pdf file -

just for use in the Virtual Mechanics tutorials. More text. And more
text. And more text. And more text. And more text.

And more text. And more text. And more text. And more text. And more
text. And more text. Boring, zzzzz. And more text. And more text. And
more text. And more text. And more text. And more text. And more text.
And more text. And more text.

And more text. And more text. And more text. And more text. And more
text. And more text. And more text. Even more. Continued on page 2

Créditos

Não teria conseguido otimizar a leitura se não fosse esse post feito pelo próprio Tesseract sobre otimização de imagem

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
README.md		README.md
main.py		main.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

extrator-texto-em-imagem

O que você irá precisar

Reconhecimento em português

Possível problema e como resolvê-lo

Como executar

Exemplo

Pdf de exemplo

Output

Créditos

About

Releases

Packages

Languages

Pettrus/extrator-texto-em-imagem

Folders and files

Latest commit

History

Repository files navigation

extrator-texto-em-imagem

O que você irá precisar

Reconhecimento em português

Possível problema e como resolvê-lo

Como executar

Exemplo

Pdf de exemplo

Output

Créditos

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages