Tesseract OCR, texte non reconnu

Question

Bonjour, 

J'essaie de faire reconnaître un fichier texte à Tesseract OCR, qui pourra contenir du texte encodé en base64. Je fais un premier essai avec une image PNG issue d'un scan qui contient le texte

Ceci est un test. 0123456789
ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz

Le résultat fourni par Tesseract : 

Ceci est un test. 0123456789<caractères bizarres aléatoires>

Donc il reconnait bien la première ligne mais pas la deuxième qui pourant est écrite avec la même police (Courrier New). A mon avis ce qui se passe c'est qu'il essaie avant tout de repérer des mots français (normal si je lui dis d'utiliser le dictionnaire français). Mais comment faire pour faire reconnaître n'importe quel texte qui ne veut pas forcément dire quelque chose? Quelqu'un a une idée?

Configuration: Windows / Chrome 41.0.2227.0

contrariness · Answer

Si votre texte est sous forme d'image, il vous faut d'abord le remettre en tant que texte ASCII... ensuite vous pourrez le decoder du format MIME (base64)

Le probleme de l'OCR c'est qu'il cherche a analyser les mots par rapport a la forme du caractere combine a une bibliothèque de mots en fonction du langage. Donc il y a de grande chance qu'en sortie d'OCR le texte soit totalement different de la source..

Je crois que le soft Omnipage Pro permet de choisir le style de reconnaissance et peut-etre d'eviter la recherche orthographique..

Tesseract OCR, texte non reconnu

1 réponse

Discussions similaires

Newsletters