Tesseract OCR, texte non reconnu [Fermé]

Signaler
Messages postés
1640
Date d'inscription
dimanche 21 octobre 2012
Statut
Membre
Dernière intervention
10 décembre 2016
-
Messages postés
1640
Date d'inscription
dimanche 21 octobre 2012
Statut
Membre
Dernière intervention
10 décembre 2016
-
Bonjour,

J'essaie de faire reconnaître un fichier texte à Tesseract OCR, qui pourra contenir du texte encodé en base64. Je fais un premier essai avec une image PNG issue d'un scan qui contient le texte

Ceci est un test. 0123456789
ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz

Le résultat fourni par Tesseract :

Ceci est un test. 0123456789<caractères bizarres aléatoires>

Donc il reconnait bien la première ligne mais pas la deuxième qui pourant est écrite avec la même police (Courrier New). A mon avis ce qui se passe c'est qu'il essaie avant tout de repérer des mots français (normal si je lui dis d'utiliser le dictionnaire français). Mais comment faire pour faire reconnaître n'importe quel texte qui ne veut pas forcément dire quelque chose? Quelqu'un a une idée?

1 réponse

Messages postés
15887
Date d'inscription
samedi 10 juillet 2010
Statut
Membre
Dernière intervention
26 octobre 2020
4 347
Si votre texte est sous forme d'image, il vous faut d'abord le remettre en tant que texte ASCII... ensuite vous pourrez le decoder du format MIME (base64)

Le probleme de l'OCR c'est qu'il cherche a analyser les mots par rapport a la forme du caractere combine a une bibliothèque de mots en fonction du langage. Donc il y a de grande chance qu'en sortie d'OCR le texte soit totalement different de la source..

Je crois que le soft Omnipage Pro permet de choisir le style de reconnaissance et peut-etre d'eviter la recherche orthographique..
Messages postés
1640
Date d'inscription
dimanche 21 octobre 2012
Statut
Membre
Dernière intervention
10 décembre 2016
436
Bonjour, c'est le problème, Tesseract va à mon avis par défaut rechercher du texte qui veut dire quelque chose, et pas une suite de caractères qui n'a pas été prévue pour être lue par un humain, j'ai un peu cherché pour voir si des options existent pour qu'il reconnaisse des caractères de manière séparée et non des mots.