Tesseract OCR, texte non reconnu
Utilisateur anonyme
-
Utilisateur anonyme -
Utilisateur anonyme -
Bonjour,
J'essaie de faire reconnaître un fichier texte à Tesseract OCR, qui pourra contenir du texte encodé en base64. Je fais un premier essai avec une image PNG issue d'un scan qui contient le texte
Ceci est un test. 0123456789
ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz
Le résultat fourni par Tesseract :
Ceci est un test. 0123456789<caractères bizarres aléatoires>
Donc il reconnait bien la première ligne mais pas la deuxième qui pourant est écrite avec la même police (Courrier New). A mon avis ce qui se passe c'est qu'il essaie avant tout de repérer des mots français (normal si je lui dis d'utiliser le dictionnaire français). Mais comment faire pour faire reconnaître n'importe quel texte qui ne veut pas forcément dire quelque chose? Quelqu'un a une idée?
J'essaie de faire reconnaître un fichier texte à Tesseract OCR, qui pourra contenir du texte encodé en base64. Je fais un premier essai avec une image PNG issue d'un scan qui contient le texte
Ceci est un test. 0123456789
ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz
Le résultat fourni par Tesseract :
Ceci est un test. 0123456789<caractères bizarres aléatoires>
Donc il reconnait bien la première ligne mais pas la deuxième qui pourant est écrite avec la même police (Courrier New). A mon avis ce qui se passe c'est qu'il essaie avant tout de repérer des mots français (normal si je lui dis d'utiliser le dictionnaire français). Mais comment faire pour faire reconnaître n'importe quel texte qui ne veut pas forcément dire quelque chose? Quelqu'un a une idée?
A voir également:
- Tesseract OCR, texte non reconnu
- Cle usb non reconnu - Guide
- Free ocr - Télécharger - Divers Bureautique
- Texte de chanson gratuit pdf - Télécharger - Vie quotidienne
- Simple ocr - Télécharger - Bureautique
- Transcription audio en texte word gratuit - Guide
1 réponse
Si votre texte est sous forme d'image, il vous faut d'abord le remettre en tant que texte ASCII... ensuite vous pourrez le decoder du format MIME (base64)
Le probleme de l'OCR c'est qu'il cherche a analyser les mots par rapport a la forme du caractere combine a une bibliothèque de mots en fonction du langage. Donc il y a de grande chance qu'en sortie d'OCR le texte soit totalement different de la source..
Je crois que le soft Omnipage Pro permet de choisir le style de reconnaissance et peut-etre d'eviter la recherche orthographique..
Le probleme de l'OCR c'est qu'il cherche a analyser les mots par rapport a la forme du caractere combine a une bibliothèque de mots en fonction du langage. Donc il y a de grande chance qu'en sortie d'OCR le texte soit totalement different de la source..
Je crois que le soft Omnipage Pro permet de choisir le style de reconnaissance et peut-etre d'eviter la recherche orthographique..
Utilisateur anonyme
Bonjour, c'est le problème, Tesseract va à mon avis par défaut rechercher du texte qui veut dire quelque chose, et pas une suite de caractères qui n'a pas été prévue pour être lue par un humain, j'ai un peu cherché pour voir si des options existent pour qu'il reconnaisse des caractères de manière séparée et non des mots.