Traitement OCR Résolu

Question

Bonjour à tous,

Il y a certainement déjà eu des questions à ce sujet, mais je voudrais continuer la dessus.

Faisant un peu de recherche en généalogie, j’ai voulu essayer l’IA pour deux choses : qu’il lise les vieux textes et en extrait du texte : les résultats sont catastrophiques.

Actuellement en particuliers avec l’IA les applications (web ou PC) qui font de l’OCR se multiplient et on tombe vite dans plusieurs travers :

- complexité des applications (« usines à gaz »)

- coût (très rapidement il faut payer)

- extraction de texte très aléatoires : j’ai utilisé « perplexity » il fait n’importe quoi, traduisant « mauve » par « noire », ou « mendiant » par « ménagère », ou encore inversant carrément le sens de la phrase ! IL FAIT DE LA DEGENERATIVE !

Ma question encore une fois est vers quoi faut-il se tourner pour éviter que ces outils « inventent » ? Je préférerais que l’on ne mette rien plutôt que du baratin insensé !

Je sais que c’est toujours difficile de donner des conseils à ce sujet mais au moins des pointeurs qui traitent de cela !

Merci pour vos commentaires éclairés.

Bonne journée.

brucine · Answer

Bonjour,

Je ne vois pas très bien l'apport de la tarte à la crème de l'IA en termes d'OCR.

Une seule chose est sûre, on n'obtient des résultats acceptables et encore (qualité du manuscrit, complexité du texte...) que par le biais de logiciels spécialisés qui non seulement ne sont pas gratuits mais très coûteux.

En toute hypothèse, les traitements sont longs, consomment des ressources processeur et RAM inconsidérées, doivent toujours être corrigés après la "proposition" de l'OCR...

Exprimé autrement et sauf si le texte est très long, on a sans doute plus vite fait de le ressaisir au kilomètre.

.eric · Answer

Perplexity est un moteur de recherche IA gratuit conçu pour révolutionner la façon dont vous découvrez l'information.

Posez n'importe quelle question, et il recherche sur Internet pour vous donner une réponse accessible, conversationnelle et vérifiable.

Ce n'est pas de l'OCR, reconnaissance de caractère,

-qui pourrait hésiter entre O et Q. Déjà il y a matière à commettre bien des erreurs.

Perplexity fabrique réellement des réponses à questions, avec tout ce qu'il a pu trouver sur internet, pas conçu pour respecter le sens d'un texte.

La qualité coûte cher, l'IA doit être entraîné et contrôlé dans le domaine où on va le faire travailler.

papoudu_34 · Answer

OK mais vers quoi nfaut-il se tourner pour avoir de l'OCR? et pas ,trop cher ?

Merci

uniuc · Answer

Bonjour,

Si tu as un abonnement chez free mobile sinon il suffit de prendre un abonnement à 2€ chez eux et d'activer les 12 mois gratuits de chez mistral AI.

Mistral c'est plus un outil qu'un LLM.

C'est son job l'OCR  et le RAG et pour ne rien gâcher il y as de la doc et un discord

papoudu_34 · Answer

Ca a l'air top et je suis ,chez Free et je m'étais inscrit à mistral ai gratuit un an§

mais je suis un peu perdu : RAG, DISCORD, LLM... Où est la doc ?

Peux-tu me dire par où commencer et en particulier comment faire pour extraire du texte (OCR) d'un jpeg ou pdf?

Merci d'avance car c'est ce que je cherche 
C'est top.

uniuc · Answer

Donc,

Ici tu as ton home

https://console.mistral.ai/home

Tout en bas tu va voir les doc, celle qui t’intéresse c'est ici

https://docs.mistral.ai/capabilities/document/#ocr-with-image

le liens du discord il est en bas à droite de cette même page. Je te pose quand même le lien.

https://discord.gg/mistralai

Tout est expliqué dans la doc, par contre ça va te demander de te créer un petit environnement python, selon ta config tu as plusieurs choix.

uniuc · Answer

Ok donc ça ne veut pas que je te réponde sur le forum ça me colle -1 d'office et ça vire mon texte lol je te MP

papoudu_34 · Answer

Bonjour,

et merci à uniuc pour ce bel effort, très complet. 
Deux remarques : cet soluce a l'air gratuite (pour un an chez free, très bien)   , mais par contre complexe et hélas à 80 ans je ne vais pas me mettre un python dans le cou(p)!
Merci et on peut clore le sujet

Traitement OCR

8 réponses

Discussions similaires

Newsletters