Traitement OCR
Résoluuniuc Messages postés 304 Date d'inscription Statut Membre Dernière intervention -
Bonjour à tous,
Il y a certainement déjà eu des questions à ce sujet, mais je voudrais continuer la dessus.
Faisant un peu de recherche en généalogie, j’ai voulu essayer l’IA pour deux choses : qu’il lise les vieux textes et en extrait du texte : les résultats sont catastrophiques.
Actuellement en particuliers avec l’IA les applications (web ou PC) qui font de l’OCR se multiplient et on tombe vite dans plusieurs travers :
- complexité des applications (« usines à gaz »)
- coût (très rapidement il faut payer)
- extraction de texte très aléatoires : j’ai utilisé « perplexity » il fait n’importe quoi, traduisant « mauve » par « noire », ou « mendiant » par « ménagère », ou encore inversant carrément le sens de la phrase ! IL FAIT DE LA DEGENERATIVE !
Ma question encore une fois est vers quoi faut-il se tourner pour éviter que ces outils « inventent » ? Je préférerais que l’on ne mette rien plutôt que du baratin insensé !
Je sais que c’est toujours difficile de donner des conseils à ce sujet mais au moins des pointeurs qui traitent de cela !
Merci pour vos commentaires éclairés.
Bonne journée.
- En 2 roues
- Free ocr - Télécharger - Divers Bureautique
- Reconsidérer le traitement de vos informations à des fins publicitaires - Accueil - Réseaux sociaux
- Simple ocr - Télécharger - Bureautique
- Traitement de texte gratuit - Guide
- Ce logiciel gratuit et léger est parfait pour remplacer Word, même sur un vieux PC - Guide
8 réponses
Bonjour,
Je ne vois pas très bien l'apport de la tarte à la crème de l'IA en termes d'OCR.
Une seule chose est sûre, on n'obtient des résultats acceptables et encore (qualité du manuscrit, complexité du texte...) que par le biais de logiciels spécialisés qui non seulement ne sont pas gratuits mais très coûteux.
En toute hypothèse, les traitements sont longs, consomment des ressources processeur et RAM inconsidérées, doivent toujours être corrigés après la "proposition" de l'OCR...
Exprimé autrement et sauf si le texte est très long, on a sans doute plus vite fait de le ressaisir au kilomètre.
Perplexity est un moteur de recherche IA gratuit conçu pour révolutionner la façon dont vous découvrez l'information.
Posez n'importe quelle question, et il recherche sur Internet pour vous donner une réponse accessible, conversationnelle et vérifiable.
Ce n'est pas de l'OCR, reconnaissance de caractère,
-qui pourrait hésiter entre O et Q. Déjà il y a matière à commettre bien des erreurs.
Perplexity fabrique réellement des réponses à questions, avec tout ce qu'il a pu trouver sur internet, pas conçu pour respecter le sens d'un texte.
La qualité coûte cher, l'IA doit être entraîné et contrôlé dans le domaine où on va le faire travailler.
re: Il n'y a pas de secrets pour bien entraîner les outils informatiques, trouvé dans les
___________________
Principes de base pour entraîner un outil IA avec des textes:
"3. Faites traduire vos contenus par des natifs professionnels."
_______________
RAG pour ne pas inventer: le meilleur des 2 branches
la recherche d’informations (retrieval, qui ne génère pas de réponse originale) et la génération de contenu (qui ne s’appuie que sur les données de son apprentissage entraînement)
Ha ok, mais dans le cadre de la généalogie, ils sont certainement un peut mort les natifs.
Je vois que tu as fait un petit ajout sur le RAG, en fait le RAG, vois le plus comme une méthode d'utilisation de sources données. Quand tu as une base de données vectoriel ça permet d'interroger le modèle de façon à ce qu'il se focalise exclusivement sur ces données.
https://www.ibm.com/fr-fr/think/topics/vector-database
Par exemple en généalogie, ça pourrait être intéressent pour retrouver les filiations, ou les déplacements géographiques à un instant 'T' et j'en passe.
Bonjour,
Si tu as un abonnement chez free mobile sinon il suffit de prendre un abonnement à 2€ chez eux et d'activer les 12 mois gratuits de chez mistral AI.
Mistral c'est plus un outil qu'un LLM.
C'est son job l'OCR et le RAG et pour ne rien gâcher il y as de la doc et un discord
Vous n’avez pas trouvé la réponse que vous recherchez ?
Posez votre questionCa a l'air top et je suis ,chez Free et je m'étais inscrit à mistral ai gratuit un an§
mais je suis un peu perdu : RAG, DISCORD, LLM... Où est la doc ?
Peux-tu me dire par où commencer et en particulier comment faire pour extraire du texte (OCR) d'un jpeg ou pdf?
Merci d'avance car c'est ce que je cherche
C'est top.
Donc,
Ici tu as ton home
https://console.mistral.ai/home
Tout en bas tu va voir les doc, celle qui t’intéresse c'est ici
https://docs.mistral.ai/capabilities/document/#ocr-with-image
le liens du discord il est en bas à droite de cette même page. Je te pose quand même le lien.
Tout est expliqué dans la doc, par contre ça va te demander de te créer un petit environnement python, selon ta config tu as plusieurs choix.
Ok donc ça ne veut pas que je te réponde sur le forum ça me colle -1 d'office et ça vire mon texte lol je te MP