Reconnaître un texte sur un pdf et l'extraire en Excel
Fermé
Fredoooooo
Messages postés
41
Date d'inscription
vendredi 25 avril 2014
Statut
Membre
Dernière intervention
4 janvier 2019
-
4 sept. 2016 à 20:15
C-Claire Messages postés 4014 Date d'inscription samedi 8 novembre 2014 Statut Membre Dernière intervention 3 octobre 2016 - 5 sept. 2016 à 06:33
C-Claire Messages postés 4014 Date d'inscription samedi 8 novembre 2014 Statut Membre Dernière intervention 3 octobre 2016 - 5 sept. 2016 à 06:33
A voir également:
- Reconnaître un texte sur un pdf et l'extraire en Excel
- Lire le coran en français pdf - Télécharger - Histoire & Religion
- Comment faire un pdf - Guide
- Si et excel - Guide
- Excel cellule couleur si condition texte - Guide
- Extraire une video youtube - Guide
3 réponses
Raymond PENTIER
Messages postés
58732
Date d'inscription
lundi 13 août 2007
Statut
Contributeur
Dernière intervention
29 novembre 2024
17 247
5 sept. 2016 à 00:40
5 sept. 2016 à 00:40
Bonjour.
A ma connaissance, aucun logiciel d'OCR n'est en mesure d'analyser un document papier scanné et de deviner quelles sont les parties du texte qui sont des champs ! Déjà que les humains peuvent se tromper ...
A ma connaissance, aucun logiciel d'OCR n'est en mesure d'analyser un document papier scanné et de deviner quelles sont les parties du texte qui sont des champs ! Déjà que les humains peuvent se tromper ...
georges97
Messages postés
12601
Date d'inscription
lundi 31 janvier 2011
Statut
Contributeur
Dernière intervention
28 novembre 2024
2 419
Modifié par georges97 le 5/09/2016 à 05:29
Modifié par georges97 le 5/09/2016 à 05:29
Bonjour,
Effectivement, comme Raymond, je n'ai pas connaissance d'une fonction intégrée à un logiciel d'OCR.
Par contre, je vous livre une piste : le langage de programmation Python (entre autres langages) permet de réaliser ce qu'on appelle du parsing, à savoir l'extraction de mots ou expressions d'un texte, scanné préalablement en l'occurrence. Cela est facilité par la régularité d'apparition dudit texte, que vous pourrez alors convertir au format csv pour le transférer sous Excel.
Je ne suis pas du tout spécialiste de Python ou du parsing, mais suis tombé sur un tutoriel vidéo chez Youtube, que vous devriez pouvoir retrouver facilement en combinant ces deux mots-clés.
Reste à s'initier à Python, ce qui n'est pas inutile de toutes façons.
Cordialement
Effectivement, comme Raymond, je n'ai pas connaissance d'une fonction intégrée à un logiciel d'OCR.
Par contre, je vous livre une piste : le langage de programmation Python (entre autres langages) permet de réaliser ce qu'on appelle du parsing, à savoir l'extraction de mots ou expressions d'un texte, scanné préalablement en l'occurrence. Cela est facilité par la régularité d'apparition dudit texte, que vous pourrez alors convertir au format csv pour le transférer sous Excel.
Je ne suis pas du tout spécialiste de Python ou du parsing, mais suis tombé sur un tutoriel vidéo chez Youtube, que vous devriez pouvoir retrouver facilement en combinant ces deux mots-clés.
Reste à s'initier à Python, ce qui n'est pas inutile de toutes façons.
Cordialement
C-Claire
Messages postés
4014
Date d'inscription
samedi 8 novembre 2014
Statut
Membre
Dernière intervention
3 octobre 2016
2 234
5 sept. 2016 à 06:33
5 sept. 2016 à 06:33
Bonjour Fredo,
"la personne l'aura rempli et imprimé"
Si la personne renseigne le formulaire à l'aide de son clavier avant de l'imprimer et non de façon manuscrite, et si tu numérises avec reconnaissance optique de caractères, tu peux ouvrir le PDF dans Adobe Acrobat (manifestement tu as la version professionnelle), cliquer sur la commande "Préparer le formulaire" puis "Modifier le formulaire". Acrobat va tenter de détecter les champs. S'il y parvient correctement, tu pourras ensuite traiter ton formulaire comme les autres.
Si tu as la version DC, pour qu'il reconnaisse les champs, vérifie que l'option "Détecter automatiquement les champs de formulaire" est activée dans le menu Édition | Préférences | Formulaires. Avec les versions précédentes, il te pose la question si tu demandes de modifier des champs dans la commande "Formulaires".
C'est loin d'être parfait, mais c'est plutôt lié à la qualité de la reconnaissance de caractères.
Et si je peux me permettre, tu pourrais inciter les destinataires à t'envoyer le formulaire par e-mail en ajoutant un bouton d'action "Envoyer" par exemple dans lequel tu aurais paramétré ton adresse.
Cela paraît simpliste mais c'est "facilitant" et assez efficace.
"la personne l'aura rempli et imprimé"
Si la personne renseigne le formulaire à l'aide de son clavier avant de l'imprimer et non de façon manuscrite, et si tu numérises avec reconnaissance optique de caractères, tu peux ouvrir le PDF dans Adobe Acrobat (manifestement tu as la version professionnelle), cliquer sur la commande "Préparer le formulaire" puis "Modifier le formulaire". Acrobat va tenter de détecter les champs. S'il y parvient correctement, tu pourras ensuite traiter ton formulaire comme les autres.
Si tu as la version DC, pour qu'il reconnaisse les champs, vérifie que l'option "Détecter automatiquement les champs de formulaire" est activée dans le menu Édition | Préférences | Formulaires. Avec les versions précédentes, il te pose la question si tu demandes de modifier des champs dans la commande "Formulaires".
C'est loin d'être parfait, mais c'est plutôt lié à la qualité de la reconnaissance de caractères.
Et si je peux me permettre, tu pourrais inciter les destinataires à t'envoyer le formulaire par e-mail en ajoutant un bouton d'action "Envoyer" par exemple dans lequel tu aurais paramétré ton adresse.
Cela paraît simpliste mais c'est "facilitant" et assez efficace.