Reconnaître un texte sur un pdf et l'extraire en Excel
Fredoooooo
Messages postés
41
Date d'inscription
Statut
Membre
Dernière intervention
-
C-Claire Messages postés 4014 Date d'inscription Statut Membre Dernière intervention -
C-Claire Messages postés 4014 Date d'inscription Statut Membre Dernière intervention -
Bonjour,
Voilà j'ai une demande un peu particulière, j'espère que vous pourrai m'aider.
J'ai créé un formulaire pdf contenant des champs de renseignements.
Ce formulaire je vais l'envoyer par mail à plus de 3000 personnes et j'aimerais récupéré les données.
Pour cela si je reçoit je document rempli par mail directement par de souci, j'extrais les données via Adobe et les insère dans mon fichier Excel (cette partie la marche super bien).
Mais je vais surement aussi recevoir ces formulaire en version papier (la personne l'aura rempli et imprimé) et c'est la qu'est mon problème. J'aimerai une fois avoir scanné le document pouvoir reconnaître les champs de renseignements que j'avais déterminé auparavant et ainsi poursuivre ma méthode. Mais en essayant de scanner le document je n'arrive pas à reconnaître les différents champs de renseignements.
Je vous joint un exemple du type de formulaire que je vais envoyer.
https://www.cjoint.com/c/FIeso1dsIYz
Merci à vous
Voilà j'ai une demande un peu particulière, j'espère que vous pourrai m'aider.
J'ai créé un formulaire pdf contenant des champs de renseignements.
Ce formulaire je vais l'envoyer par mail à plus de 3000 personnes et j'aimerais récupéré les données.
Pour cela si je reçoit je document rempli par mail directement par de souci, j'extrais les données via Adobe et les insère dans mon fichier Excel (cette partie la marche super bien).
Mais je vais surement aussi recevoir ces formulaire en version papier (la personne l'aura rempli et imprimé) et c'est la qu'est mon problème. J'aimerai une fois avoir scanné le document pouvoir reconnaître les champs de renseignements que j'avais déterminé auparavant et ainsi poursuivre ma méthode. Mais en essayant de scanner le document je n'arrive pas à reconnaître les différents champs de renseignements.
Je vous joint un exemple du type de formulaire que je vais envoyer.
https://www.cjoint.com/c/FIeso1dsIYz
Merci à vous
A voir également:
- Reconnaître un texte sur un pdf et l'extraire en Excel
- Lire le coran en français pdf - Télécharger - Histoire & Religion
- Word et excel gratuit - Guide
- Extraire une video youtube - Guide
- Excel cellule couleur si condition texte - Guide
- Liste déroulante excel - Guide
3 réponses
Bonjour.
A ma connaissance, aucun logiciel d'OCR n'est en mesure d'analyser un document papier scanné et de deviner quelles sont les parties du texte qui sont des champs ! Déjà que les humains peuvent se tromper ...
A ma connaissance, aucun logiciel d'OCR n'est en mesure d'analyser un document papier scanné et de deviner quelles sont les parties du texte qui sont des champs ! Déjà que les humains peuvent se tromper ...
Bonjour,
Effectivement, comme Raymond, je n'ai pas connaissance d'une fonction intégrée à un logiciel d'OCR.
Par contre, je vous livre une piste : le langage de programmation Python (entre autres langages) permet de réaliser ce qu'on appelle du parsing, à savoir l'extraction de mots ou expressions d'un texte, scanné préalablement en l'occurrence. Cela est facilité par la régularité d'apparition dudit texte, que vous pourrez alors convertir au format csv pour le transférer sous Excel.
Je ne suis pas du tout spécialiste de Python ou du parsing, mais suis tombé sur un tutoriel vidéo chez Youtube, que vous devriez pouvoir retrouver facilement en combinant ces deux mots-clés.
Reste à s'initier à Python, ce qui n'est pas inutile de toutes façons.
Cordialement
Effectivement, comme Raymond, je n'ai pas connaissance d'une fonction intégrée à un logiciel d'OCR.
Par contre, je vous livre une piste : le langage de programmation Python (entre autres langages) permet de réaliser ce qu'on appelle du parsing, à savoir l'extraction de mots ou expressions d'un texte, scanné préalablement en l'occurrence. Cela est facilité par la régularité d'apparition dudit texte, que vous pourrez alors convertir au format csv pour le transférer sous Excel.
Je ne suis pas du tout spécialiste de Python ou du parsing, mais suis tombé sur un tutoriel vidéo chez Youtube, que vous devriez pouvoir retrouver facilement en combinant ces deux mots-clés.
Reste à s'initier à Python, ce qui n'est pas inutile de toutes façons.
Cordialement
Bonjour Fredo,
"la personne l'aura rempli et imprimé"
Si la personne renseigne le formulaire à l'aide de son clavier avant de l'imprimer et non de façon manuscrite, et si tu numérises avec reconnaissance optique de caractères, tu peux ouvrir le PDF dans Adobe Acrobat (manifestement tu as la version professionnelle), cliquer sur la commande "Préparer le formulaire" puis "Modifier le formulaire". Acrobat va tenter de détecter les champs. S'il y parvient correctement, tu pourras ensuite traiter ton formulaire comme les autres.
Si tu as la version DC, pour qu'il reconnaisse les champs, vérifie que l'option "Détecter automatiquement les champs de formulaire" est activée dans le menu Édition | Préférences | Formulaires. Avec les versions précédentes, il te pose la question si tu demandes de modifier des champs dans la commande "Formulaires".
C'est loin d'être parfait, mais c'est plutôt lié à la qualité de la reconnaissance de caractères.
Et si je peux me permettre, tu pourrais inciter les destinataires à t'envoyer le formulaire par e-mail en ajoutant un bouton d'action "Envoyer" par exemple dans lequel tu aurais paramétré ton adresse.
Cela paraît simpliste mais c'est "facilitant" et assez efficace.
"la personne l'aura rempli et imprimé"
Si la personne renseigne le formulaire à l'aide de son clavier avant de l'imprimer et non de façon manuscrite, et si tu numérises avec reconnaissance optique de caractères, tu peux ouvrir le PDF dans Adobe Acrobat (manifestement tu as la version professionnelle), cliquer sur la commande "Préparer le formulaire" puis "Modifier le formulaire". Acrobat va tenter de détecter les champs. S'il y parvient correctement, tu pourras ensuite traiter ton formulaire comme les autres.
Si tu as la version DC, pour qu'il reconnaisse les champs, vérifie que l'option "Détecter automatiquement les champs de formulaire" est activée dans le menu Édition | Préférences | Formulaires. Avec les versions précédentes, il te pose la question si tu demandes de modifier des champs dans la commande "Formulaires".
C'est loin d'être parfait, mais c'est plutôt lié à la qualité de la reconnaissance de caractères.
Et si je peux me permettre, tu pourrais inciter les destinataires à t'envoyer le formulaire par e-mail en ajoutant un bouton d'action "Envoyer" par exemple dans lequel tu aurais paramétré ton adresse.
Cela paraît simpliste mais c'est "facilitant" et assez efficace.