Reconnaître un texte sur un pdf et l'extraire en Excel

Fermé
Fredoooooo Messages postés 41 Date d'inscription vendredi 25 avril 2014 Statut Membre Dernière intervention 4 janvier 2019 - 4 sept. 2016 à 20:15
C-Claire Messages postés 4014 Date d'inscription samedi 8 novembre 2014 Statut Membre Dernière intervention 3 octobre 2016 - 5 sept. 2016 à 06:33
Bonjour,

Voilà j'ai une demande un peu particulière, j'espère que vous pourrai m'aider.

J'ai créé un formulaire pdf contenant des champs de renseignements.
Ce formulaire je vais l'envoyer par mail à plus de 3000 personnes et j'aimerais récupéré les données.
Pour cela si je reçoit je document rempli par mail directement par de souci, j'extrais les données via Adobe et les insère dans mon fichier Excel (cette partie la marche super bien).

Mais je vais surement aussi recevoir ces formulaire en version papier (la personne l'aura rempli et imprimé) et c'est la qu'est mon problème. J'aimerai une fois avoir scanné le document pouvoir reconnaître les champs de renseignements que j'avais déterminé auparavant et ainsi poursuivre ma méthode. Mais en essayant de scanner le document je n'arrive pas à reconnaître les différents champs de renseignements.

Je vous joint un exemple du type de formulaire que je vais envoyer.

https://www.cjoint.com/c/FIeso1dsIYz

Merci à vous

A voir également:

3 réponses

Raymond PENTIER Messages postés 58732 Date d'inscription lundi 13 août 2007 Statut Contributeur Dernière intervention 29 novembre 2024 17 247
5 sept. 2016 à 00:40
Bonjour.

A ma connaissance, aucun logiciel d'OCR n'est en mesure d'analyser un document papier scanné et de deviner quelles sont les parties du texte qui sont des champs ! Déjà que les humains peuvent se tromper ...
0
georges97 Messages postés 12601 Date d'inscription lundi 31 janvier 2011 Statut Contributeur Dernière intervention 28 novembre 2024 2 419
Modifié par georges97 le 5/09/2016 à 05:29
Bonjour,

Effectivement, comme Raymond, je n'ai pas connaissance d'une fonction intégrée à un logiciel d'OCR.

Par contre, je vous livre une piste : le langage de programmation Python (entre autres langages) permet de réaliser ce qu'on appelle du parsing, à savoir l'extraction de mots ou expressions d'un texte, scanné préalablement en l'occurrence. Cela est facilité par la régularité d'apparition dudit texte, que vous pourrez alors convertir au format csv pour le transférer sous Excel.

Je ne suis pas du tout spécialiste de Python ou du parsing, mais suis tombé sur un tutoriel vidéo chez Youtube, que vous devriez pouvoir retrouver facilement en combinant ces deux mots-clés.

Reste à s'initier à Python, ce qui n'est pas inutile de toutes façons.

Cordialement
0
C-Claire Messages postés 4014 Date d'inscription samedi 8 novembre 2014 Statut Membre Dernière intervention 3 octobre 2016 2 234
5 sept. 2016 à 06:33
Bonjour Fredo,

"la personne l'aura rempli et imprimé"
Si la personne renseigne le formulaire à l'aide de son clavier avant de l'imprimer et non de façon manuscrite, et si tu numérises avec reconnaissance optique de caractères, tu peux ouvrir le PDF dans Adobe Acrobat (manifestement tu as la version professionnelle), cliquer sur la commande "Préparer le formulaire" puis "Modifier le formulaire". Acrobat va tenter de détecter les champs. S'il y parvient correctement, tu pourras ensuite traiter ton formulaire comme les autres.

Si tu as la version DC, pour qu'il reconnaisse les champs, vérifie que l'option "Détecter automatiquement les champs de formulaire" est activée dans le menu Édition | Préférences | Formulaires. Avec les versions précédentes, il te pose la question si tu demandes de modifier des champs dans la commande "Formulaires".
C'est loin d'être parfait, mais c'est plutôt lié à la qualité de la reconnaissance de caractères.

Et si je peux me permettre, tu pourrais inciter les destinataires à t'envoyer le formulaire par e-mail en ajoutant un bouton d'action "Envoyer" par exemple dans lequel tu aurais paramétré ton adresse.
Cela paraît simpliste mais c'est "facilitant" et assez efficace.
0