Reconnaître un texte sur un pdf et l'extraire en Excel

Question

Bonjour, 

Voilà j'ai une demande un peu particulière, j'espère que vous pourrai m'aider.

J'ai créé un formulaire pdf contenant des champs de renseignements.
Ce formulaire je vais l'envoyer par mail à plus de 3000 personnes et j'aimerais récupéré les données.
Pour cela si je reçoit je document rempli par mail directement par de souci, j'extrais les données via Adobe et les insère dans mon fichier Excel (cette partie la marche super bien).

Mais je vais surement aussi recevoir ces formulaire en version papier (la personne l'aura rempli et imprimé) et c'est la qu'est mon problème. J'aimerai une fois avoir scanné le document pouvoir reconnaître les champs de renseignements que j'avais déterminé auparavant et ainsi poursuivre ma méthode. Mais en essayant de scanner le document je n'arrive pas à reconnaître les différents champs de renseignements.

Je vous joint un exemple du type de formulaire que je vais envoyer.

https://www.cjoint.com/c/FIeso1dsIYz

Merci à vous

Configuration: Windows / Chrome 52.0.2743.116

Raymond PENTIER · Answer

Bonjour.

A ma connaissance, aucun logiciel d'OCR n'est en mesure d'analyser un document papier scanné et de deviner quelles sont les parties du texte qui sont des champs ! Déjà que les humains peuvent se tromper ...

georges97 · Answer

Bonjour,

Effectivement, comme Raymond, je n'ai pas connaissance d'une fonction intégrée à un logiciel d'OCR.

Par contre, je vous livre une piste : le langage de programmation Python (entre autres langages) permet de réaliser ce qu'on appelle du parsing, à savoir l'extraction de mots ou expressions d'un texte, scanné préalablement en l'occurrence. Cela est facilité par la régularité d'apparition dudit texte, que vous pourrez alors convertir au format csv pour le transférer sous Excel.

Je ne suis pas du tout spécialiste de Python ou du parsing, mais suis tombé sur un tutoriel vidéo chez Youtube, que vous devriez pouvoir retrouver facilement en combinant ces deux mots-clés.

Reste à s'initier à Python, ce qui n'est pas inutile de toutes façons.

Cordialement

C-Claire · Answer

Bonjour Fredo,

"la personne l'aura rempli et imprimé"
Si la personne renseigne le formulaire à l'aide de son clavier avant de l'imprimer et non de façon manuscrite, et si tu numérises avec reconnaissance optique de caractères, tu peux ouvrir le PDF dans Adobe Acrobat (manifestement tu as la version professionnelle), cliquer sur la commande "Préparer le formulaire" puis "Modifier le formulaire". Acrobat va tenter de détecter les champs. S'il y parvient correctement, tu pourras ensuite traiter ton formulaire comme les autres.

Si tu as la version DC, pour qu'il reconnaisse les champs, vérifie que l'option "Détecter automatiquement les champs de formulaire" est activée dans le menu Édition | Préférences | Formulaires. Avec les versions précédentes, il te pose la question si tu demandes de modifier des champs dans la commande "Formulaires".
C'est loin d'être parfait, mais c'est plutôt lié à la qualité de la reconnaissance de caractères.

Et si je peux me permettre, tu pourrais inciter les destinataires à t'envoyer le formulaire par e-mail en ajoutant un bouton d'action "Envoyer" par exemple dans lequel tu aurais paramétré ton adresse.
Cela paraît simpliste mais c'est "facilitant" et assez efficace.

Reconnaître un texte sur un pdf et l'extraire en Excel

3 réponses

Discussions similaires

Newsletters