Extraction de données dans plusieurs documents

El_Pablo Messages postés 5 Date d'inscription   Statut Membre Dernière intervention   -  
georges97 Messages postés 13772 Date d'inscription   Statut Contributeur Dernière intervention   -
Bonjour,

J'aimerais savoir comment s'y prendre pour extraire de l'information automatiquement dans plusieurs documents PDF. L'information est pseudo-structurée à l'intérieur des documents. Je dis pseudo, car l'information principale se retrouve à peu près au même endroit dans les documents, mais avec des formulations qui peuvent différer un peu.

Plus précisément, il s'agit d'actes notariés de ventes d'immeuble dans lesquels on peut y retrouver les noms des acheteurs et vendeurs, l'adresse des immeubles, le prix de vente, etc.

Je crois que ceci s'approche du "data mining", mais est-ce vraiment le cas? Y a-t-il des logiciels que vous connaissez et qui fonctionne avec du texte en français? Y a-t-il des spécialistes d'extraction de données qui pourraient me guider?

Merci


A voir également:

1 réponse

georges97 Messages postés 13772 Date d'inscription   Statut Contributeur Dernière intervention   2 650
 
Bonjour,

Le datamining met en œuvre des logiciels dédiés et et de ce fait chers. Si vous êtes à l'origine de ces documents, ou si vous pouvez demander la coopération des émetteurs, il vaudrait mieux récupérer les données à partir d'une base de données (Access ou Base de la suite gratuite Libre Office) avant de les archiver au format PDF.

Ou alors, il faudrait regarder du côté d'un langage de programmation comme python avec des méthodes dites de parsing :

https://python.doctor/page-xml-python-xpath


Vous pouvez sans doute aussi regarder du côté de logiciels comme Bullzip PDF Writer qui, dans leur descriptif, intègrent des outils de script VBA pou VBsciipt et dont l'éditeur dispose d'outils MySQL.

https://www.bullzip.com/index.php

Cordialement
0