Extraction de données dans plusieurs documents
El_Pablo
Messages postés
5
Date d'inscription
Statut
Membre
Dernière intervention
-
georges97 Messages postés 13772 Date d'inscription Statut Contributeur Dernière intervention -
georges97 Messages postés 13772 Date d'inscription Statut Contributeur Dernière intervention -
Bonjour,
J'aimerais savoir comment s'y prendre pour extraire de l'information automatiquement dans plusieurs documents PDF. L'information est pseudo-structurée à l'intérieur des documents. Je dis pseudo, car l'information principale se retrouve à peu près au même endroit dans les documents, mais avec des formulations qui peuvent différer un peu.
Plus précisément, il s'agit d'actes notariés de ventes d'immeuble dans lesquels on peut y retrouver les noms des acheteurs et vendeurs, l'adresse des immeubles, le prix de vente, etc.
Je crois que ceci s'approche du "data mining", mais est-ce vraiment le cas? Y a-t-il des logiciels que vous connaissez et qui fonctionne avec du texte en français? Y a-t-il des spécialistes d'extraction de données qui pourraient me guider?
Merci
J'aimerais savoir comment s'y prendre pour extraire de l'information automatiquement dans plusieurs documents PDF. L'information est pseudo-structurée à l'intérieur des documents. Je dis pseudo, car l'information principale se retrouve à peu près au même endroit dans les documents, mais avec des formulations qui peuvent différer un peu.
Plus précisément, il s'agit d'actes notariés de ventes d'immeuble dans lesquels on peut y retrouver les noms des acheteurs et vendeurs, l'adresse des immeubles, le prix de vente, etc.
Je crois que ceci s'approche du "data mining", mais est-ce vraiment le cas? Y a-t-il des logiciels que vous connaissez et qui fonctionne avec du texte en français? Y a-t-il des spécialistes d'extraction de données qui pourraient me guider?
Merci
A voir également:
- Extraction de données dans plusieurs documents
- Fuite données maif - Guide
- Supprimer les données de navigation - Guide
- Comment enregistrer un mail dans mes documents - Guide
- Trier des données excel - Guide
- Logiciel de classement de documents gratuit - Télécharger - Bureautique
1 réponse
Bonjour,
Le datamining met en œuvre des logiciels dédiés et et de ce fait chers. Si vous êtes à l'origine de ces documents, ou si vous pouvez demander la coopération des émetteurs, il vaudrait mieux récupérer les données à partir d'une base de données (Access ou Base de la suite gratuite Libre Office) avant de les archiver au format PDF.
Ou alors, il faudrait regarder du côté d'un langage de programmation comme python avec des méthodes dites de parsing :
https://python.doctor/page-xml-python-xpath
Vous pouvez sans doute aussi regarder du côté de logiciels comme Bullzip PDF Writer qui, dans leur descriptif, intègrent des outils de script VBA pou VBsciipt et dont l'éditeur dispose d'outils MySQL.
https://www.bullzip.com/index.php
Cordialement
Le datamining met en œuvre des logiciels dédiés et et de ce fait chers. Si vous êtes à l'origine de ces documents, ou si vous pouvez demander la coopération des émetteurs, il vaudrait mieux récupérer les données à partir d'une base de données (Access ou Base de la suite gratuite Libre Office) avant de les archiver au format PDF.
Ou alors, il faudrait regarder du côté d'un langage de programmation comme python avec des méthodes dites de parsing :
https://python.doctor/page-xml-python-xpath
Vous pouvez sans doute aussi regarder du côté de logiciels comme Bullzip PDF Writer qui, dans leur descriptif, intègrent des outils de script VBA pou VBsciipt et dont l'éditeur dispose d'outils MySQL.
https://www.bullzip.com/index.php
Cordialement