Extraire texte d'un pdf

Babou703 Messages postés 4 Date d'inscription   Statut Membre Dernière intervention   -  
mamiemando Messages postés 33774 Date d'inscription   Statut Modérateur Dernière intervention   -
Bonjour à tous,

Je suis contente d'être parmi vous. Je suis en train de travailler sur un programme de chatbot avec NLP, mais la base de donnée qu'on me donne est un pdf (c'est la constitution d'un pays) . Je dois convertir ce fichier pdf en fichier texte duquel je dois extraire les données. J'aimerais laisser seulement les articles (titre, texte).

Voici le lien vers le fichier pdf.

Déjà je vous dis un grand merci pour votre aide
A voir également:

5 réponses

yg_be Messages postés 23541 Date d'inscription   Statut Contributeur Dernière intervention   Ambassadeur 1 584
 
bonjour,
as-tu essayé de copier le texte du pdf vers notepad?
0
Babou703 Messages postés 4 Date d'inscription   Statut Membre Dernière intervention  
 
Oui, le pdf est déjà en notepad. J'ai envoyé le lien pdf c'est pour que vous puissiez regarder le format du fichier. Je travail sur colab
0
mamiemando Messages postés 33774 Date d'inscription   Statut Modérateur Dernière intervention   7 882
 
Bonjour,

Je pense que la question de yg_be est plutôt, pourquoi ne pas copier coller le pdf dans un fichier texte et faire fonctionner ton programme sur ce fichier texte. Après, plutôt que de passer par un fichier texte intermédiaire, tu peux sans doute utiliser
pdfminer
. Un exemple d'utilisation ici.

Bonne chance
0
Babou703 Messages postés 4 Date d'inscription   Statut Membre Dernière intervention  
 
Bonjour,

Merci pour votre aide. c'est avec le fichier txt que je dois travailler, j'ai déjà convertis ce fichier en txt.
Le problème c'est que les données sont en désordre , ce que je veux c'est de laisser seulement les données importantes à savoir les articles et d'enlever les restes.
0
yg_be Messages postés 23541 Date d'inscription   Statut Contributeur Dernière intervention   1 584
 
L'étape suivante est alors de déterminer des critères qui permettent de différencier les articles du reste.
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
Babou703 Messages postés 4 Date d'inscription   Statut Membre Dernière intervention  
 
C'est faire un nettoyage, enlever les données qui ne sont pas très importantes et laisser seulement ceux qui sont très importants à savoir " les articles"
0
mamiemando Messages postés 33774 Date d'inscription   Statut Modérateur Dernière intervention   7 882
 
Je pense que ce que yg_be veut te dire, c'est comment peut-on au niveau du texte caractériser les sections qui concerne les articles afin d'écrire un programme qui permettra de filtrer le reste.
0