Extraire texte d'un pdf

Fermé
Babou703 Messages postés 4 Date d'inscription mercredi 9 mars 2022 Statut Membre Dernière intervention 16 mars 2022 - Modifié le 14 mars 2022 à 19:32
mamiemando Messages postés 33093 Date d'inscription jeudi 12 mai 2005 Statut Modérateur Dernière intervention 4 mai 2024 - 16 mars 2022 à 11:52
Bonjour à tous,

Je suis contente d'être parmi vous. Je suis en train de travailler sur un programme de chatbot avec NLP, mais la base de donnée qu'on me donne est un pdf (c'est la constitution d'un pays) . Je dois convertir ce fichier pdf en fichier texte duquel je dois extraire les données. J'aimerais laisser seulement les articles (titre, texte).

Voici le lien vers le fichier pdf.

Déjà je vous dis un grand merci pour votre aide
A voir également:

5 réponses

yg_be Messages postés 22764 Date d'inscription lundi 9 juin 2008 Statut Contributeur Dernière intervention 7 mai 2024 1 480
10 mars 2022 à 10:09
bonjour,
as-tu essayé de copier le texte du pdf vers notepad?
0
Babou703 Messages postés 4 Date d'inscription mercredi 9 mars 2022 Statut Membre Dernière intervention 16 mars 2022
11 mars 2022 à 03:22
Oui, le pdf est déjà en notepad. J'ai envoyé le lien pdf c'est pour que vous puissiez regarder le format du fichier. Je travail sur colab
0
mamiemando Messages postés 33093 Date d'inscription jeudi 12 mai 2005 Statut Modérateur Dernière intervention 4 mai 2024 7 752
Modifié le 14 mars 2022 à 19:34
Bonjour,

Je pense que la question de yg_be est plutôt, pourquoi ne pas copier coller le pdf dans un fichier texte et faire fonctionner ton programme sur ce fichier texte. Après, plutôt que de passer par un fichier texte intermédiaire, tu peux sans doute utiliser
pdfminer
. Un exemple d'utilisation ici.

Bonne chance
0
Babou703 Messages postés 4 Date d'inscription mercredi 9 mars 2022 Statut Membre Dernière intervention 16 mars 2022
Modifié le 15 mars 2022 à 14:15
Bonjour,

Merci pour votre aide. c'est avec le fichier txt que je dois travailler, j'ai déjà convertis ce fichier en txt.
Le problème c'est que les données sont en désordre , ce que je veux c'est de laisser seulement les données importantes à savoir les articles et d'enlever les restes.
0
yg_be Messages postés 22764 Date d'inscription lundi 9 juin 2008 Statut Contributeur Dernière intervention 7 mai 2024 1 480
15 mars 2022 à 15:26
L'étape suivante est alors de déterminer des critères qui permettent de différencier les articles du reste.
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
Babou703 Messages postés 4 Date d'inscription mercredi 9 mars 2022 Statut Membre Dernière intervention 16 mars 2022
16 mars 2022 à 08:50
C'est faire un nettoyage, enlever les données qui ne sont pas très importantes et laisser seulement ceux qui sont très importants à savoir " les articles"
0
mamiemando Messages postés 33093 Date d'inscription jeudi 12 mai 2005 Statut Modérateur Dernière intervention 4 mai 2024 7 752
16 mars 2022 à 11:52
Je pense que ce que yg_be veut te dire, c'est comment peut-on au niveau du texte caractériser les sections qui concerne les articles afin d'écrire un programme qui permettra de filtrer le reste.
0