Manipuler document pdf avec python
Fermé
cagoule
Messages postés
53
Date d'inscription
dimanche 6 juillet 2008
Statut
Membre
Dernière intervention
27 mai 2023
-
7 sept. 2021 à 01:16
yg_be Messages postés 23473 Date d'inscription lundi 9 juin 2008 Statut Contributeur Dernière intervention 18 février 2025 - 12 sept. 2021 à 14:06
yg_be Messages postés 23473 Date d'inscription lundi 9 juin 2008 Statut Contributeur Dernière intervention 18 février 2025 - 12 sept. 2021 à 14:06
A voir également:
- Manipuler document pdf avec python
- Lire le coran en français pdf - Télécharger - Histoire & Religion
- Comment compresser un document pdf - Guide
- Save as pdf - Télécharger - Bureautique
- Comment faire un pdf - Guide
- Télécharger dictionnaire larousse pdf gratuit - Télécharger - Dictionnaires & Langues
5 réponses
yg_be
Messages postés
23473
Date d'inscription
lundi 9 juin 2008
Statut
Contributeur
Dernière intervention
18 février 2025
Ambassadeur
1 568
7 sept. 2021 à 10:09
7 sept. 2021 à 10:09
bonjour,
tu n'expliques pas ton contexte. je pense qu'il serait préférable d'agir en amont, avant/pendant la création du pdf1.
que contient réellement le fichier pdf1? peux-tu y faire une recherche de texte?
comment déterminer la transition entre dossiers et entre parties?
tu n'expliques pas ton contexte. je pense qu'il serait préférable d'agir en amont, avant/pendant la création du pdf1.
que contient réellement le fichier pdf1? peux-tu y faire une recherche de texte?
comment déterminer la transition entre dossiers et entre parties?
cagoule
Messages postés
53
Date d'inscription
dimanche 6 juillet 2008
Statut
Membre
Dernière intervention
27 mai 2023
3
7 sept. 2021 à 17:02
7 sept. 2021 à 17:02
pdf1 "sort" d'une application professionnelle sur laquelle je n'ai pas la main. Il m'est livré "tel quel". Tu as bien raison d'évoquer le fait qu'il serait mieux d'agir en amont mais ce n'est pas possible du tout.
pdf1 contient des pages avec du texte et des images. Oui on peut y faire une recherche de texte.
Les premières pages des sous parties A et B contiennent des chaines de texte qui leur est propre et je pensais utiliser ces chaines pour conditionner l'ajout des pages en question.
pdf1 contient des pages avec du texte et des images. Oui on peut y faire une recherche de texte.
Les premières pages des sous parties A et B contiennent des chaines de texte qui leur est propre et je pensais utiliser ces chaines pour conditionner l'ajout des pages en question.
yg_be
Messages postés
23473
Date d'inscription
lundi 9 juin 2008
Statut
Contributeur
Dernière intervention
18 février 2025
1 568
7 sept. 2021 à 17:40
7 sept. 2021 à 17:40
Je ne vois alors aucun obstacle insurmontable.
Je n'ai jamais fait cela et j'ai fait quelques recherches sur Internet.
Ceci me semble une lecture utile: https://realpython.com/creating-modifying-pdf/#extracting-pages-from-a-pdf
Ceci un peu moins utile, mais en français: https://www.codeflow.site/fr/article/pdf-python
J'espère que tes pages ne sont pas numérotées ou que tu ne veux pas en changer la numérotation, sinon cela me semble plus ambitieux.
Je n'ai jamais fait cela et j'ai fait quelques recherches sur Internet.
Ceci me semble une lecture utile: https://realpython.com/creating-modifying-pdf/#extracting-pages-from-a-pdf
Ceci un peu moins utile, mais en français: https://www.codeflow.site/fr/article/pdf-python
J'espère que tes pages ne sont pas numérotées ou que tu ne veux pas en changer la numérotation, sinon cela me semble plus ambitieux.
Salut.
>> Auriez-vous une idée du langage qui me permettrait de créer un script qui ferait ça ?
Tout langage ayant une bibliothèque permettant de les manipuler, c'est à dire beaucoup ^^
>> Est-ce possible avec python ? Il y a un module pour ça ?
Oui, les modules les plus uistés sont pypdf2 et reportlab.
https://pypi.org/project/PyPDF2/
https://pypi.org/project/reportlab/
>> Une application déjà prête existe-t-elle ?
Qu'entends-tu par application ?
Sachant que ton besoin est assez spécifique, il va être difficile de trouver un truc tout fait répondant parfaitement à ce que tu souhaites réaliser. Travailler des fichiers pdf n'est pas ce qu'il y a de plus facile à faire, si tu n'as pas beaucoup d'expérience en python et même simplement en programmation, ça va être assez ardu mais pas impossible si tu suis quelques tutos là-dessus, évidemment ça va être long et il faudra accepter d'avoir beaucoup de déboires avant d'y arriver.
>> Auriez-vous une idée du langage qui me permettrait de créer un script qui ferait ça ?
Tout langage ayant une bibliothèque permettant de les manipuler, c'est à dire beaucoup ^^
>> Est-ce possible avec python ? Il y a un module pour ça ?
Oui, les modules les plus uistés sont pypdf2 et reportlab.
https://pypi.org/project/PyPDF2/
https://pypi.org/project/reportlab/
>> Une application déjà prête existe-t-elle ?
Qu'entends-tu par application ?
Sachant que ton besoin est assez spécifique, il va être difficile de trouver un truc tout fait répondant parfaitement à ce que tu souhaites réaliser. Travailler des fichiers pdf n'est pas ce qu'il y a de plus facile à faire, si tu n'as pas beaucoup d'expérience en python et même simplement en programmation, ça va être assez ardu mais pas impossible si tu suis quelques tutos là-dessus, évidemment ça va être long et il faudra accepter d'avoir beaucoup de déboires avant d'y arriver.
cagoule
Messages postés
53
Date d'inscription
dimanche 6 juillet 2008
Statut
Membre
Dernière intervention
27 mai 2023
3
7 sept. 2021 à 22:10
7 sept. 2021 à 22:10
Merci beaucoup pour vos réponses à tous les deux.
Les pages du pdf ne sont pas numérotées.
Je vais voir avec ces modules que vous m'indiquez.
Les pages du pdf ne sont pas numérotées.
Je vais voir avec ces modules que vous m'indiquez.
Vous n’avez pas trouvé la réponse que vous recherchez ?
Posez votre question
Voilà, j'ai réussi. Mon script fonctionne parfaitement.
J'ai utilisé PyPDF2 et pdfminer sous python3 donc.
J'ai un peu galéré avec pip au début.
Puis j'ai galéré avec un peu tout XD.
Mais enfin ça marche.
Pas évident car même si j'ai pu faire avancer les choses peu à peu , certaines parties de certaines pages restent inaccessible à mon analyse.
Un peu de jugeote et on contourne la difficulté. ;)
Merci encore à vous.
J'ai utilisé PyPDF2 et pdfminer sous python3 donc.
J'ai un peu galéré avec pip au début.
Puis j'ai galéré avec un peu tout XD.
Mais enfin ça marche.
Pas évident car même si j'ai pu faire avancer les choses peu à peu , certaines parties de certaines pages restent inaccessible à mon analyse.
Un peu de jugeote et on contourne la difficulté. ;)
Merci encore à vous.
yg_be
Messages postés
23473
Date d'inscription
lundi 9 juin 2008
Statut
Contributeur
Dernière intervention
18 février 2025
1 568
12 sept. 2021 à 14:06
12 sept. 2021 à 14:06
parfait!
peux-tu alors marquer la discussion comme résolue?
peux-tu alors marquer la discussion comme résolue?