Extraire le texte en gras d'un pdf

Duke_Manson Messages postés 4 Date d'inscription   Statut Membre Dernière intervention   -  
Duke_Manson Messages postés 4 Date d'inscription   Statut Membre Dernière intervention   -
Bonjour,


Je cherche une méthode qui me permettrait d'extraire le texte se trouvant en gras dans un pdf (non protégé). Je ne suis pas un as de la programmation, je sais bricoler un peu les regex, mais je n'ai vraiment rien trouvé.

Quelqu'un pourrait-il m'aider?
A voir également:

4 réponses

Raymond PENTIER Messages postés 58991 Date d'inscription   Statut Contributeur Dernière intervention   17 355
 
Oui : Copier-coller ! C'est l'unique méthode ...
1
Duke_Manson Messages postés 4 Date d'inscription   Statut Membre Dernière intervention  
 
Merci, mais cela ne m'aide pas.
0
contrariness Messages postés 21229 Date d'inscription   Statut Membre Dernière intervention   6 183
 
C'est pourtant une methode qui marche..

Mais, au collage, conserver les polices et le style sont fonction des possibilites du logiciel dans lequel vous faites la copie, et si la police de caractere utilisee dans le PDF est egalement dispo sur le poste de travail.
0
Raymond PENTIER Messages postés 58991 Date d'inscription   Statut Contributeur Dernière intervention   17 355
 
Je t'ai indiqué l'unique méthode que je connaisse.
Si tu tiens à ce que quelqu'un t'en propose une, attend patiemment ...
Si tu sais qu'il en existe, continue à chercher tous azimuts, partout ...
0
Duke_Manson Messages postés 4 Date d'inscription   Statut Membre Dernière intervention  
 
Je me suis peut-être mal exprimé alors.

Copier/coller, je pense que personne n'a besoin d'aide pour faire cela.

Dans mon cas c'est plusieurs dizaines de milliers d`éléments que je voudrais extraire, il est impensable que je fasse cela à la main. Je cherche un méthode qui permettrait de faire cela automatiquement.
0
contrariness Messages postés 21229 Date d'inscription   Statut Membre Dernière intervention   6 183
 
J'ai bien peur qu'il ne soit pas possible de faire cela de facon automatique....

Le format PDF est en fait un langage de programmation qui permet la description d'une page. Chaque page est decrite par rapport au point de reference en bas a gauche. C'est une evolution du langage postscript (dont il reprend certaines instructions).

Ce principe empeche la selection simultanee de texte ou d'objet dans plusieurs pages a la fois.
Certains outils specifiques (Pitstop, OneVision) permettent la selection simultanee, mais uniquement a l'interieur de la page, et la copie se faisant sous forme d'objet (et non pas de texte) coller dans un autre logiciel n'est pas possible. On reste bride a la modification a l'interieur du document (coller dans un autre fichier PDF n'est egalement pas possible).

Pour recuperer du texte, le copier/coller est encore la meilleur solution, Dans le cas ou se sont des objets, on peut supprimer les texte et re-importer les pages modifiees dans un soft de mise en page.

Ca prend du temps, mais un graphiste ne travaille pas gratuitement... le client doit le comprendre.
0
Duke_Manson Messages postés 4 Date d'inscription   Statut Membre Dernière intervention   > contrariness Messages postés 21229 Date d'inscription   Statut Membre Dernière intervention  
 
Merci pour cette réponse détaillée (dont certains détails sont bien au-dessus de mes compétences).

J'ai tenté le c/c dans un traitement de texte ; j'ai en effet une erreur liée à la police mais à ce que je comprends c'est que le fichier d'origine a un défaut. Je vais essayer de me débrouiller autrement, ou comme je peux.

Merci à tous de votre aide.
0