Conversion pdf avec R

Fermé
sony617 Messages postés 3 Date d'inscription dimanche 3 septembre 2017 Statut Membre Dernière intervention 7 septembre 2017 - 3 sept. 2017 à 16:12
[Dal] Messages postés 6194 Date d'inscription mercredi 15 septembre 2004 Statut Contributeur Dernière intervention 11 octobre 2024 - 8 sept. 2017 à 09:21
salut..
voila, j'ai un corpus de fichiers PDF et je dois les convertir automatiquement en format csv ou txt pour les traiter avec le logiciel de statistique R.
merci pour votre aide.
A voir également:

1 réponse

[Dal] Messages postés 6194 Date d'inscription mercredi 15 septembre 2004 Statut Contributeur Dernière intervention 11 octobre 2024 1 092
Modifié le 5 sept. 2017 à 10:42
Salut sony617,

Je ne pratique pas R, mais ta question semble être comment convertir une collection de fichiers PDF en format texte brut.

Une simple recherche https://www.google.fr/search?q=pdf2txt te donne de nombreuses suggestions d'outils, avec ou sans GUI, gratuits ou payants.

Si tu es sous linux, il y a des chances que ta distribution te donne accès à des paquets où tu vas trouver des outils open source de ce type.

Par exemple, sous Debian : https://packages.debian.org/stretch/armel/poppler-utils contient pdftotext pour l'extraction de texte en ligne de commande.

En général ces outils supposent que les données à extraire soient sous forme de texte dans le PDF et non sous forme d'image. Si tes PDF contiennent des images, tu devras utiliser des outils d'OCR.


Dal
1
sony617 Messages postés 3 Date d'inscription dimanche 3 septembre 2017 Statut Membre Dernière intervention 7 septembre 2017
7 sept. 2017 à 20:51
merci bien [Dal] pour votre aide; mais c'est pas ce que je cherche, j'ai besoin d'un nom de bibliotheque ou de routine en R qui permet l'extraction d'information d'un fichier PDF; generalement dans R; on traite aisement des fichiers de types csv ou txt.
0
sony617 Messages postés 3 Date d'inscription dimanche 3 septembre 2017 Statut Membre Dernière intervention 7 septembre 2017
7 sept. 2017 à 21:09
j'ai trouvé par hasard un code en R; je vais l'essayer pour voir ce que ça donne.
https://gist.github.com/benmarwick/11333467#file-pdf-2-text-or-csv-r
0
[Dal] Messages postés 6194 Date d'inscription mercredi 15 septembre 2004 Statut Contributeur Dernière intervention 11 octobre 2024 1 092
8 sept. 2017 à 09:21
ce script en R se contente de faire des appels au shell en appelant des programmes externes (qui ne sont pas en R) et qui doivent être installés sur la machine, dont un pdf2txt dont je parlais et tesseract pour les fonctions d'OCR que j'avais évoquées.

si cela te convient parce que l'appel à ces outils est fait à partir de R, tant mieux pour toi :-) mais ces outils externes peuvent simplement générer des fichiers texte pour toi en ligne de commande, et tu peux ensuite en faire ce que tu veux avec R.

bonne chance dans ton projet :-)
0