Conversion pdf avec R
Fermé
sony617
Messages postés
3
Date d'inscription
dimanche 3 septembre 2017
Statut
Membre
Dernière intervention
7 septembre 2017
-
3 sept. 2017 à 16:12
[Dal] Messages postés 6057 Date d'inscription mercredi 15 septembre 2004 Statut Contributeur Dernière intervention 17 mars 2023 - 8 sept. 2017 à 09:21
[Dal] Messages postés 6057 Date d'inscription mercredi 15 septembre 2004 Statut Contributeur Dernière intervention 17 mars 2023 - 8 sept. 2017 à 09:21
A voir également:
- Conversion pdf avec R
- Telecharger pdf - Guide
- Réduire taille pdf - Guide
- Chkdsk c /f /r - Guide
- Comment fusionner des pdf - Guide
- Modifier pdf - Guide
1 réponse
[Dal]
Messages postés
6057
Date d'inscription
mercredi 15 septembre 2004
Statut
Contributeur
Dernière intervention
17 mars 2023
1 043
Modifié le 5 sept. 2017 à 10:42
Modifié le 5 sept. 2017 à 10:42
Salut sony617,
Je ne pratique pas R, mais ta question semble être comment convertir une collection de fichiers PDF en format texte brut.
Une simple recherche https://www.google.fr/search?q=pdf2txt te donne de nombreuses suggestions d'outils, avec ou sans GUI, gratuits ou payants.
Si tu es sous linux, il y a des chances que ta distribution te donne accès à des paquets où tu vas trouver des outils open source de ce type.
Par exemple, sous Debian : https://packages.debian.org/stretch/armel/poppler-utils contient pdftotext pour l'extraction de texte en ligne de commande.
En général ces outils supposent que les données à extraire soient sous forme de texte dans le PDF et non sous forme d'image. Si tes PDF contiennent des images, tu devras utiliser des outils d'OCR.
Dal
Je ne pratique pas R, mais ta question semble être comment convertir une collection de fichiers PDF en format texte brut.
Une simple recherche https://www.google.fr/search?q=pdf2txt te donne de nombreuses suggestions d'outils, avec ou sans GUI, gratuits ou payants.
Si tu es sous linux, il y a des chances que ta distribution te donne accès à des paquets où tu vas trouver des outils open source de ce type.
Par exemple, sous Debian : https://packages.debian.org/stretch/armel/poppler-utils contient pdftotext pour l'extraction de texte en ligne de commande.
En général ces outils supposent que les données à extraire soient sous forme de texte dans le PDF et non sous forme d'image. Si tes PDF contiennent des images, tu devras utiliser des outils d'OCR.
Dal
7 sept. 2017 à 20:51
7 sept. 2017 à 21:09
https://gist.github.com/benmarwick/11333467#file-pdf-2-text-or-csv-r
8 sept. 2017 à 09:21
si cela te convient parce que l'appel à ces outils est fait à partir de R, tant mieux pour toi :-) mais ces outils externes peuvent simplement générer des fichiers texte pour toi en ligne de commande, et tu peux ensuite en faire ce que tu veux avec R.
bonne chance dans ton projet :-)