Convertir PDF en html

Résolu
Utilisateur anonyme -  
 Utilisateur anonyme -
Bonsoir,
jusqu'ici je réussissais à convertir de l'html en pdf avec htmldoc
là je cherche à convertir des fichiers pdf en html avec pdftohtml

mais je rencontre quelques soucis que je ne sais pas interprêter :
la commande pdftohtml fichier pdf fichier html marche mais me renvoie 3 fichiers html éparpillés
-fichier.html
-fichier ind.html
-fichiers.html

mais quand je choisis des options :
pdftohtml -f -l fichier.pdf fichier.html
ou encore
pdftohtml -f1 -l2 fichier.pdf fichier.html

à chaque fois j'obtiens le truc habituel
Usage: pdftohtml [options] <PDF-file> [<html-file> <xml-file>] et les options à choisir

j'ai essayé plusieurs options, mais aucun résultat.
Quest-ce qui ne va pas, pouvez vous m'aider?
merci
A voir également:

9 réponses

lami20j Messages postés 21331 Date d'inscription   Statut Modérateur, Contributeur sécurité Dernière intervention   3 570
 
Re,

D'après ce que j'ai vu

-fichier.html contient des FRAMEs
-fichier ind.html contient le sommaire (les pages)
-fichiers.html contient le contenu des pages
1
lami20j Messages postés 21331 Date d'inscription   Statut Modérateur, Contributeur sécurité Dernière intervention   3 570
 
Salut,

Il y a un espace après -f

Donc -f 1 et pas f1

0
lami20j Messages postés 21331 Date d'inscription   Statut Modérateur, Contributeur sécurité Dernière intervention   3 570
 
Re,

Dans man pdftohtml
       -f <int>
              first page to print

       -l <int>
              last page to print
Donc
au lieu de -f1 -l2 mets
-f 1 -l 2
0
Utilisateur anonyme
 
merci Lami20j pour ta réponse.
Effectivement j'ai oublié l'espace mais je me retrouve toujours avec 3 fichiers html
Ca ne devrait pas?
0
lami20j Messages postés 21331 Date d'inscription   Statut Modérateur, Contributeur sécurité Dernière intervention   3 570
 
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
Utilisateur anonyme
 
Bonjour,
bien entendu, mais existe t-il un moyen plus simple de réunir au moins le sommaire et contenu avec la commande pdftohtml et cela en un seul fichier?
j'ai été obligée en attendant de faire un copier coller du contenu du pdf pour le coller dans opennoffice en un fichier txt...
merci!
0
jipicy Messages postés 40842 Date d'inscription   Statut Modérateur Dernière intervention   4 896
 
As-tu essayé de réunir les trois fichiers avec "cat" après leur conversion :
pdftohtml fichier.pdf sortie.html && cat *.html > sortie_finale.html
0
lami20j Messages postés 21331 Date d'inscription   Statut Modérateur, Contributeur sécurité Dernière intervention   3 570 > jipicy Messages postés 40842 Date d'inscription   Statut Modérateur Dernière intervention  
 
Salut,

Un fichier contient des frames, je ne penche pas trop sur la concatenation.
En revanche il peut avoir (c'est maintenant que je pense) une solution sed/awk/perl pour obtenir un seul fichier.
Il faut que tu fasses un test pour voir.
Je n'ai pas des moyens pour tester ;-)
0
lami20j Messages postés 21331 Date d'inscription   Statut Modérateur, Contributeur sécurité Dernière intervention   3 570
 
Salut,

Il y a des moyens pour faire la conversion en ligne.
En ce qui concerne la commande pdftohtml, je ne sais pas.
0
lami20j Messages postés 21331 Date d'inscription   Statut Modérateur, Contributeur sécurité Dernière intervention   3 570
 
Re,

Tu peux obtenir un seul fichier html comme ça par exemple
 pdftohtml -f 1 -l 2 -stdout fichier.pdf > test.html      
0
lami20j Messages postés 21331 Date d'inscription   Statut Modérateur, Contributeur sécurité Dernière intervention   3 570
 
Re,

Je doit être aveugle ;-)
man pdftohtml
       -noframes
              generate no frames. Not supported in complex output mode.


Maintenant on obtiens un seul fichier
pdftohtml -f 1 -l 2 -noframes fichier.pdf  fichier.html

0
Utilisateur anonyme
 
Bonsoir,
c'est moi qui suis aveugle! merci de votre aide
je n'avais franchement pas capté : génère pas de cadres. Non prise en charge en mode de sortie complexes. Ca ne m'a pas parlé plus que ça ;)

Par contre, volontairement je n'ai pas mis l'option -i - ignore images et les images ont quand même été ignorées.
Mais c'est un résolu, un grand merci!
0