PDFtoHTML

Site officiel
Bookmark and Share

Comme son nom l’indique ce programme transformera vos fichiers PDF] en HTML (ou XML). La mise en page originale est restituée avec fidélité, la plupart du temps, tout comme les différents styles du texte.

Le programme est encore jeune mais il est très prometteur. Il existe une interface graphique pour Windows : PDF2HTMLgui, qui facilitera la tâche aux débutants.

Note : Si vos pdf contiennent des images, vous aurez besoin de GhostScript.

Tags: pdf html xml conversion transformation pdf2html libre Guide achat au Quotidien SoftSChool Infromatique
Ajouter des tags (séparés par des virgules ou des espaces) :
 
Attention: tous les caractères spéciaux sont interdits (sauf le .). Les tags n'apparaîtront qu'au prochain rafraichissement du cache (dans plusieurs heures).

<< Mettre à jour >>
:: lien mort :: orthographe :: nouveauté :: mise à jour ::

Vous souhaitez mettre à jour la notice ? La première chose à faire est de déterminer s'il s'agit d'une mise à jour mineure ou d'une mise à jour majeure Icone d'aide.

  • Mineure : un lien mort, des fautes d'orthographe, un lien à ajouter ou encore une petite précision.

    Veuillez renseigner les champs ci dessous :

  • Majeure : une nouvelle version avec des nouveautés, des changements majeurs.

    En cochant cette case, vous allez créer une page sur le wiki afin de mettre à jour la notice.

Commentaires

<< Poster un message >>
:: question :: précision :: avis :: commentaire :: bug ::

PDFtoHTML , le 9 août 2011 par LR (0 rép.)

Salut,

Je cherchais un utilitaire comme celui-là mais ce projet avait l’air abandonné.

Il semble qu’il ait en fait été intégré à http://poppler.freedesktop.org.

Sur ubuntu, on peut l’installer avec le paquet poppler-utils.

A+

Répondre à ce message

PDFtoHTML, quel est l’intérêt ? , le 6 octobre 2008 par Bibifri (10 rép.)

Veuillez excuser ce titre qui peut paraître provocateur, mais si on pouvait m’expliquer quel est l’intérêt de vouloir passer d’un format d’impression (c.a.d. une étape finale en principe d’un processus de création) vers un format de publication dont la vocation est d’être facilement éditable, modifiable ... éventuellement imprimable.

Je n’ai jamais été convaincu par les réponses du genre "pour pouvoir récupérer un document dont on a perdu les sources".

PDFtoHTML, quel est l’intérêt ? , le 6 octobre 2008

L’intérêt de ce logiciel est de pouvoir récupérer et facilement éditer un document dont on a perdu les sources ou dont on ne dipose pas d’une version modifiable.

Et si ce logiciel ne te convainc pas, t’es libre de ne pas l’utiliser. C’est beau le logiciel libre.

PDFtoHTML, quel est l’intérêt ? , le 6 octobre 2008 par DenisS

...ou pour mettre en ligne un document afin qu’il soit consultable facilement. Le PDF, il faut le télécharger entièrement pour pouvoir naviguer dedans. PDF2HTML scinde le PDF en plusieurs pages HTML, et crée une page d’index, facilitant la consultation directe.

PDFtoHTML, quel est l’intérêt ? , le 6 octobre 2008

@Denis S : je plussoie

PDFtoHTML, quel est l’intérêt ? , le 6 octobre 2008 par Bibifri

Qu’il me convienne ou pas n’est pas le problème, en effet chacun a la liberté de l’utiliser, ce n’était pas le sens de mon message, ne me faites pas dire ce que vous aimeriez entendre, ce que je dis suffit à m’attirer vos foudres :-) (heureusement que j’ai prévenu de ne pas s’arrêter à la lecture provocatrice et au premier degré du message, c’est comme ça que démarrent les trolls et je n’avais pas l’intention d’en démarrer un.

"dont on a perdu les sources" , "dont on ne dispose pas d’une version modifiable" ... allons ! soyons sérieux ! je ne suis toujours pas réceptif à l’argument, j’admets toutefois que PDFtoHTML dans la "trousse à outil" puisse exceptionnellement dépanner.

Derechef je me dis que le PDF étant l’étant l’étape finale d’un document et qu’il est produit par un logiciel d’édition, celui-ci doit pouvoir également servir à ce qui est pour moi un argument recevable : permettre une consultation aisée d’une partie seulement du document, sans avoir à le télécharger dans son entier. De plus cet argument-là n’est pas anonyme, c’est plus sympa :)

Il ne me parait pas "logique" de faire la démarche en sens inverse et pour tout vous avouer, c’est de l’avoir faite un jour qui m’a fait poser cette question.

J’avais rédigé (avec OOo Writer) un petit tutoriel pour une amie qui souhaitait classer avec son PC les objets de sa collection, lui avais transmis au format PDF afin qu’elle l’ait sous la main ... et seulement ensuite m’étais dit qu’il serait peut-être intéressant de le publier également au format HTML sur le site de l’association qui nous fait nous rencontrer. Heureusement je n’avais pas effacé les sources ;)

Vous pouvez rengainer les escopettes ?

Cordialement

PDFtoHTML, quel est l’intérêt ? , le 13 octobre 2008 par nicolas

heuuu et mieux indexer vos doc pdf dans google en les doublant en html c’est pas mal ca comme utilité non ?

-----> http://www.poleetic.com

PDFtoHTML, quel est l’intérêt ? , le 3 novembre 2008

Ben moi je souhaite gribouiller le contenu d’un PDF : entourer de rouge certains éléments, surligner d’autres... Mon objectif est de faire un document expliquant le contenu du PDF. Ben gràce à la conversion de ce PDF en HTML, je peux réaliser cela.

Merci beaucoup ! tonio

PDFtoHTML, quel est l’intérêt ? , le 20 novembre 2008 par michaël

Cas pratique : des cours de médecine fournis en PDF en français que l’on souhaite proposer à des étudiants ne parlant ni ne lisant le français. C’est quand même mieux de leur projeter un diaporama dans leur langue... D’où la nécessité d’accéder à nouveau à la forme source du diaporama pour l’éditer et l’adapter.

CQFD bibifri ;-)

PDFtoHTML, quel est l’intérêt ? -> Indexation , le 6 novembre 2009

Bonjour, je viens de trouver ce logiciel et espère bien qu’il marche car son usage concerne une problématique un peu spécifique mais que tout le monde comprendra : l’indexation.

En effet, pour l’instant on arrive facilement à indexer différents types de fichiers qui sont en "texte formaté", c’est à dire que l’on peut ouvrir comme un fichier texte et lire avec un programme pour en tirer des mots clefs en faisant abstraction des balises de mise en forme (ou pas si on prend les Title, h1, etc). On extrait de l’information et c’est bon.

Pour ce qui est des PDF, on ne peut le voir que comme une image et on ne peut pas lire le contenu. Si on peut le transformer en HTML et l’indexer, c’est gagné. Typiquement, j’aimerais bien pouvoir intégrer ce programme dans une chaine d’acquisition plus large.

En espérant avoir répondu à la question, bien amicalement, Laurent

PDFtoHTML, quel est l’intérêt ? , le 10 février 2010 par etmoietmoietmoi

Pourquoi reconvertir un PDF ? Un exemple concret : j’ai des cours sur PDF dont le fichier d’origine est en powerpoint. Le font de certaines diapos est sombre avec le texte en blanc. Conséquences : si je veux imprimer ça vide les cartouches d’encre inutilement. Pour lire les fichiers c’est très pénible !!!! Donc autant reconvertir les fichiers pour les modifier : changer le font et la couleur de police. Mais pour l’instant je n’ai rien trouver de satisfaisant !!

PDFtoHTML, quel est l’intérêt ? , le 7 mai 2010 par Dritzz

Bonjour,

pour répondre à cette question, j’avance un argument purement professionnel.

Mon métier consiste (grosso-modo) à effectuer des traitements informatiques sur des données de mon client afin d’en ressortir divers documents (factures, courriers ...) en divers formats (PDF, HTML, AFP ...). Cela s’appelle l’éditique.

Une partie de mon métier consiste à vérifier que les documents produits répondent bien à la demande du client. Il faut donc comparer les maquettes clients avec les documents issus du traitement de jeux de test. Un outil adobe (payant) permet de faire de la comparaison de PDF mais c’est long en terme de démarrage, lourd en ressources et la comparaison reste purement visuel ... sur plusieurs centaines de page, ça peut être très lourd.

Voilà pourquoi je me sers de pdf2html afin de récupérer mes PDF sous format XML. Il est déclenché au sein d’une application écrite en java qui se charge ensuite d’effectuer les comparaisons en fonction de divers critères. J’ai ainsi réussi, par exemple, à diminuer mon temps de travail de 4/5 jours pour 60000 productions à ... 10 minutes.

Moi je trouve ce produit excellent. Mon seul regret est que je ne trouve ni le source, ni (ce qui m’intéresse plus) une version compilée pour UNIX.

Répondre à ce message

PDFtoHTML , le 13 février 2008 par Lannigh (0 rép.)

problème !

version O.39 interface graphique gui Gs32c

tout est installé , mais ça ne marche pas ! ça me génère un fichier htm , mais à part des liens de pages inéxistantes, rien , nada,

donc voilà , y a une astuce ? pourtant j’ai créé un dossier pour que le soit disant trio magique fonctionne, j’ai bien paramétré les folders ou se trouvaient pdftohtml et gsxin32c , franchement c’est gonflant !

si quelqu’un a une idée ...

Vu que pas mal le monde galère avec ce truc , je crois que si ça marche je fais deux trois pages web pour expliquer ....

pour l’instant des heures de perdues

de plus j’ai éssayé d’autres ’ convertisseurs’ resultat dégueulasse, les images sont illisibles ( docs techniques avec photos )

merci d’avance !

Répondre à ce message

PDFtoHTML , le 12 janvier 2008 par Yvan (1 rép.)

Le lien vers le site officiel est HS (enfin le site semble avoir été revendu)

PDFtoHTML , le 13 février 2008 par Lannigh

Bon bah même problème !

version O.39 interface graphique gui Gs32c

tout est installé , mais ça ne marche pas ! ça me génère un fichier htm , mais à part des liens de pages inéxistantes, rien , nada,

donc voilà , y a une astuce ? pourtant j’ai créé un dossier pour que le soit disant trio magique fonctionne, j’ai bien paramétré les folders ou se trouvaient pdftohtml et gsxin32c , franchement c’est gonflant !

si quelqu’un a une idée ...

Vu que pas mal le monde galère avec ce truc , je crois que si ça marche je fais deux trois pages web pour expliquer ....

pour l’instant des heures de perdues

de plus j’ai éssayé d’autres ’ convertisseurs’ resultat dégueulasse, les images sont illisibles ( docs techniques avec photos )

merci d’avance !

Répondre à ce message

PDFtoHTML new release 0.39 (2006-08-03) , le 17 mai 2007 par neimen (0 rép.)

link : http://sourceforge.net/project/showfiles.php ?group_id=45839&package_id=38602&release_id=436791

-----> pdftohtml-0.39 release (sourceforge.net)

Répondre à ce message

Pas de lien actif pour le download ! , le 3 octobre 2006 par erik@ (3 rép.)

Help ! Impossible de trouver un lien pour le download.

Quelqu’un à la version PDF2HTMLgui 1.3 quelque part ?

J’ai l’impression que le site a quelque problèmes ...

Merci de votre aide.

Pas de lien actif pour le download ! , le 4 octobre 2006 par plf

Ben oui, on a ça en stock... pas très loin d’ici d’ailleurs ;-)

Lien "pour le download" -> pdf2htmlgui.zip (359 ko)

L’exécutable date d’octobre 2002, mais il s’agit bien de PDF2HTMLgui v1.3. On notera par ailleurs qu’une petite recherche sur Google apporte la réponse en 0,05 seconde environ.

Pas de lien actif pour le download ! , le 4 octobre 2006 par erik@

... On notera par ailleurs qu’une petite recherche sur Google apporte la réponse en 0,05 seconde environ.

Une recherche sur Google de "pdf2htmlgui" ne donne rien. Il fallait effectivement penser au "pdf2htmlgui.zip".

Merci de ton aide plf

ca marche pas , le 4 octobre 2006 par erik@

J’abandonne : Buggé le programme (erreur : too much caracters on line ...) Même problème avec la version 0.34 de pdfto html.

Trop perdu de temps avec ces programmes. Va falloir que je fasse ca à la main... Merci quand même pour votre aide.

Répondre à ce message

PDFtoHTML - bizzare , le 19 juillet 2006 par Lut-S (1 rép.)

Hi, je suis sous XP, j’utilise le trio magique GS, pdf2html et pdf2htmlgui et malheureusement je n’arrive pas à avoir dans les fichiers html générés les images de fond (graphisme des doc) qui quand je regarde le code doivent etre au format png mais je n’ai aucun fichier image qui est généré...

est ce que qelqu’un peut m’aider ?

PDFtoHTML - bizzare bis , le 19 juillet 2006 par Lut-S

de plus le forum de pdf2htmlgui est out of order...snif, snif, help !!!

Répondre à ce message

PDFtoHTML , le 26 juin 2006 (0 rép.)

bonjour,

j’utilise ce programme pour ouvrir de pdf et les convertir en xml pour pouvoir les lire sous Ooo. La conversion marche mais Ooo me renvoie un message d’erreur de syntaxe (comme d’ailleurs Mozilla ou IE) et ne me sort que une liste de commande xml qui bin sur n’est pas travaillable en tant que tel à moins de travailler directement en xml. Mon but serait ensuite de passer du xml à writer pour modidier les pdf.

POuvez vous m’aider.

Merci

Répondre à ce message

PDFtoHTML , le 14 juin 2006 par joubcyril (2 rép.)

Bonjour, j’ai beau avoir téléchargé la version O.38 et la version 0.36, je n’arrive pas à les installer, comment faire ? lorsque je clique sur le .exe, une fenêtre noir s’ouvre et se ferme aussitôt. C’est la seulle chose qu’il se produit.

Merci à vous si vous avez des renseignements, cyril

PDFtoHTML , le 15 juin 2006

Il faut soit utiliser une fenêtre dos et lancer le programme en mode commande ou utiliser PDF2HTMLgui

PDFtoHTML , le 16 juin 2006

Merci bien :)

Répondre à ce message

PDFtoHTML pour linux aussi... , le 5 février 2006 par Korova (1 rép.)

pdftohtml, ça marche pour linux aussi (mais en ligne de commande only...), peut-être faudrait-il changer le référencement de la rubrique (come OS seul windows est indiqué)

PDFtoHTML pour linux aussi... , le 5 février 2006 par hjs

C’est fait ! Merci de l’avoir signalé :-)

Répondre à ce message

PDFtoHTML , le 20 novembre 2005 par Plakat (0 rép.)

J’ai eu un peu de mal avec des certains fichiers pdf avec beaucoup d’images, il me semble que plus de 200 pages lui posent problème.

Comme solution : pdftk, récupérer les pages en question dans un fichier à part et retour au PDFtoHTML.

Autre chose, il y a un autre logiciel avec presque le même nom en shareware, et ... moins performant

Répondre à ce message

> PDFtoHTML , le 8 mars 2004 par Christophe (0 rép.)

Bonsoir,

La conversion pdf to html n’est a priori pas efficace, j’ai essayé sur trois fichiers et cela ne marche pas (toutes les tabulations et l’agencement de la page sont en vrac !) Ceci dit j’ai peut-être raté une marche :-)

Bravo pour l’ensemble du site...

Christophe.

Répondre à ce message

> PDFtoHTML , le 6 mars 2003 par Alain Gurly (0 rép.)

J’ai un problème curieux : les photos et images de la page se retrouvent à l’envers une fois la page convertie en HTML !! Pourquoi ? Y a-t-il une solution ?

Répondre à ce message

Informations complémentaires

Faire un don ? (défiscalisé)

Aidez-nous à atteindre notre objectif de 1080 donateurs récurrents pour assurer notre pérennité et notre développement !

Je soutiens Framasoft
pour 10€/mois

Dégooglisons Internet, l’an 2

Les services en ligne de géants tentaculaires comme Google, Apple, Facebook, Amazon ou Microsoft (GAFAM) mettent en danger nos vies numériques.

Pour cette 2e année, nous continuons le défi de vous proposer une alternative Libre, Éthique, Décentralisée et Solidaire à chacun de ces services.

Découvrez notre campagne
« Dégooglisons Internet »

Informations générales

Juste une image

Beethoven's Sixth Beethoven’s Sixth
Creative Commons BY