<C²: webløg />

Courriel - email address

Avatar Denis

lundi 01 septembre 2003
par Denis Boudreau

Convertir un document PDF en HTML

Pour faire suite au petit débat que nous avons eu la semaine dernière à propos des formats PDF et HTML, j'ai découvert ce matin sur le site d'Adobe un lien permettant de convertir à la volée un document PDF en HTML, et en français s'il-vous-plait ! Quoiqu'on puisse en penser, Adobe est une de ces entreprises qui prend la question de l'accessibilité très au sérieux. Assez au sérieux du moins, pour dédier une section entière de son site à ce sujet. Il demeure encore à démontrer que l'application de conversion est elle-même accessible à quelqu'un qui pourrait en avoir besoin, mais l'effort est tout de même là pour offrir une alternative convenable. Chose certaine, les quelques documents PDFs que j'ai lancé en pâture au convertisseur sont ressortis de là tous mignons et dûment fidèles aux attentes (évidemment le code qui est généré ne valide pas, mais bon, voilà longtemps que je ne crois plus au Père Noël).

Denis Boudreau | 2003.09.01 @ 09:11

Alors, qu'en pensez-vous ?

Voici ce que vous aviez à en dire... vos impressions, recueillies à vif.

2003.09.01 @ 11:25 par Jerotito

Bien vu, Denis. Ça peut servir, moyennant des retouches automatisées ultérieures...

Haut retour au début de la page

2003.09.01 @ 14:47 par Jean-Marie

Je n'ai pas eu de très bons résultats dans le passé avec ce convertisseur dès que le document est le moindrement complexe.

Haut retour au début de la page

2003.09.01 @ 14:47 par CYBERcodeur

Effectivement, ça peut aider... reste à savoir à quel point Adobe compte investir dans la recherche et le développement afin de rendre son produit accessible et portable. Parce qu'en définitive, plus le format PDF sera ouvert et conforme aux normes à la base, plus il deviendra simple de le convertir en beau petit (x)HTML conforme par la suite.

Faudrait quand même pas oublier que si un utilisateur éprouve de la difficulté à lire un PDF au départ, il est probable qu'il éprouvera également de la difficulté à parcourir un document HTML coverti mal construit ou truffé de code propriétaire et de tag soup...

Je serais bien curieux de voir à quel point le code généré par l'application d'Adobe s'inspire de l'outil GoLive, qui est bien réputé pour servir un excellent potage HTML !!!

Haut retour au début de la page

2003.09.01 @ 17:25 par Jerotito

J'ai tenté l'expérience à partir d'un « gros » PDF sur mon site, qui était issu d'un original sous M$-Word.

Ma foi, le résultat est encourageant : poids diminué de moitié par rapport au PDF, et en examinant le code, les corrections à y apporter, même lourdes, seraient quand même bien moindres que si je souhaitais convertir mon DOC original en un HTML *correct* ce qui serait carrément fastidieux.

Je ne sais pas de quand date ce convertisseur, mais je trouve intéressants l'initiative d'Adobe et l'esprit qui semble la sous-tendre.

Haut retour au début de la page

2003.09.01 @ 19:45 par CYBERcodeur

Il serait très intéressant de voir des exemples des PDFs que vous avez essayé tous les deux, Jean-Marie et Jerotito. Y at-il des documents PDFs qui correspondent aux tests que vous avez conduits et qui sont toujours sur le Web ?

Haut retour au début de la page

2003.09.02 @ 05:25 par Jerotito

http://gatinais.free.fr/n...
(attention, 573 Ko !)

Haut retour au début de la page

2003.09.02 @ 09:39 par Olivier

O'Reilly, qui offrait ses chapitres preview en HTML, est maintenant passé au PDF.

Haut retour au début de la page

2003.09.02 @ 12:42 par CYBERcodeur

Wow, ça c'est du PDF. Vous vous imaginez essayer de trouve quelque chose la-dedans ? Après quatre ou cinq heures d'attente pour la conversion, j'ai finalement réussi à obtenir un (très long) fichier HTML correspondant au document PDF. La transposition semble bien fidèle à l'original à l'écran, mais la sauce s'est rapidement gâtée lorsque j'ai voulu en vérifier la source...

Tout d'abord, voici qui en est ressorti lorsque j'ai voulu utiliser l'extension webDeveloper pour extraire la source :

<br><b>Error converting your document : input file not available
</b><br>

Pas joli, joli et surtout, pas utile du tout. Ensuite, en faisant un source avec le clic de la droite, je réussis à récupérer la source. Super que je me dis, je la sauve en HTML et je la mets en ligne... On pourra la valider ! Vous la trouverez ici :

http://www.cybercodeur.ne...

Sauf que vous ne verrez que ceci :

Error converting your document : input file not available

Donc, si vous avez suivi, retour au point de départ. Hummm... c'est moi ou c'est pas encore au point ce truc ??? Évidemment essayer de valider ce document auprès des validateurs est un cauchemar sans nom. ;)

--------------------------------------------------------

'I was not able to extract a character encoding labeling from any of the valid sources for such information. Without encoding information it is impossible to validate the document. The sources I tried are:

* The HTTP Content-Type field.
* The XML Declaration.
* The HTML 'META' element.

And I even tried to autodetect it using the algorithm defined in Appendix F of the XML 1.0 Recommendation.

Since none of these sources yielded any usable information, I will not be able to validate this document. Sorry. Please make sure you specify the character encoding in use.'

--------------------------------------------------------

Bon, tant pis pour l'accessibilité. C'est donc dire que les gens qui peuvent lire un document HTML pourront se servir du convertisseur, mais que ceux qui en auraient réellement besoin eux, ne le pourront pas.

Haut retour au début de la page

2003.09.02 @ 13:36 par Jerotito

Il y a une astuce : le convertisseur travaille et pond un fichier access.adobe.com/perl/convertPDF.pl

Là il faut tout faire choisir
Fichier > Enregistrer sous, qui propose la dénomination suivante convertPDF.pl.html
et supprimer .pl pour sauvegarder en local sous forme d'un HTML exploitable.

Je viens de le refaire, le convertisseur a mis a peu près 10 minutes pour le réaliser (et réduire le poids de 573 Ko à 279 Ko, sans les fioritures de la couverture), et c'est visible ici : http://gatinais.free.fr/c...

Comme je l'ai dit, après il faut intervenir, mais ça reste « moins pire » que de corriger du HTML pondu par M$-Word (avec lequel le document d'origine a été saisi).

Insérer le DTD et le reste n'est pas sorcier. Après il est peut-être temps de songer à la validation.

Je te concède qu'Adobe pourrait donner des explications plus claires pour permettre d' *accéder* au service sans chercher l'astuce. ;-)

Haut retour au début de la page

2003.09.02 @ 14:12 par Jerotito

Pendant que j'y suis, j'avais complètement oublié l'existence du convertisseur PDF>HTML de Google. Mon sujet d'expérience est visible ici : http://www.google.fr/sear...

Il ne pèse que 66 Ko. Mes réserves : le fichier doit être répertorié par Google (ce qui n'est pas forcément le cas avec un document PDF rencontré sur la Toile), et en outre *je n'aime pas du tout* le code qui est produit. Mais le rendu est autrement plus fidèle à l'original qu'avec le convertisseur d'Adobe.

Haut retour au début de la page

Les commentaires et trackbacks sont désormais fermés. Pour toute remarque, vous pouvez toujours nous contacter.

Pisteur (Trackback)