<C²: webløg />

Courriel - email address

Avatar Denis

mercredi 19 mai 2004
par Denis Boudreau

Sémantique Web et non Web sémantique

Une question sur laquelle je me penche beaucoup ces temps-ci dans le cadre des analyses de mises en conformité que je conduis concerne tout l'aspect de la sémantique Web ou, plus précisément, de la sémantique HTML dans les projets de sites Internet. Pour ceux d'entre vous qui ignorez de quoi il s'agit, je parle de l'ensemble de réflexions sur la pratique visant à utiliser le plus fidèlement possible les éléments HTML aux fins pour lesquelles ils ont été créés dans le cadre du W3C, afin de maximiser la valeur significative d'un document, tout en préservant sa valeur lorsque la présentation ne peut en être restituée pour une raison ou une autre.

Autrement dit, de la pratique de conception HTML visant à apprendre à utiliser le bon élément HTML pour adéquatement remplir le rôle pour lequel on l'utilise, comme afficher un titre ou structurer un menu de navigation par exemple. Voilà, je manque de comparaisons synonymiques.

Malheureusement, dans le cadre d'un exercice de mise en conformité ou d'analyse de performance, cette pratique s'avère beaucoup moins quantifiable que d'autres, comme par exemple, la validation automatique ou la mesure d'optimisation d'un site. À ce titre, je serais curieux de découvrir si vous connaissez des outils sur le Web capables de dresser une analyse sémantique du HTML utilisé dans les documents Web, soit un outil automatisé comme les validateurs, ou plus intelligent si possible (donc capable d'analyse contextuelle).

En fait, plus on y pense, est-ce même réaliste de rêver d'un tel outil ? Un validateur automatisé pourrait-il analyser une telle profondeur contextuelle ? À vous de me le dire...

Denis Boudreau | 2004.05.19 @ 23:57

Alors, qu'en pensez-vous ?

Voici ce que vous aviez à en dire... vos impressions, recueillies à vif.

2004.05.20 @ 03:11 par SIBELIUS

Voilà une question que je me suis déjà posée également.
A l'heure actuelle, automatiser l'analyse sémantique d'un document me paraît totalement utopique pour la simple raison que le W3C lui-même n'est pas toujours clair dans ses spécifications de balises. Certaines sont inutiles, d'autres redondantes.

Si je peux me permettre, nous sommes en-train d'en faire l'état dans un débat intéressant à propos des balises 'exotiques' comme VAR, TT, SAMP, BDO, KBD, ADDRESS et autres CODE, en passant par INS et DEL.

Si le débat vous intéresse :
http://www.alsacreations....

Haut retour au début de la page

2004.05.20 @ 03:35 par Darken

Je pense aussi que c'est un domaine où l'être humain est difficilement remplaçable.

Voici le titre de la page d'accueil sur les news Yahoo :

<td valign=middle bgcolor='#48669f'><font face=arial size=+1 color=white><b>Accueil</b></font></td>

En tant qu'être humain, je donne une note de 0/10 sur la sémantique. Mais comment un logiciel pourrait-il deviner qu'il faut un h1 ou h2 à la place ? Dur dur... Il faudrait être capable de créer des règles à partir d'appréciations humaines. En tant que programmeur ça me semble être quelques chose de difficile à réaliser.

Justement car avec du html sans utilisation appropriée de la sémantique des éléments (éléments html), on a perdu les intentions de l'auteur. Le cerveau humain peut réussir à deviner mais un algorithme... Mmh, peut-être en 2075 avec une intelligence artificielle évoluée ? :o)

Haut retour au début de la page

2004.05.20 @ 03:56 par katsoura

Personnelement je doute d'un outil 'intelligent' qui pourrait recontextualiser. Il suffit de constater les traductions médiocres apportées par les moteurs de recherche et autres.

Ce qui me fait penser à plusieurs choses. Je me souviens d'un système gratuit d'une équipe de 'professionnels' qui faisait des recherches à votre place et vous envoyait le résultat par mail dans les quelques minutes qui suivent. Ce service est payant aujourd'hui. Mais cela montre bien que rien ne vaut l'intervention humaine :-) Aussi, je me rappelle d'un projet de Google de retrouver des images par rapport à des critères. Par exemple, on lui dit 'c'est un tableau avec un soleil qui brille et un homme qui se noye dans la mer'. Le même principe pourrait être utilisé pour la musique. On enregistre un sifflotement et en fonctin du rythme il peut comparer et retrouver une chanson.

Haut retour au début de la page

2004.05.20 @ 04:06 par alex

ca me rappelle un sujet de thèse en informatique:
http://www.loria.fr/prnb....

Haut retour au début de la page

2004.05.20 @ 09:52 par Olivier

Je dirais oui, sinon ça tendrait à prouver que faire du sémantique ne sert à rien. Si un ordinateur n'est pas capable de s'y retrouver (et ça commence par une validation), pourquoi faire sémantique ? Juste pour les humains ? Ce qu'on veut, c'est créer une sorte de Matrix où plein d'agents électroniques s'échangent des infos, non (en espérant que nous les humains soyons toujours ceux qui demandent l'info au départ et la reçoivent à l'arrivée) ?
C'est juste un peu compliqué à faire, mais c'est sûrement possible. Mais ça pourrait peut-être se mesurer par un pourcentage, une tolérance, plutôt qu'un booléen disant 'c'est parfaitement sémantique/c'est pas sémantique pantoute'.

Haut retour au début de la page

2004.05.20 @ 11:51 par Yan Morin

Pour la hiérarchie des titres, il existe l'option résumé du validateur:
http://yansanmo.no-ip.org...

En regardant bien, on dirait qu'il manque un sous-titre avant 'Nos plus récents documents'.

Un validateur pourrait aussi repérer chaque balises dépréciées et produire des question sur les ces balises. Exemple:
<font face='courrier'>Il a dit...</font>
Est-ce qu'il s'agit d'une citation? (cite)
' d'un texte que le visiteur doit saisir? (kbd)
...

Ou utiliser des couples de balises souvent utilisés:
<td align='center'><b>Titre</b></td>
Est-ce qu'il s'agit d'une entête de colonne? (th)

--
Yan Morin

Haut retour au début de la page

2004.05.20 @ 14:45 par Talou

La sémantique, on imagine difficilement parvenir à grande échelle pour l'instant à la faire analyser par des machines. Certes, on approche expérimentalement d'agents artificiels capables de détecter le sens de certains trait que nous croyons humains, que ce soit dans les textes, les images ou la musique. Mais aujourd'hui, et immédiatement exploitable sur nos travaux balisés, je ne vois pas.

Par contre, si nous regardons le problème autrement...
Et d'une, peut on absolument dire que telle balise ne correspond qu'à tel type d'information ? Pas si sûr ! Je pense aux balises de définitions par exemple (<d.>) qui subissent des détournements manifestes mais efficaces : http://www.maxdesign.com.... , http://60gp.ovh.net/~ioka... ou encore http://www.blog-and-blues...
Il est impossible par conséquent d'exiger du w3c une ligne de conduite unique par balise et c'est tant mieux, parce que grâce à cette marge de maneuvre laissée, la créativité gagne du terrain dans le monde des standards.

Et de deux, est-ce un outil d'analyse (après coup), qui doit déterminer si une page est correcte sémantiquement, ou ne serait-ce pas plutôt la personne qui construit et ses outils de construction qui déterminent les balises appropriées aux informations au moment même de la conception ? La seconde solution me semble plus préférable. D'aileurs c'est un schéma dont nous sommes familiers en informatique : les bases de données sont élaborées de façon à ce que les champs créés soient en mesure de recevoir des types de données déterminés (quantité, type...). De sorte que les personnes qui entrent les enregistrements n'aient pas de confusion dans les saisies.

Voilà

Haut retour au début de la page

2004.05.20 @ 17:55 par Patrick Cormier

Moi aussi je me suis posé la même question. Mais présentement j'essaie de trouver de la doc sur la façon de bien utiliser les balises HTML.

J'ai trouvé sur le site du w3c le guide HTML Techniques for Web Content - Accessibilityhttp://www.w3.org/TR/2000....

Par exemple, contrairement à ce qu'on le retrouve pour un barre de navigation (utilisation du balisage de liste, UL et LI), eux propose de faire faire un une série de liens encadrés par la balise MAP.

En bref, c'est un bon guide pour commencer mais, je trouve qu'il n'est pas assez complet.

Aussi, je m'intéroge sur la flexibilité d'un site respectant un sémentique stricte. On dit que si on fait une page (X)HTML avec une feuille CSS, en changant seulement cette dernière on arrive à changer complètement le design. Personnelement, si on respecte une sémentique correct ( sans une utilisation demesuré des balises DIV ou autre ), il y est difficilement possible de le faire, du moin, pour le prositionnement.

Le site http://www.csszengarden.com/ et très flexible mais je trouve qu'il y a une sur-exploitation des balises DIV et SPAN.



Haut retour au début de la page

2004.05.21 @ 08:01 par Normand Lamoureux

Un des obstacles majeurs me semble lié à la notion même de sémantique. Car si je ne m'abuse, il s'agit d'identifier la nature d'un contenu au moyen d'un nom approprié.

Or l'activité de nommer suppose l'intervention de l'intelligence et de la volonté humaines (pour juger de la pertinence et de la signification des mots d'une part, et pour choisir et imposer un nom d'autre part).

Le problème, c'est que l'homme est capable de voir plusieurs significations différentes derrière un même mot... et de déterminer la bonne en fonction du contexte. On appelle ça discerner.

Tant qu'on demande à une machine de manipuler des signes qui ont un sens figé (symboles et fonctions mathématiques, nombres, opérateurs booléens, etc.), ça va. Mais dès qu'il est question de sous-peser des nuances... Les limites des traductions automatisées sont là pour le confirmer.

Est-ce à dire qu'il faut abdiquer ? Bien au contraire ! Il faut baliser intelligemment, être le plus sémantique possible, exploiter les ressources du HTML à fond et, au besoin, spécifier le sens d'une balise au moyen d'un nom qui a du sens (<div id='logo'>). Personne n'en sortira perdant.

Je dis juste qu'il ne faut pas trop attendre des machines en ce domaine. Du moins à court terme. Et que c'est dû au fait que les mots sont des signes trop complexes pour se prêter une manipulation mécanisée.

Haut retour au début de la page

2004.05.24 @ 02:59 par s t e f

Denis, pour tout te dire je n'ai jamais entendu parler d'un tel outil, mais je pense qu'on peut faire une simple démonstration pour montrer le ROI aux décideurs : afficher sans style dans Mozilla, et expliquer que c'est comme ça que ce sera rendu par un synthétiseur vocal... et que plus un site est compréhensible, linéaire si on veut, plus les handicapés l'utiliseront. Donc potentiellement le chiffre d'affaires va augmenter.

Expliquer aussi que la maintenance et le codage par les développeurs côté serveur est simplifiée, donc que ça revient moins cher en temps de développement, donc ça influe directement sur le coût.

Je ne peux pas encore le chiffrer, mais c'est le retour que j'ai des développeurs à qui mon équipe a livré les derniers paquets 'tout-sémantiques'...

Pour répondre précisément, je crois beaucoup au bon sens des développeurs côté client... je suis un grand naïf ;)

Haut retour au début de la page

2004.05.24 @ 22:40 par Denis

Et bien, nous devons être deux grands naïfs, car j'y crois aussi !

Haut retour au début de la page

Les commentaires et trackbacks sont désormais fermés. Pour toute remarque, vous pouvez toujours nous contacter.

Pisteur (Trackback)