<C²: webløg />

Courriel - email address

Avatar Bleizig

mardi 11 novembre 2003
par Bleizig

ZePHPspamKiller 1, SpamBots 0

Les commentaires qui ont suivi le précédent carnet nous ont permis de découvrir une idée originale pour lutter contre cette plaie qui ravage toutes nos boîtes aux lettres: le spamming (pardon Denis, je voulais dire pourriel ;-)

Pour pouvoir envoyer des courriels non sollicités en masse, il faut bien sûr avoir une base de donnée d'adresses énorme et un moyen efficace pour se la constituer est d'utiliser un robot. Le robot est un simple programme informatique qui va se connecter sur une première page d'un site et récupérer les adresses de courriel postées sur ce site, il va aussi récupérer tous les liens hypertexte contenus sur cette page et récursivement se connecter sur toutes les pages pointées par ces liens et ainsi de suite. De cette manière, il est donc très facile de brasser des quantités énormes de sites en peu de temps.

Alors un jour, ZeDude s'est dit "Pourquoi pas créer une page sur mon site qui contienne plein d'adresses bidon et pointer vers cette page partout sur mon site?", ainsi quand un robot arrivera sur le site, il se connectera à coup sûr sur la liste d'adresses bidon et les sauvera toutes: au final, il aura recupéré 1001 adresses dont 1000 inutilisables. C'est ainsi que ZePHPspamKiller est né. La mise en place du système est très simple et ne vous prendra que quelques minutes :

  • Téléchargez le script générant les adresses bidon et copiez le dans un coin de votre site (en le renommant sous un nom plus anonyme genre 'contact.php' ;
  • Ajoutez sur chacune de vos pages un lien du genre <a href="scriptEmailsBidon.php" style="display:none">contact</a> qui pointera vers ce script.

J'ai mis en place ce système sur CYBERcodeur, j'espère que si beaucoup de personnes s'y mettent, ça portera ses fruits.

Bleizig | 2003.11.11 @ 22:51

Alors, qu'en pensez-vous ?

Voici ce que vous aviez à en dire... vos impressions, recueillies à vif.

2003.11.12 @ 01:45 par Jerotito

[Fabien] :
Vu pour le script, mais comment empêchera-t-on un robot 'honnête' (GoogleBot parmi *d'autres*) d'aller lire le fichier 'contact.php' ou 'tartempion.php' ?

Cela ne nécessite-t-il pas de nommer tous les robots honnêtes dans 'robots.txt' pour leur interdire l'accès de 'contact.php', ou bien y a-t-il une solution plus simple ?

J'avais le même problème avec l'autre solution déjà signalée et ai compris les risques lorsque j'ai voulu lancer une vérification automatique de la validité des liens présents suur mon site. En commençant par la page d'accueil, le vérificateur de liens est vite tombé sur la page piégée, puisque, bien évidemment, ne connaissant pas le nom sous lequel il serait reconnu dans les logs, je ne pouvais le nommer préventivement dans 'robots.txt' pour lui interdire l'indexation ou la lecture du 'piege_a_cons.php'. Ce pour quoi je me suids vu dans l'obligation de désactiver le piège au moins le temps de procéder à la vérification des liens. Un peu contraignant.

Haut retour au début de la page

2003.11.12 @ 02:37 par Elie Sloïm

Après avoir lu tous les commentaires sur le message précédent, tout ça me semble très sympathique, et bien évidemment, tout ce qui peut nuire au spam et au robots aspirateurs est bon à prendre.

En revanche, je suis un peu comme Jerotito, et avant de mettre en place une solution, je veux absolument connaître les risques.
Avant toute chose, et puisque la solution passe par une action commune, qu'il faudra sans doute relayer, je crois qu'il faudrait recenser les risques et mettre des réponses (ou des rustines ;-) en face.

A part d'éventuels problèmes d'accès pour les robots 'propres', existe t-il d'autres risques qui vous viendraient à l'esprit ?

Je préférerais le savoir avant de flinguer bètement le positionnement de ma société sur les outils de recherche (traduire : google :-)


Haut retour au début de la page

2003.11.12 @ 03:56 par Eric Daspet

Pour des liens emails le référencement ne risque rien. Maintenant le problème est tout autre.

Imaginons que on perde chaque adresse email valide dans une suite d'une centaine d'invalides. Même en divisant par 100 la rentabilité d'un envoi (qui ne doit pas être bien haute) le spam risque de rester rentable.
Envoyer des mails ne coûte rien, mais alors rien du tout. On aura beau multiplier les adresses j'ai peur que tout ce que ça engendre c'est de l'occupation sur les réseaux.

Comprendre aussi comment marchent ces générateurs :
- on n'utilise des domaines inexistants ? il suffira de la première requete DNS faite avant l'envoi pour invalider toutes les emails avec le domaine non existant.
- on utilise des domaine existant au hasard ? on vient de spammer indirectement ces domaines .. pas sûr du gain
- on utilise des domaines de spammeurs ? la plupart des spammeurs ne laissent pas leur email. Et même si c'était le cas, si la pratique se répend ils peuvent eux aussi utiliser les même listes de domaines pour ne pas prendre en compte les emails de spammeurs.


Non, malheureusement je ne vois que trois méthodes de lutte :
- coder les emails pour empecher la reconnaissance (il existe 2 ou 3 méthodes tout à fait acceptables qui marchent pour l'instant très bien)
- améliorer la répréssion et l'appareil judiciaire (voir http://minilien.com/?WwB9... )
- faire des filtres efficaces coté client (cf les filtres Mozilla par exemple)

Haut retour au début de la page

2003.11.12 @ 04:55 par Dam

Je ne suis pas sur que ce systeme soit efficace a long terme.
Ca va générer beaucoup de trafic et je ne pense pas que travailler sur beaucoup plus d'adresses mail collectées ne soit un probleme pour les spameur (spam est entré dans le dico en France il me semble) p.e. que ca le prendra plus de temps CPU mais est ce qu'il vont s'arreter pour autant. Et à la longue il vont sans doute faire comme nous, et mettre des filtres sur les URL a scanner. Résultat : retour à la case départ ....

Haut retour au début de la page

2003.11.12 @ 04:58 par Jerotito

[Éric /Ganfset] :
Merci pour la dépêche Yahoo, qui me conforte dans mon opinion que les spammeurs sont des *criminels* et méritent d'être traités comme tels. Je me trouvais bien un peu sévère dans mon jugement, mais je suis loin d'être isolé, on dirait. J'avais entendu parler de la loi italienne, mais sans plus. Quelque chose semble bouger de ce côté-là.

Nous serions peut-être bien inspirés, chacun de notre côté, de contacter nos représentants élus respectifs, pour voir quelle conscience ils peuvent avoir du problème et comment ils considèrent les auteurs d'envois non sollicités à vocation commerciale : délinquants ou criminels ?

Haut retour au début de la page

2003.11.12 @ 06:06 par CYBERcodeur

En lisant les premiers commentaires, j'ai eu peur tout à coup d'envoyer paitre notre bon ami Google et tous ses collègues moteurs de recherche, mais comme le souligne Eric, il n'en est rien puisqu'on parle d'adresses email.

Cependant, il me semble que la technique vaille quand même la peine parce que l'idée n'est pas forcément de leur offrir une bonne adresse pour chaque 100 adresses fausses, mais bien de rendre les listes qu'ils utilisent et revendent inutilisables. Si les spammeurs doivent filtrer les listes pour en extraire les adresses valides avant de les vendre (ce qui signifierait propbablement les tester par envoi massif), nous sommes déjà en train de les faire suer et cette perspective m'aide à bien débuter ma journée.

Bien sûr, faudra être vigilant pour éviter leurs prochaines astuces, mais au moins on contribuera à nuire à leur lucratif business.

Haut retour au début de la page

2003.11.12 @ 07:07 par sylozof

Est-ce que mettre ce lien vers la page bidon n'est pas un obstacle à l'accessibilité ? Parce que si on le masque sur les navigateurs graphiques avec une règle CSS, les lecteurs d'écran liront quand même le lien, et les personnes utilisant ces appareils pourraient ainsi 'tomber dans le piège' malgré elles.

Et pour empêcher la visite de son site par les bots de spammeurs, on peut utiliser l'URL-Rewriting. L'url-rew est à la base un moyen d'accéder à des pages dynamiques en tapant des urls 'tradionnelles'
Ainsi, pour cybercodeur.net, on accède actuellement à un billet par l'url suivante :
http://cybercodeur.net/we...
L'url-rew permettrait d'appeler cette même page par une url de la sorte :
http://cybercodeur.net/we...
Ensuite un fichier sur le serveur contient des règles (utilisant les expressions régulières) qui permettent de faire la 'réécriture d'url' (traduction de 'url rewriting') en détectant une telle url et en renvoyant à l'agent utilisateur la page adéquate.

Quel rapport avec les spambots ? C'est que les règles contenues dans le fichier à la base du système permettent de tester différentes variables comme le HTTP_USER_AGENT et d'interdire éventuellement l'accès aux pages. Ainsi, si on connait les le HTTP_USER_AGENT des spambots, on peut les tester dans ce fichier et interdire l'accès à notre site pour les spambots.
Si la solution est vraiment efficace (à tester), non seulement les spambots ne viennent plus tester vos adresses, mais en plus ils ne consomment plus de votre bande passante inutilement.

Plus d'infos sur l'url-rew :
http://www.webrankinfo.co...
l'url-rew pour éliminer les spambots :
http://www.webrankinfo.co...

Haut retour au début de la page

2003.11.12 @ 08:43 par Bleizig

Sylosof:
'Est-ce que mettre ce lien vers la page bidon n'est pas un obstacle à l'accessibilité ?'
J'espère que les lecteurs d'écran ne lisent pas les éléments qui sont en display:none ... à moins qu'il y ait un autre style spécial pour eux?

Merci aussi pour tes liens pour éliminer les spambots, ils tombent à point: je trouve que CYBERcodeur est soumis à un traffic suspect ces derniers temps ...

Jerotito:
http://news.zdnet.co.uk/i...
http://www.guardian.co.uk...

Dam:
'Et à la longue il vont sans doute faire comme nous, et mettre des filtres sur les URL a scanner. Résultat : retour à la case départ ....'
Tu sais c'est comme les protections informatiques, les anti virus et autre ... le combat n'est jamais fini mais ça n'empèche pas de lutter jour après jour.

Après la lecture des commentaires, je suis partagé entre l'idée de réduire l'efficacité des spammeurs et celle d'augmenter inutilement le traffic ...
Il doit bien exister des mesures quelque part pour lutter contre ce fléau dès la source. Peut-être qu'il faudrait décortiquer quelques bots et voir comment ils fonctionnent.

Haut retour au début de la page

2003.11.12 @ 10:47 par sylozof

Puisque les CSS gèrent uniquement l'apparence, ça me semblerait bizarre que les lecteurs d'écran prennent en compte la règle display:none.

Haut retour au début de la page

2003.11.12 @ 12:05 par Eric Daspet

Sylozof : la lecture est aussi une apparence. Une apparence orale et non visuelle mais une apparence tout de même.
le terme 'display' fait penser à du visuel mais est tout à fait adapté aussi à une CSS orale.

Par contre pour la réponse ça dépend des lecteurs oraux. Pour règle générale ils ne comprennent rien aux CSS.
Ceux qui sont de vulgaires lecteurs d'écran (si j'ai bien compris ce sont les plus fréquents) 'voient' ce que le navigateur affiche. Si il y a un display:none pour le media 'screen' alors ils ne le verront pas. (et oui, ils n'utilisent pas le média aureal)
Inversement ceux qui interprêtent un peu plus le code voient tout, et un display:none n'y changera rien. À priori c'est un manque d'interprétation CSS et pas une volonté.

Haut retour au début de la page

2003.11.12 @ 19:00 par Jean Lalonde

Bonjour groupe d'experts en cybercodage!

Je me suis posé la même question à ce sujet. À l'origine, la lutte contre le spam était surtout une lutte pour la protection des ressources informatiques. Aujourd'hui, la perspective est différente: 1) la ressource coûte moins cher et 2) l'utilisateur est très irrité.

Comme le disait Cybercodeur, ça peut aider à bien débuter la journée de savoir qu'on embête les spammers. Le script en question ici peut augmenter un peu leur coûts d'opération. Mais je ne crois pas qu'on gâche leur journée pour autant ;-)

Ce qu'il faut, c'est faire en sorte que leur activité rapporte moins. Pour cela, 1) sensibiliser les utilisateurs à l'importance de ne pas consommer leurs produits et 2) leur donner des outils pour faire en sorte que la tentation ne se rende plus à leur boîte postale en installant de bons filtres, 3) faire peur au spammers (locaux au moins) par l'adoption de lois avec des dents.

Haut retour au début de la page

2003.11.13 @ 00:54 par Fabrice Bonny

Je pense que c'est une très mauvaise idée! (quelle entrée en matière ;-) ). En effet, ce script augmente le nombre d'adresses collectées et va conforter le spammeur dans son idée. Cela rique même d'augmenter le nombre de robots, vu que la pertinence va baisser et qu'il faudra encore plus de collecte.

Haut retour au début de la page

2003.11.13 @ 08:31 par CYBERcodeur

En fait, mon cher Fabrice, j'aurais tendance à croire que c'est tout le contraire ! :)

Que le spammeur récolte des tonnes d'adresses supplémentaires ne me dérange pas... au contraire, cela fait particulièrement mon bonheur. Pourquoi ? Simplement parce que parmi toutes cette tonne d'adresses qu'il récoltera et qu'il s'empressera de revendre, un bon nombre sera invalide, donc inutile. Quel en sera le pourcentage ? Qu'importe, mais on l'espère toujours grandissant.

Ceux qui achètent ces listes à fort prix finiront éventuellement par se plaindre de cette situation et du manque de fiabilité de l'information qu'ils reçoivent, ce qui discréditera les spammeurs, découragera peut-être les acheteurs... et me rendra ce sourire éclatant qui faisait craquer les filles dans mes folles années débridées d'étudiant ! ;)

Haut retour au début de la page

2003.11.14 @ 03:15 par Dam

Sauf qu'il est facile de tester les adresses avant de les revendre et qu'en plus ça en augmente la valeur marchande. Et encore plus que la bande passante necessaire a mon avis

Offre speciale sur des adresses garanties réèlles : XXXX €

Dam [ceptik]

Haut retour au début de la page

Les commentaires et trackbacks sont désormais fermés. Pour toute remarque, vous pouvez toujours nous contacter.

Pisteur (Trackback)

Carnet: Faut-il piéger les robots aspirateurs d'adresses?
Extrait: Pour constituer leurs listes, les polluposteurs ont développ...
Weblog: Pourriel.ca
Traqué le: 2003.11.12 @ 18:26