Re-CAPTCHA, ou comment rendre service tout en combattant le spam

reCaptchaLogo Re-CAPTCHA est, comme son nom l’indique, un système de CAPTCHA (plus d’explications dans la suite). La différence avec les systèmes classiques est que celui-ci se sert des résultats pour faire progresser les technologies de reconnaissance d’écriture (OCR).

Heu… un système de… CAPTCHA ?

J’avoue, le nom est un peu bizarre, et pourtant je suis quasiment certain que, si vous vous êtes inscrits d’une manière ou d’une autre sur quelques sites ou forums, vous avez été confrontés à un CAPTCHA. On y est même confronté pour commenter sur certains blogs.

Les CAPTCHAs sont des “énigmes” destinées à être uniquement résolues par des humains, et pas par des ordinateurs. Leur création est partie d’un constat très simple : il faut pouvoir différencier l’humain de l’ordinateur. Par exemple, il y a quelques années, une recrudescence de messages publicitaires a défilé sur beaucoup de forums, tout simplement parce que les spammeurs avaient créé des logiciels (bots) capables de s’inscrire de façon automatique sur les forums en remplissant les champs demandés.

La plupart des CAPTCHAs se basent sur des mots très déformés pour ne pas être reconnaissables par un ordinateur, mais que le cerveau humain arrive quand même à reconnaître. On doit recopier ces mots lors de l’inscription pour prouver qu’on est humain.

Les CAPTCHAs sont des formes de tests de Turing, pour plus d’informations un petit tour sur Wikipedia s’impose :)

En quoi ça peut servir à quelque-chose d’autre, ce truc ?

Re-CAPTCHA est parti d’un autre constat simple : les technologies de reconnaissance de caractères (OCR) ne sont aujourd’hui pas assez performantes pour être utilisées sur des textes mal imprimés, ou dont l’impression s’est dégradée au fil du temps.

Ci-dessous on peut voir un exemple de phrase scannée, et de ce que l’ordinateur “comprend” (image tirée du site de Re-CAPTCHA) :

sample-ocr

Pas top, quoi :(

Et là, ils ont eu une super idée (enfin je trouve :D ) : utiliser des gens pour améliorer le procédé.

Et les gens, ils font ça gratuitement ?

Oui, parce que ça fait partie du processus d’inscription à un forum, un site communautaire, ou autre.

Re-CAPTCHA propose à l’utilisateur 2 mots, déformés et barrés pour ne pas être reconnus par un ordinateur. Les 2 mots sont tirés d’un texte où l’OCR est médiocre :

recaptcha-example

  • un des mots est un mot de contrôle, déjà connu, et sert en fait de réel CAPTCHA
  • l’autre mot est un mot que l’OCR n’arrive pas à reconnaître.

L’utilisateur doit taper les 2 mots. Ainsi le 1er mot sert de test pour savoir si l’utilisateur est humain, et le 2ème sert à aider l’OCR à s’améliorer.

En combinant les mots, et en proposant le même mot inconnu à plusieurs personnes, on finit par être sûr de son sens, et le logiciel d’OCR peut alors apprendre que ce mot s’écrit aussi comme cela.

Pas bête…

Personnellement, je trouve l’idée très sympathique. Chaque utilisateur prend 10 secondes de son temps d’inscription pour faire progresser la technique, et tout le monde est content. On peut même se servir (gratuitement) du service pour publier son adresse mail de façon protégée sur un forum, par exemple : on publie un lien qui demande de résoudre un Re-CAPTCHA avant de donner l’adresse.

Actuellement, Re-CAPTCHA est utilisé pour numériser des livres de archive.org et les vieilles éditions du New-York Times. Le site de Re-CAPTCHA estime à 60 millions le nombre de ces petites énigmes résolues par jour, soit l’équivalant de 150 000 heures de travail (quand même !). Ca en ferait des mots reconnus si tout le monde utilisait ce système…

4 réponses vers «Re-CAPTCHA, ou comment rendre service tout en combattant le spam»

  1. maud dit :

    bonne initiative. j’ignorais l’existence de ce programme ^ ^

  2. conundrum12 dit :

    Tu devrais en mettre un pour l’ajout de commentaire sur ton blog! ;)
    je n’ai rien contre CAPTCHA sauf quand j’ai du mal a lire les caractères…

  3. Tech dit :

    Si les gens qui s’occupent d’installer les plugins chez WordPress.com t’entendent… Le plugin existe déjà mais il a pas encore été installé sur la plateforme.

  4. sev dit :

    très interresant

Laisser un commentaire