Dígits i andròmines

Els humans, els millors ordinadors

E ls CAPTCHA són aquests molestos grups de lletres i xifres, alguns deformats, d'altres amb fons i colors que en dificulten la lectura, que els usuaris de la web hem de teclejar per accedir a determinades operacions. El nom respon a la sigla de Completely Automated Public Turing test to tell Computers and Humans Apart [test públic de Turing completament automatitzat per diferenciar els ordinadors dels humans], en honor a la prova creada pel matemàtic britànic Alan Turing l'any 1950, que demostra que hi ha tasques que les persones fan millor que les màquines. Una d'aquestes tasques és precisament la de reconèixer imatges.

Els CAPTCHA són un dels sistemes que hi ha per impedir que els robots informàtics facin malifetes, i asseguren que qui introdueix les dades en un formulari és una persona. Es fan servir per evitar comentaris brossa als blogs; per protegir els serveis web d'inscripcions massives que després servirien per enviar correu brossa; per neutralitzar els intents de falsejar resultats d'enquestes mitjançant votacions automàtiques; per evitar suplantacions d'identitat que proven milers de contrasenyes en pocs segons, i per ocultar dels robots recol·lectors d'adreces de correu electrònic les que figuren en pàgines web públiques.

L'estudiant guatemalenc de doctorat Luis von Ahn va crear els CAPTCHA l'any 2000 a la Universitat Carnegie Mellon de Pittsburgh i de seguida van ser adoptats per grans empreses d'internet com Yahoo! Ara els trobem en la majoria dels formularis web i són objecte d'una batalla tecnològica entre els seus creadors i els desaprensius que aspiren a saltar-se'ls, semblant a les que es lliuren entre els creadors de virus i d'antivirus i entre els emissors de correu brossa i els sistemes per detectar-lo.

Hi ha diverses alternatives als CAPTCHA gràfics: resoldre operacions matemàtiques bàsiques ("quant fan tres més dos"), respondre a una pregunta senzilla ("de quin color és el cel"), identificar un element d'una foto ("fes clic a sobre de la flor vermella") o teclejar la paraula que hem sentit. Però tots tenen alguna limitació, siguin les discapacitats visuals o auditives o la necessitat de saber idiomes. Per això el més popular és el reCAPTCHA, que el mateix Von Ahn va crear l'any 2005 a partir del seu sistema original, i en el qual es presenten dues paraules angleses deformades que l'usuari ha de teclejar per poder formalitzar l'enviament del formulari. Si alguna de les dues no es llegeix bé, hi ha un botó per demanar una altra combinació. També és accessible als invidents, que tenen la possibilitat de sentir paraules que han d'escriure. El sistema, que va ser adquirit per Google fa quatre anys, protegeix actualment més de 200.000 webs i s'estima que es fa servir 100 milions de vegades cada dia: els internautes passem 150.000 hores diàries teclejant aquests 200 milions de paraules.

La clau dels reCAPTCHA és que tot aquest temps no es perd, sinó que té una utilitat: cada vegada que emplenem un formulari -fins ara ho hem fet més de 1.000 milions d'internautes- estem ajudant a digitalitzar llibres, revistes i programes de ràdio. Les dues paraules de cada parella procedeixen d'un sistema automàtic de digitalització de pàgines de text; una d'elles, que serveix de control, ha estat reconeguda correctament, però l'altra no. Les paraules dubtoses es presenten a diversos usuaris -entre tres i deu, amb una mitjana de cinc- i el sistema adopta com a correcte el text més popular. D'aquesta manera s'assoleix un 99,5% de precisió en el conjunt del text, equivalent a la de dues persones teclejant-lo manualment i corregint després les discrepàncies, però amb un cost infinitament més baix. S'estima que, aplicant el salari mínim vigent als EUA, la feina de digitalització que els internautes fem de franc costaria 500 milions de dòlars anuals.

Per ara els principals beneficiaris són la biblioteca virtual de Google Books i el diari The New York Times : a finals del 2012 s'havien digitalitzat 30 anys de la seva hemeroteca, i s'espera acabar-la tota abans del 2014. També, a un ritme més lent, s'estan transcrivint emissions antigues de ràdio. Tot plegat, això sí, només en anglès.

Els reCAPTCHA són probablement un dels casos més massius de crowdsourcing , el treball voluntari distribuït mitjançant la xarxa. Aquesta és l'especialitat de Von Ahn, que ara té 34 anys i en el seu moment va rebutjar una oferta de feina que li va fer Bill Gates personalment. En el seu historial figura també el joc ESP , en què dues persones havien de descriure la mateixa imatge amb paraules, i que Google va fer servir per entrenar el seu sistema d'identificació de fotografies, que actualment ja treballa de manera autònoma. El nou projecte de Luis van Ahn també aplica la gamificació , l'ús dels jocs per portar a terme tasques tedioses. Es diu Duolingo i de cara a l'usuari serveix per aprendre idiomes: proposa frases de dificultat variable que s'han de traduir, i guanya la versió més popular. Al darrere, però, hi ha la seva autèntica potència: les frases procedeixen de pàgines web en fase de traducció. Diuen que un milió de persones aprenent llengües amb Duolingo trigarien només 80 hores a traduir tota la Wikipedia anglesa a un dels altres quatre idiomes que ofereix (espanyol, francès, italià i portuguès). Jo ja els he demanat que hi afegeixin el català.