Llengua
Microsites Fets i gent 18/01/2023

Per què els cercadors marginen el català a internet

Google, Yahoo, DuckDuckGo i Bing, entre d'altres, donen preferència a les versions en castellà de les pàgines, però ja busquen solució a aquesta anomalia algorítmica

6 min
Una usuària buscant a Google informació sobre l'escriptora Mercè Rodoreda.

BarcelonaLa satisfacció raonable per la presència de la llengua catalana a internet –si més no a la web– ha donat pas en els últims mesos a la frustració generalitzada entre els internautes catalanoparlants per la marginació del contingut digital en català en els resultats de les cerques web: quan una pàgina està disponible en català i en castellà, la versió catalana apareix per sota de la castellana, fins i tot subordinada, i això passa siguin quines siguin les preferències de l’usuari. El fenomen afavoreix els clics a la web en castellà, i és més visible a Google perquè és el cercador d’ús majoritari, però afecta tots els altres, de manera que tot apunta que l’origen del problema, encara no diagnosticat, podria ser en un altre lloc.

La relativa bona salut digital de la llengua catalana a la web està amenaçada per culpa d'aquest fenomen. El contingut en català continua publicant-se i s’hi pot accedir directament com sempre, però està perdent visibilitat perquè bona part dels internautes hi arribaven mitjançant consultes als cercadors web, i una incidència tècnica està fent que tant Google com altres cercadors (Bing, DuckDuckGo, Qwant...) donin preferència en els seus resultats a la versió en castellà de les webs que també en tenen una en català.

Per posar un exemple: el primer resultat de la cerca "Merce Rodoreda", així, sense accent, és l’article sobre l’escriptora a l’enciclopèdia lliure Wikipedia, però tant a Google com a Bing porta a l’edició en castellà, i només mostra l’article de la Viquipèdia en català en segon lloc. Altres cerques, incloses les de webs corporatives i d’organismes oficials, es comporten de la mateixa manera. El pitjor és que això passa fins i tot quan l’usuari ha indicat explícitament que prefereix veure primer els resultats en català mitjançant la configuració del seu dispositiu, navegador i compte personal (de Google i Microsoft, respectivament).

Per ser justos, cal dir que la marginació del català no és total, i això fa el problema encara més incomprensible. Tant a Google com a Bing, l’anomenat snippet, el requadre resum de dades que surt destacat a la dreta quan es busquen persones, empreses i topònims (noms de lloc) entre d'altres, apareix en el nostre idioma si tenim configurat així el navegador. Per altra banda, si la cerca esmentada es fa amb l’ortografia catalana correcta (Mercè, no Merce), el primer resultat orgànic de la llista és l’article viquipèdic en català. En canvi, fins i tot hi ha cerques de termes en català (xucrut) que retornen com a primer resultat pàgines en castellà que no contenen el terme que hem posat, sinó la seva traducció. I sense deixar el menjar, algunes cerques de "pollastre" proposen la definició de la paraula... al Diccionario de la Real Academia Española!

La varietat de combinacions és molt àmplia, però la situació general és que les pàgines en català tenen menys visibilitat que les seves equivalents en castellà, i això comporta que rebin menys clics. És un empitjorament respecte del passat recent, en què els catalanoparlants tècnicament declarats rebíem primer els suggeriments d’enllaços en català en cas d’haver-n’hi. Però sobretot és un problema de cara al futur, perquè amb cada clic que fem als resultats de cerca estem entrenant l’algoritme del cercador indicant-li quina pàgina de les que ens proposa ens ha interessat més. Si no és la que està en català, aquesta anirà quedant cada vegada més ensorrada.

Hi ha solució?

Tan aviat es va fer evident aquest biaix dels resultats de cerca web cap al castellà els internautes més abrandats van acusar Google de voler penalitzar el català. L’acusació no tenia cap base: és comprensible que les crítiques se centrin en el gegant nord-americà perquè canalitza la majoria de les cerques web a l’estat (un 95% al desembre) i és l’únic que coneixen la majoria dels usuaris. Però si hi ha culpables, Google no ho és en exclusiva: el mateix patró de subordinació del català al castellà es repeteix en altres cercadors: Microsoft Bing (3,2% del mercat estatal de cerca web), DuckDuckGo, Yahoo i altres.

De fet, el francès Qwant, que aspirava a ser alternativa europea a Google, ofereix un menú desplegable per acotar les cerques segons l’idioma, però a mi gairebé mai m’ha funcionat l’opció del català, que apareix com a Espanya (ca), per contraposició a Espanya (es).

Aquesta generalització de l’anomalia em va fer pensar que l’origen del problema podia ser un altre menys evident, com un canvi en els estàndards de codificació del contingut, i que els cercadors en són només les víctimes en primera instància. Per això vaig notificar el problema tant al consorci W3C –que gestiona els estàndards web i té un grup de treball específic sobre contingut multilingüe (per cert, amb comitè d’espanyol però no de català)– com a la Internet Engineering Task Force, el braç tecnològic de la Internet Society –que a més dels codis ISO d’idioma de dues (ca) i tres (cat) lletres, preveu per al català una etiqueta ca_ES per diferenciar-lo del ca_FR francès i altres variants. Els dos organismes m’han indicat que s’ho estan mirant, però encara no s’han pronunciat.

Naturalment, també vaig enviar exemples del problema a Google i els vaig preguntar si n’eren conscients i podien resoldre’l. En el seu moment, la filial espanyola em va respondre amb àmplia documentació genèrica sobre els seus esforços per oferir resultats de cerca rellevants, però no aplicable al cas que ens ocupa, en què no es respecta la preferència específica de l’usuari pel català. La mateixa documentació va arribar al departament de qualitat de cerca de la seu central de Google, però van passar alguns mesos sense tenir-ne més notícies. Afortunadament, l’actitud ha canviat en les últimes setmanes, i després d’un període en què no es donava gaire importància a una incidència amb una llengua minoritària com la nostra, em consta que a Google ja hi ha especialistes buscant el motiu de la marginació del català i la manera de corregir-la.

L'oferta no és el problema

És important subratllar que no és un problema d'oferta. La satisfacció esmentada abans sobre la presència web del català –una altra cosa són les aplicacions mòbils i els videojocs– està justificada. Els voluntaris de l’associació WICCAC (Webmàsters Independents en Català de Cultura i Àmbits Cívics) elaboren fa dues dècades un baròmetre mensual que detalla el percentatge d’ús del català en les webs de centenars d’empreses, organismes i institucions amb seu o activitat en el nostre àmbit lingüístic. La xifra, que ha anat augmentant des del 41% de l’agost del 2002 fins al 66% del desembre del 2022, varia segons el sector d’activitat i té un valor relatiu perquè no està ponderada en funció del trànsit de cada web: la pàgina d’una immobiliària local compta igual que la d’un diari digital generalista. Tot i això, el baròmetre proporciona una fotografia molt completa de la situació i facilita saber on cal concentrar els esforços de millora (espòiler: automoció, electrodomèstics, cosmètica, administració de l’estat i Íbex-35).

Un usuari teclejant al seu ordinador portàtil.

Igualment, un estudi recent de Softcatalà –un altre col·lectiu de voluntaris, els catalans som així– mostra que del mig milió de webs més populars de la xarxa n’hi ha gairebé 470 que tenen versió en català. Sis són al grup de les 1.000 primeres, set més estan entre els primers 5.000 llocs i unes altres 12 entre els primers 10.000. Algunes són previsibles, com Booking, Google, Facebook, Outlook i Twitter, però també hi ha pàgines menys conegudes i molt transitades que disposen de versió en català, com la d’escacs Lichess i la bíblica Bible.com. Val a dir que l’anàlisi s’ha fet a partir d’una font de dades inesperada: la llista de les adreces que els usuaris de Google Chrome visiten i queden guardades a la memòria cau del navegador, i que Google va acumulant i posa mensualment de manera agregada a disposició del públic. Esgarrifós per als que feu servir Chrome, però ja en parlarem un altre dia.

L’estudi de Softcatalà conclou que el català té una presència digital especialment forta en el sector públic i acadèmic. També se’n desprèn que l’existència del domini de primer nivell .cat és un senyal d’identitat: els 15 anys de treball de la Fundació puntCAT han fet que sigui la segona extensió més utilitzada per al contingut en català (141 webs de les 470) només per darrere de la .com (178 webs) a escala global i superant-la en les webs fetes aquí; en qualsevol cas, molt per sobre de la .es (40 webs). Com a curiositat, les principals webs mundials de pornografia es poden visitar en castellà, però no en català.

Tant de bo els responsables de Google no triguin a trobar el desllorigador d'aquesta distorsió, idealment abans de la pròxima actualització semestral de l’algoritme principal de cerca (core), que l’empresa sol aplicar entre maig i juliol. I, sobretot, toquem fusta perquè no descobreixin que en realitat l’algoritme ha funcionat sempre correctament i si penalitza el català és perquè els catalanoparlants no hem sigut prou persistents a l’hora d’entrenar-lo amb la nostra suposada preferència pel contingut en català. Hi estarem atents.

stats