Es busquen mestres de català per a l'Alexa i la Siri

Aquest dimecres engega la campanya 'La nostra llengua, la teva veu' per recollir veus d’arreu del territori de parla catalana i, així, disposar d’un banc de dades d’ús públic que sigui atractiu per a les empreses

4 min
Superordinador MareNostrum, del Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS), al recinte de la capella de Torre Girona.

BarcelonaEs busquen mestres per ensenyar les noves tecnologies a entendre i parlar la llengua catalana. No caldrà que hagin estudiat filologia, ni tan sols que es dediquin a la docència. Qualsevol persona, parli el dialecte que parli, pot ser-ho. L’únic requisit és que sàpiga parlar i llegir el català. I com més varietat i riquesa lingüística, millor. El Govern de la Generalitat, amb la col·laboració del Barcelona Supercomputing Center (BSC), engega dimecres la campanya La nostra llengua, la teva veu per recollir veus d’arreu del territori de parla catalana i, així, disposar d’un banc de dades d’ús públic que sigui atractiu per a les empreses que desenvolupen aplicacions, assistents de veu o traductors automàtics. L'objectiu: tenir un diccionari oral i virtual íntegrament en llengua catalana per aconseguir que assistents virtuals com l’Alexa o la Siri no només entenguin i responguin en català per escrit, com fins ara, sinó que també el parlin de manera coherent. Per exemple, fer que els dispositius siguin capaços de distingir els diferents significats de la paraula “banc” en els diferents contextos en què es fa servir o perfeccionar els motors actuals de traducció català-castellà, claus per a fomentar el coneixement i l'ús d'una llengua.

Aquesta iniciativa forma part de l’AINA, un dels projectes estrella de la Generalitat per a l’impuls del català també en l’era digital i per fer-lo competitiu en un sector majoritàriament dominat per idiomes globals com l’anglès o el castellà. “És una qüestió de drets. Els catalanoparlants tenim dret de relacionar-nos en català i que no calgui que allò tan malauradament quotidià a la vida real com canviar la llengua en una conversa no ens hagi de passar també amb les màquines”, ha explicat el vicepresident del Govern i conseller de Polítiques Digitals i Territori, Jordi Puigneró. El nom del projecte ret homenatge a la filòloga menorquina i activista de la normalització de la llengua catalana Aina Moll (1930-2019), la primera directora general de Política Lingüística de Catalunya entre els anys 1980 i 1988. A més, les dues primeres lletres també coincideixen amb l’acrònim d’intel·ligència artificial en anglès (IA), la tecnologia a partir de la qual interaccionen les persones. 

L'AINA va néixer l'any 2020 i, des d'aleshores, ha conegut la sintaxi del català, que és la columna vertebral de la llengua i ha après 1.700 milions de paraules i 95 milions de frases escrites, que s’han obtingut a base de descarregar textos de diferents fonts digitals en català. Però la prioritat és fer que ara també entengui el lèxic i la semàntic, és a dir les paraules i el seu significat, en el seu context -àmbits concrets com el de la salut o el jurídic- i el seu registre -col·loquial, literari o administratiu-. “Hem de dotar-la de múscul i aquest és el pas que farem amb la recollida de veus”, ha explicat la responsable de la Unitat de Mineria de Textos del BSC i coordinadora del projecte AINA, Marta Villegas. L’objectiu del projecte, però, no és crear aplicacions en català d’origen públic, sinó proporcionar a la indústria el volum suficient de dades per poder-les fer, i que només l’administració pot garantir. “Si nosaltres no cuidem del català, si no fem aquest sobreesforç per al sector digital, ningú més ho farà”, ha afirmat Puigneró, que ha admès que, més endavant, i sense concretar dates, la idea del Govern és disposar d’eines pròpies en català.

Per fer aquest salt, primer cal que les grans empreses tecnològiques, però també les pimes i els emprenedors, vulguin desenvolupar els recursos digitals en català, una llengua que cada vegada té menys parlants. I per convèncer el sector que cal “situar el català en el mapa digital”, calen milions de dades, milions i milions d’hores de veu en català de persones de tots els gèneres, edats, varietats dialectals i registres. La Generalitat destinarà 13,5 milions d’euros a la creació d’aquest diccionari i les primeres passes per disposar del diccionari s’estan fent amb l’enregistrament de les sessions al Parlament i els canals de YouTube amb subtítols.

Amb tot, la peça clau serà la participació de la ciutadania, que ho podrà fer a través de la iniciativa de Common Voice de Mozilla pel català. En aquesta plataforma, tothom que ho vulgui podrà llegir i enregistrar un nombre il·limitat de frases (agrupades de 5 en 5 però sense límit) o validar els àudios fets per altres persones. I tot i que aquesta col·laboració es pot fer de manera totalment anònima, conèixer els paràmetres de gènere, edat i variant dialectal de la persona “donant” facilita molt la feina de classificar les dades de veu obtingudes i, alhora, permet saber si s’està contemplant tota la diversitat lingüística del català. Els interessats poden apuntar-se en el següent enllaç.

L'obtenció d'aquest volum i concreció de dades és especialment difícil per a les llengües minoritàries. Des del 2020, s’han generat 10 gigabytes de dades textuals en llengua catalana, però cal tenir en compte que el diccionari anglès n’ocupa 825 i el castellà, 560. A més, fins ara, la majoria del big data -els conjunts de dades massives s’anomenen corpus- en català és escrit. Per això, el Govern demana ajuda a la població perquè s’enregistri llegint frases que puguin fer-se servir després per ensenyar les màquines a entendre el català, incorporar-lo i fer-lo servir intuïtivament. “AINA ve per conquerir nous territoris i aquests passen inevitablement per les noves plataformes”, ha insistit Puigneró.

stats