Societat

Crida per recollir milions de veus perquè els aparells entenguin i parlin el català

Després de desenvolupar un corpus de text, el projecte Aina inicia una nova fase amb l’objectiu de crear un “diccionari” de veu

El departament de Polítiques Digitals i Territori destina 3 milions d’euros a la iniciativa

El govern llançarà demà dimecres la campanya La nostra llengua és la teva veu, emmarcada en el projecte Aina, per buscar veus que alimentin la intel·ligència artificial en llengua catalana. Així ho ha anunciat aquest dimarts el vicepresident del govern i conseller de Polítiques Digitals i Territori, Jordi Puigneró, que ha presentat la nova fase del projecte, a la qual destinarà 3 milions d’euros, al Barcelona Supercomputing Center (BSC), que lidera els treballs de recerca d’aquesta iniciativa.

L’objectiu del projecte Aina és generar el primer corpus o “diccionari” de veu del català perquè les màquines entenguin i parlin el català el català i pugui ser utilitzat al mateix nivell que el castellà o l’anglès en aplicacions basades en la intel·ligència artificial. És a dir, busca que assistents de veu com Siri o Alexa, eines de cerca com Google, els traductors automàtics o els agents conversacionals puguin utilitzar-se sense problemes en llengua catalana gràcies a un corpus massiu de dades.

Després de desenvolupar un corpus de text, ara el projecte buscar crear una base de dades amb milions de veus del català. És per això que el departament de Polítiques Digitals llançarà una campanya aquest dimecres per sumar la màxima participació dels parlants de la llengua i aconseguir duplicar la base de dades actual de veu en català, que ara és de 1.000 hores.

El corpus de veu en català es nodrirà dels continguts obtinguts a través de la la participació ciutadana a la plataforma de Common Voice de Mozilla. A través d’aquesta plataforma tothom que ho vulgui podrà llegir i enregistrar un nombre il·limitat de frases (agrupades de 5 en 5 però sense límit) per ajudar les màquines a aprendre com parlen les persones.

De moment, el perfil de veu majoritari a la plataforma de Mozilla és la d’homes d’entre 30 i 50 anys parlants de català central. Per això, la campanya convida la ciutadania de totes les edats, gèneres i procedències a “donar” la seva veu, per tal d’aconseguir la màxima diversitat de variants.

Per ensenyar els aparells tecnològics a parlar i entendre el català també es faran servir els arxius documentals de la Corporació Catalana de Mitjans Audiovisuals (CCMA) o el Consell de l’Audiovisual de Catalunya (CAC).

Aina va néixer el 2020 amb dos objectius: el de garantir que dret dels catalans “a poder-nos relacionar en català amb les màquines”, i no haver de canviar d’idioma per parlar amb una màquina o un dispositiu, i també per “generar talent en l’àmbit de l’ecosistema digital”.

Segons Puigneró, des d’aleshores s’ha creat la “columna vertebral” perquè el català pugui ser comprès i utilitzat per aplicacions d’intel·ligència artificial, però ara toca “muscular” l’eina. “Ja tenim l’esquelet. Ara el que hem de construir és la seva musculatura amb la campanya de recollida de veus, de parelles lingüístiques, amb una web que permetrà que qualsevol persona pugui ajudar Aina a aprendre el català”, ha dit el conseller de Polítiques Digitals. El vicepresident ha recordat la importància que va tenir obtenir el domini .cat el 2005 i ha situat aquest projecte al mateix nivell.

El director del BSC, Josep Maria Martorell, ha explicat que la intel·ligència artificial és com una “internet amb tres potes: algoritmes, càlcul i dades”. “Si una de les potes no és prou llarga, la cadira cau”, ha apuntat.  En el cas del català, “la pota més curta és la de les dades”, per la qual cosa la nova fase del projecte cerca recollir la major quantitat de dades possibles, sobretot de veu, perquè de text ja hi ha més volum.

La coordinadora del projecte, Marta Villegas, ha detallat que fins ara s’han reunit 1.000 hores de documents sonors –que també han de ser transcrits- i l’objectiu és augmentar aquesta xifra fins a les 2.000 hores aquest mateix 2022. Les

El projecte també es marca per aquest any l’objectiu de crear la segona versió del corpus de text del català, que ara recull 1.770 milions de paraules repartides en 95 milions de frases,  una quantitat de dades que s’han processat en 2.000 hores de processadors del superordinador MareNostrum. A partir d’ara es treballarà per aplegar tots els matisos de la llengua escrita, ja siguin variants dialectals o registres lingüístics, com ara el col·loquial, el literari o l’administratiu.



Identificar-me. Si ja sou usuari verificat, us heu d'identificar. Vull ser usuari verificat. Per escriure un comentari cal ser usuari verificat.
Nota: Per aportar comentaris al web és indispensable ser usuari verificat i acceptar les Normes de Participació.