Campus NPLD Coppieters: Softcatalà demana a les institucions públiques catalanes que alliberin dades i models sota llicències lliures

Ds, 16/11/2024 - 10:26

El dia 14 de novembre, el nostre company Jordi Mas va participar en el campus NPLD Coppieters a l’Institut d’Estudis Catalans, centrat en la diversitat lingüística d’Europa.

Jordi Mas al campus NPLD Coppieters, celebrat a a l’Institut d’Estudis Catalans.

Mas va fer una xerrada per explicar què és el codi lliure i presentar els diferents serveis de Softcatalà. A part dels serveis que ofereix l’associació, en la xerrada es van explicar algunes iniciatives de projectes lliures que han prosperat gràcies a la implicació del voluntariat:

  • La primera, prou coneguda, va ser la Viquipèdia, el projecte d’enciclopèdia lliure de Wikimedia que ja té més de 750.000 articles. Damunt de la utilitat que té per als usuaris, també serveix per a alimentar les intel·ligències artificials. Un altre dels projectes de Wikimedia és Wikidata, una base de dades que estructura una quantitat ingent de dades (més de cent milions d’entitats descrites) i que permet fer cerques semàntiques.
  • La segona fou Common Voice, que pretén crear una base de dades amb veus humanes. Pel que fa a la vessant catalana del projecte, hi han confluït diferents organitzacions catalanes, com ara la Secretaria de Política Lingüística, el Projecte Aina, Òmnium Cultural o Plataforma per la Llengua.
  • Jordi Mas també va parlar d’OpenStreetMap: es tracta d’un projecte internacional de cartografia col·laborativa, i ha estat fonamental en la toponímia de les regions de parla catalana. Gràcies a aquesta iniciativa, per exemple, moltes de les aplicacions de mapes que fem servir habitualment han pogut incorporar la toponímia catalana oficial.
  • El Projecte Ce Trencada té com a objectiu normalitzar la presència del català en els videojocs, un món molt complex on, a poc a poc, la nostra llengua s’ha anat estenent, en part gràcies a la feinada dels voluntaris que han contribuït a localitzar videojocs al català.
  • Altres exemples de treball col·laboratiu des del voluntariat són els grups que han treballat en projectes com l’Ubuntu (un sistema operatiu de codi obert), el KDE (un entorn d’escriptori per al programari lliure) o el Moodle (un programari lliure que permet crear entorns virtuals d’ensenyament i aprenentatge).

Un cop exposades aquestes iniciatives, Jordi Mas va aprofitar la jornada per reclamar a l’IEC que obrís amb llicències lliures el Diccionari de la llengua catalana i el Corpus textual informatitzat de la llengua catalana. Amb la llicència que aquests valuosos recursos tenen actualment, que no en permet l’ús comercial, no es poden fer servir les dades del diccionari per a crear llistes de paraules que, al seu torn, podrien ajudar a crear eines com ara correctors.

Lligat a aquest tema, cal destacar que, actualment, les dades tenen una importància cabdal en el món de la tecnologia, perquè són el que permeten entrenar els motors d’intel·ligència artificial. Jordi Mas va posar l’exemple de Whisper, un motor de reconeixement de la parla. Com passa en alguns casos de serveis basats en intel·ligència artificial, el model de Whisper és lliure, però les dades d’entrenament no. Això impedeix que es reaprofitin les dades per a personalitzar i ajustar el model a altres llengües minoritzades, com el català.

Jordi Mas va citar encara dos exemples reals més dels obstacles que suposen les dades privades. El primer cas és el del diccionari de sinònims de l’IEC, que no té una llicència lliure i, per tant, no s’ha pogut incorporar en les llistes de sinònims que tenen alguns projectes d’eines lliures. En canvi, el diccionari de sinònims de Softcatalà sí que és lliure, i es va elaborar per compensar la manca d’un diccionari de sinònims lliure en llengua catalana.

El segon exemple és el projecte AINA i el seu model de síntesi de veu: Matxa. La llicència d’aquest model (CC BY-NC) no en permet l’ús comercial i, segons algunes interpretacions més conservadores de la llicència, tampoc el poden fer servir associacions sense ànim de lucre si tenen publicitat a la seva pàgina web, com és el cas de Softcatalà.

Tanmateix, tot i ser una llengua minoritzada, el català té una presència digital prou destacable (se sol incloure entre les cinquanta llengües més importants) en comparació amb altres llengües minoritzades veïnes, com l’aranès o l’asturià. A més a més, el català també s’admet en un bon nombre de models d’IA. Per exemple: del milió de models que hi ha a Hugging Face, prop de mil són compatibles amb el català, una xifra notable si la comparem amb els cinc mil del castellà o els sis mil del francès. Com bé va destacar Jordi Mas, això és possible, d’una banda, gràcies al voluntariat, i, de l’altra, gràcies a la gran quantitat de contingut disponible en català a la xarxa, ja sigui en articles de la Viquipèdia o en publicacions de xarxes socials.

Llista de models de Hugging Face que admeten el català i tenen la llicència MIT, la qual permet l’ús comercial i privat.

Per finalitzar la xerrada, Jordi Mas va convidar les institucions a reflexionar sobre l’impacte positiu que les dades i els models d’IA oberts tindrien en la normalització lingüística i en la presència del català en les noves tecnologies. Si s’alliberen les quantitats massives de dades (textos, vídeos, imatges, etc.) que ja existeixen actualment, però que no són obertes o accessibles, les intel·ligències artificials es podran alimentar amb més material en català i, en definitiva, en garantirem la permanència i sobirania en les tecnologies digitals.

Podeu trobar la xerrada en aquest enllaç (1:10:51).

