Soft Català

Informàtica i programari en català

URL: https://www.softcatala.org/noticies/

Actualitzat: fa 37 setmanes 2 hores

Presentem un servei de doblatge automàtic de vídeos en català en proves

Dv, 07/02/2025 - 18:00

A Softcatalà, tenim un compromís ferm amb la promoció i la difusió de la llengua catalana en l’àmbit digital. Avui anunciem el llançament del nostre nou servei de doblatge automàtic de vídeos en català, una eina innovadora que pot facilitar la creació de continguts audiovisuals en català de manera ràpida i eficient. El servei de doblatge automàtic de Softcatalà fa ús de la intel·ligència artificial —una combinació de tecnologies de reconeixement de veu, traducció automàtica i síntesi de veu— per a traduir textos orals i llegir-los en català. Esperem que aquesta eina pugui resultar d’interès per a la creació de contingut, l’educació, l’activisme, el món empresarial i qualsevol persona que vulgui fer accessible el seu material audiovisual a un públic catalanoparlant. Amb només uns pocs clics, es poden generar automàticament versions doblades en català de vídeos originals en anglès o castellà.

Cal tenir en compte que es tracta d’un servei experimental en proves, i que a cada fase del procés es poden generar errors inesperats. Aquest servei no substitueix la figura dels professionals del doblatge, sinó que persegueix facilitar la generació de continguts quan el recurs a professionals no sigui una opció.

Com funciona el doblatge automàtic de vídeos en català?

L’eina de doblatge automàtic ha estat dissenyada amb la facilitat d’ús com a element central. No cal tenir coneixements tècnics avançats; simplement heu de carregar el vídeo que voleu doblar (en format mp4), seleccionar la varietat dialectal del doblatge (actualment, disponible en balear, central, nord-occidental i valencià) i esperar que us n’arribi el doblatge a la vostra safata d’entrada.

El doblatge automàtic usa tecnologies com reconeixement de la parla, traducció automàtica, síntesi de veu entre d’altres. En cada pas poden introduir-se errors. Si el vostre doblatge conté errors, els podeu esmenar de forma manual en l’editor (premeu el botó Edita) que us proporcionem. Després podeu tornar a regenerar el vídeo, i més tard, podreu baixar un vídeo actualitzat amb les esmenes.

Alguns errors comuns que podeu trobar són:

Paraules mal traduïdes. Això ho podeu esmenar editant la frase en català directament.
Fragments d’àudio que no apareixen l’original. Podeu esborrar el tall amb la icona de la brossa a l’editor.

Aquest servei és possible gràcies a: Whisper (reconeixement de la parla), Matxa (síntesi de veu), pyannote (identificació del parlant), demuc (separació de la parla), audeering (reconeixement del gènere del parlant), nmt-softcatala (traducció anglès – català), Apertium (traducció castellà – català), open-dubbing (sistema de doblatge automàtic) i subdub-editor per a l’edició.

Esperem que aquest servei de doblatge automàtic en proves permeti millorar el nombre de continguts audiovisuals digitals, facilitant la creació de vídeos en aquesta llengua per a una àmplia gamma d’usuaris, des de creadors de contingut fins a empreses, institucions educatives i organitzacions culturals. Gràcies a la seva facilitat d’ús i la rapidesa del procés, qualsevol persona pot traduir i doblar vídeos en català sense necessitat de coneixements tècnics ni grans recursos, contribuint a una normalització de la llengua a la xarxa.

A Softcatalà, després de vint-i-sis anys d’existència, continuem innovant perquè la llengua catalana sigui present a tots els racons del món digital. Amb el doblatge automàtic, volem contribuir a la presència de l’ús del català en els continguts audiovisuals, i facilitar que més persones puguin accedir a materials en la nostra llengua. Us convidem a provar el nou servei de doblatge automàtic i a descobrir com pot transformar la vostra manera de crear contingut. Visiteu el nostre web https://www.softcatala.org/doblatge/ per provar aquest nou servei.

Quant a Softcatalà

Softcatalà som una associació sense afany de lucre que treballa per la normalització de la llengua catalana en el sector informàtic, Internet i les noves tecnologies, a partir de la traducció de programari lliure de distribució gratuïta i creació de recursos lingüístics lliures i oberts a tothom. Per a més informació sobre els programes traduïts i els projectes de l’associació, podeu consultar el nostre lloc web a http://www.softcatala.org.

L'entrada Presentem un servei de doblatge automàtic de vídeos en català en proves ha aparegut primer a Softcatalà.

Categories: Notíes de tecnologia

El català al món digital: anàlisi, reptes i oportunitats d’acció

Dc, 05/02/2025 - 13:05

El món digital inclou els àmbits com Internet, els mòbils, els programes informàtics, els rellotges intel·ligents, la intel·ligència artificial, els videojocs, etc. Bàsicament, tot el conjunt d’eines digitals, eines que han transformat la manera en què interactuem, treballem, aprenem i gaudim del nostre temps d’esbarjo. Podem afirmar que avui en dia el món digital ocupa gairebé tots els àmbits del món físic.

Al món hi ha més de 7.000 llengües, la majoria sense les eines tecnològiques adequades per viure en plenitud en el món digital, i això condiciona la realitat diària dels parlants d’aquestes llengües. Per què no totes les llengües són presents al món digital? Un dels motius principals és la manca de textos, àudios i vídeos digitalitzats. Algunes llengües minoritzades existeixen principalment en el món oral.

El món digital representa un repte col·lectiu per a qualsevol llengua. És molt complex perquè inclou centenars de tecnologies, dispositius, fabricants, tipus d’usuaris, i cadascuna d’aquestes dimensions, amb les seves particularitats. No existeix una solució màgica per a garantir la presència d’una llengua en un àmbit així de complex, i que a més, evoluciona d’una forma tan vertiginosa. No existeix. El repte a què ens enfrontem és majúscul.

La llengua catalana al món digital El català a Internet

Tradicionalment, la nostra llengua ha tingut una presència forta a Internet, ja que és una plataforma on qualsevol persona pot publicar de forma autònoma. Trobem webs en català de persones individuals, de mitjans comunicació, empreses, institucions públiques, blocs, pòdcasts, o la mateixa Viquipèdia en català amb més de 750.000 pàgines. Ara mateix el català es troba entre les 40 llengües més populars amb contingut a Internet.

Cal destacar alguns aspectes:

En els darrers mesos hi ha hagut queixes de centenars d’usuaris perquè, quan feien cerques a Google, no es mostraven resultats en català, malgrat existir-hi. És una àrea on el Govern ha de prestar especial atenció i tenir una relació fluida i directa amb empreses com Google o Microsoft que, a més, tenen presència a Catalunya.
Hi ha empreses importants en el seu àmbit (com ara banca, audiovisual, comerç electrònic, salut, etc.) que no ofereixen la seva web en català. Cal continuar treballant perquè aquestes empreses tinguin incentius per oferir els seus web i l’atenció al client o usuari en llengua catalana. Per exemple Amazon, la principal empresa de comerç electrònic, continua sense oferir la seva web en català.
Ens arriben queixes de forma regular dels usuaris del web de Tripadvisor que veuen com la plataforma esborra els comentaris que els usuaris fan en català. Això és incomprensible a 2025, quan disposem de tecnologies de traducció automàtica a cost negligible. Google Maps o Booking, per exemple, permeten que cada persona pugui expressar-se en la seva llengua.

El català a les xarxes socials

Les xarxes socials són un àmbit estretament relacionat amb Internet. Trobem en català les plataformes de les principals xarxes socials com ara: X (abans Twitter), Mastodon, Bluesky, YouTube, Facebook, WhatsApp o Telegram. Addicionalment, trobem contingut abundant en català en totes les xarxes socials.

Tot i això, hi ha dos aspectes encara a resoldre:

La presència del català a xarxes socials com Instagram i TikTok és crucial per a la seva normalització entre els joves. Això no només vol dir la interfície d’usuari, sinó que tota la plataforma funcioni bé en català, des de les eines de moderació fins als sistemes de recomanació. Instagram és propietat de Meta, que ofereix altres productes en català (Facebook o WhatsApp). És incomprensible que no ofereixin la interfície d’Instagram en català.
El fet que la xarxa social professional LinkedIn no estigui en català representa una limitació en el món professional. Amb 15 milions d’usuaris a Espanya, si assumim que estan distribuïts de forma proporcional, estem parlant d’uns 2,5 milions d’usuaris a Catalunya. Ni tan sols permet indicar que la llengua dels currículums és en català. Com el cas anterior, LinkedIn és propietat de Microsoft, empresa que ofereix part del seu ecosistema en català de manera homogènia.

El català a les aplicacions i als sistemes operatius

Tant en ordinadors de taula i portàtils, com en telèfons mòbils i tauletes, els principals sistemes operatius (Android, iOS, macOS, Windows, Linux) es troben disponibles en català. Malauradament, alguns fabricants de mòbils i televisors eliminen la disponibilitat del català en els aparells finals.

Respecte a les aplicacions, cal entendre que hi ha milions d’aplicacions en dotzenes de categories com ara finances personals, salut, dibuix, educació, etc. Més del 50% d’aquestes aplicacions només es troben disponibles en anglès. El català és una llengua privilegiada dintre del món de les llengües minoritzades. Sovint, es troba entre les primeres 50 llengües en què les empreses adapten els seus programes informàtics. Compareu aquesta situació amb, per exemple, la situació de l’asturià.

Davant del gran ventall de plataformes i aplicacions, destaquem tres àrees de millora, basant-nos en les queixes que ens arriben d’usuaris regularment:

Microsoft només ofereix una traducció parcial de sistema operatiu Windows i el paquet ofimàtic Microsoft Office, el sistema operatiu i paquet ofimàtic més utilitzats a Catalunya.
Microsoft Office per a Mac no està disponible en català. Paradoxalment, Microsoft sí que ofereix la versió traduïda parcialment per a Windows en català.
Les aplicacions d’Adobe, com ara Photoshop, continuen sense oferir una versió en català. Aquestes són eines importants tant en l’àmbit professional com domèstic.

Hi ha una oportunitat per al Govern de col·laborar de forma més estreta amb Microsoft i Adobe per assegurar el català en aquests productes i una bona experiència per als usuaris catalanoparlants.

El català a la intel·ligència artificial

En l’àmbit de la intel·ligència artificial, les principals empreses proveïdores n’ofereixen versió en català; per exemple, ChatGPT d’OpenAI, Claude d’Anthropic o la xinesa DeepSeek.

A part de les empreses comercials, en l’àmbit de la ciència oberta, ara mateix hi ha més d’1 milió de models d’IA publicats al repositori públic Hugging Face, 971 dels quals amb suport pel català. Malgrat que el nombre pugui semblar petit, pensem que llengües com el castellà en tenen poc més de 5000 i el francès, poc més de 5700.

Una de les principals raons de la presència del català de la IA és que hi ha molt contingut a Internet en català. I no parlem només de pàgines web, incloent-hi la Viquipèdia, sinó també contingut a YouTube i xarxes socials. D’aquí s’alimenten els principals sistemes d’IA.

Recomanem tres àrees d’incidència:

Assistents de veu intel·ligent: no n’existeix cap comercial, com ara Siri o Alexa, en català. I això no és només un problema perquè siguin aparells d’àmbits emprats en el sector domèstic, sinó perquè limiten les possibilitats d’aplicacions àmbits com la sanitat, on es poden utilitzar en àrees com ara l’atenció de les persones vulnerables.
Dades obertes: les administracions i empreses públiques generen moltes dades. Tindria un impacte molt gran si totes aquestes dades, que inclouen també àudio i vídeo, fossin publicades amb llicències obertes. Tal com hem explicat, totes les IA es nodreixen de dades que trobin. Com més dades trobin, millor representat estarà el català.
Gemini, la IA de Google, no admet oficialment el català. El departament d’Educació, entre altres, és un gran consumidor de productes Google. Cal treballar per a afegir suport per al català també en la IA d’aquest fabricant.

El català als aparells

Aquest àmbit és molt complex, ja que inclou centenars de tecnologies, dispositius, fabricants, tipus d’usuaris, i cadascuna d’aquestes dimensions, amb les seves particularitats.

Fabricants com Apple, Samsung, Xiaomi, Sony. I dispositius com ara televisors, cotxes, telèfons mòbils, rellotges intel·ligents, anells intel·ligents, robots de cuina, etc., però no sempre inclouen el català, encara que el sistema operatiu inicialment sí que l’incorpori.

La nostra recomanació en aquest àmbit és:

Que el govern català consideri crear una radiografia de la situació actual i una força de treball permanent amb tots aquests fabricants.
Considerar establir relacions amb SEAT perquè els seus cotxes disposen del català. És difícil d’entendre sent una empresa d’aquí que ha rebut ajudes del Govern durant decennis.

El català als videojocs

Els videojocs són una part essencial de l’oci digital i de la cultura juvenil, tot i que en els darrers anys la tendència de consum de videojocs també inclou un percentatge important d’adults joves. És una de les indústries que més diners mou a escala mundial, i és expressió artística i cultural que es pot comparar amb el cinema o la literatura. Així doncs, la presència del català en aquest àmbit reforça també la llengua en un espai de consum clau. També és una oportunitat per a generar contingut i indústria en català, creant llocs de feina i impulsant el sector tecnològic i cultural del país.

Som conscients que aquesta és una àrea on el govern hi ha dedicat esforços, dit això, tenim una sèrie de recomanacions:

Tot i que Catalunya és un referent en l’àmbit dels videojocs i l’entreteniment digital, el català continua sent una llengua àmpliament ignorada pels desenvolupadors tant locals com internacionals. Igual que es fa en altres sectors clau, potser tenir converses amb els grans estudis de videojocs perquè incorporin el català als seus productes podria ser una via inicial.
Tenir en compte els plans de presència del català de les empreses que reben ajudes per tal d’incentivar-les a treballar en aquesta llengua.
Parlar amb les associacions de videojocs i de traducció com ara Gaming.cat o Projecte Ce Trencada per a tenir en compte la seva perspectiva i poder invertir els esforços de manera productiva.

L’occità

És important reflexionar sobre el fet que l’occità, una llengua encara més minoritzada que el català, s’enfronta als mateixos reptes, però des d’una situació encara més precària i hauria de ser motiu d’atenció del Govern.

Conclusions

Recomanen al govern una col·laboració molt més estreta amb les empreses per garantir que el català tingui una presència forta en el món digital. Especialment, quan moltes de les empreses de tecnologia tenen seus a Catalunya. Ressaltar que el govern pot utilitzar el seu enorme poder de compra per a assegurar que els fabricants proporcionen suport per al català amb un bon nivell.

Finalment, destacar, que llengües minoritzades com el català, es beneficien quan els recursos són oberts i lliures a tothom, tant recursos lingüístics com dades obertes, per això recomanem incrementar els esforços en aquesta línia.

Article extret de la intervenció de Jordi Mas en la Comissió de Política Lingüística del 5 de febrer de 2025, al Parlament de Catalunya. Podeu veure-la aquí:

Quant a Softcatalà

L'entrada El català al món digital: anàlisi, reptes i oportunitats d’acció ha aparegut primer a Softcatalà.

Categories: Notíes de tecnologia

Resum de l’any 2024 a Softcatalà

Dll, 03/02/2025 - 10:48

Heus aquí la memòria de l’any 2024 a Softcatalà, amb dades del web, avanços en diverses projectes i xerrades, i un pronòstic per al 2025. Ja amb el nou any ben iniciat, i com cada any, compartim amb vosaltres els punts més forts del 2024 amb un breu resum de l’any per a Softcatalà.

Dades del web i principals serveis

Durant l’any 2024, el web de Softcatalà va rebre un total de 116 milions de visites, un augment del 12% respecte el 2023. Més concretament, també han incrementat les visites dels serveis principals de Softcatalà:

El corrector va tenir 52 milions de visites, un 17% que el 2023.
El traductor va acabar l’any amb 24 milions de visites, 2 milions més que en el període anterior.
Pel que fa al diccionari de sinònims, vam tenir 18 milions de visites.
El transcriptor, una eina nova amb intel·ligència artificial que transcriu vídeos i àudios a text, i que va ser estrenada durant el 2023, va arribar a més de 85.000 visites, un augment considerable respecte l’any 2023.

Millores dels serveis

Durant el mes de març vam implementar millores en el servei de transcripció d’àudios i vídeos. Aquest servei, presentat l’any 2023, permet carregar un fitxer d’àudio o vídeo en diversos formats i, un cop processat, s’envia al correu electrònic de l’usuari un enllaç de baixada amb la transcripció sincronitzada. Gràcies a les millores introduïdes, ara es poden carregar més fitxers i, a més, el servei és fins a quatre vegades més ràpid.

A part d’això, s’ha continuat ampliant el lèxic del diccionari de sinònims amb termes com escapar a córrer, ordèol o barrufar i s’ha millorat el servei de traducció automàtica d’Apertium per al parell de llengües castellà – catala. En traducció neuronal hem millorat també la qualitat dels parells de llengües següents: francès – català, anglès – català i alemany – català.

Nova interfície del corrector

Una altra novetat del 2024 va ser la nova interfície d’usuari que vam implementar en el corrector ortogràfic i gramatical. Després d’estar en fase beta durant uns quants mesos i d’aplicar-hi millores, a finals d’any va passar a ser l’opció predeterminada. Aquesta nova versió permet controlar i editar més fàcilment el format del text que es corregeix. Permet aplicar formats com cursiva, modificar l’estil del text, afegir enllaços o fins, i tot, canviar el color del text, la qual cosa fa que editar el text directament dins del requadre sigui més còmode.

Nou parell de llengües del traductor

El mes de desembre vam afegir la combinació de llengües català – basc al traductor automàtic neuronal. A part del parell català – castellà, que fa servir la traducció basada en regles d’Apertium, el traductor català – basc se suma a les altres deu combinacions que ja oferia el traductor neuronal. Els corpus utilitzats en l’entrenament, que podeu trobar a GitHub, s’han obtingut de manera sintètica gràcies al projecte ILENIA.

Captura de pantalla del traductor català-basc.

Actualització del Codi de Conducta

Dins del procés de millora constant que fem a Softcatalà, durant els últims dos anys, hem treballat en una actualització del nostre Codi de Conducta.

Aquest Codi consisteix en unes directrius per a fer que la convivència dins de la nostra comunitat resulte tan sana, segura i inclusiva com siga possible. Entre altres millores, hem definit quins comportaments considerem intolerables, com es poden denunciar violacions del Codi i com gestionem aquestes denúncies.

Vos encoratgem a llegir-les i aplicar-les sempre que interactueu en els nostres espais, que posem a disposició de tothom de manera gratuïta al nostre lloc web i a la resta de xarxes on tenim presència.

Guardó de la Creu de Sant Jordi

El dilluns 23 de desembre, Xavier Ivars, president de l’associació, va recollir la Creu de Sant Jordi al Teatre Nacional de Catalunya. La Generalitat de Catalunya va concedir aquesta distinció a Softcatalà en reconeixement de la seva contribució a fomentar la presència del català en l’àmbit tecnològic des del 1998 desenvolupant eines lingüístiques i impulsant la traducció de programari en català.

Guardó de la Creu de Sant Jordi concedit a Softcatalà.

Xerrades i presència als mitjans

L’11 de març, Barcelona Free Software va organitzar una xerrada sobre els 25 anys de Softcatalà. En l’acte, acollit per Adevinta, hi participaren Jordi Mas i Marc Riera, que van aprofitar per parlar del funcionament de l’associació i de com es pot col·laborar en projectes lliures de llengua com LibreOffice, Apertium i les memòries de traducció de Softcatalà. Podeu trobar l’enregistrament de la xerrada en aquest enllaç.

Mikel Forcada va exposar el 25 de juny un pòster sobre els projectes d’entrenament de motors de traducció automàtica de Softcatalà en el marc de la 25a conferència anual de l’EAMT, l’Associació Europea per a la Traducció Automàtica, que enguany es va celebrar a Sheffield (Regne Unit). El pòster era un resum de l’article Community-driven machine translation for the Catalan language at Softcatalà.

El pòdcast Endevallada entrevistava el 18 d’octubre Adrià Martín-Mor, que va fer referència a la seva participació a Softcatalà (minuts 32-35).

La companya Belén Ivars va viatjar el 19 d’octubre fins al País Basc per assistir a l’Euskarabildua, unes jornades divulgatives sobre la llengua basca i les tecnologies. La xerrada es pot recuperar al compte de PeerTube d’Euskarabildua.

El pòdcast Dia Crític de Ràdio Montblanc i la Xarxa Més va entrevistar el 26 d’octubre el company Marc Riera sobre el paper de Softcatalà en el context de l’activisme lingüístic i tecnològic.

El dia 14 de novembre, el nostre company Jordi Mas va participar en el campus NPLD Coppieters a l’Institut d’Estudis Catalans, centrat en la diversitat lingüística d’Europa. Mas va fer una xerrada per explicar què és el codi lliure i presentar els diferents serveis de Softcatalà. A part dels serveis que ofereix l’associació, en la xerrada es van explicar algunes iniciatives de projectes lliures que han prosperat gràcies a la implicació del voluntariat. En vam fer un resum aquí. La xerrada, que es pot recuperar aquí, va tenir força repercussió als mitjans; en van parlar Manuel Lillo a El Temps, Meritxell Lavall a Núvol, i Sandra Freijomil a Catorze, digital de cultura viva que també en va parlar aquí.

Entre totes les felicitacions que ens van fer arribar el 2 d’octubre per al nostre vint-i-sisè aniversari, hem pogut recopilar les de Clara Queraltó a La selva de TV3, les de La tarda de Catalunya Ràdio (minuts 17:34-18:20) i les dels Teloners del Versió Rac1 (minuts 2:30-9:00).

Quant a Softcatalà

L'entrada Resum de l’any 2024 a Softcatalà ha aparegut primer a Softcatalà.

Categories: Notíes de tecnologia

Softcatalà converteix el diccionari DEIEC al format d’Amazon Kindle

Dv, 31/01/2025 - 12:00

El Diccionari essencial de la llengua catalana (DEIEC), editat per l’Institut d’Estudis Catalans, és un diccionari de nova planta que inclou els mots essencials de la llengua comuna. Softcatalà n’ha adaptat una versió per al lector de llibres electrònics Amazon Kindle que permet una experiència de lectura còmoda des del dispositiu.

L’obra, sota la llicència Creative Commons CC BY-NC-ND 3.0, és el primer diccionari en català per al Kindle que es pot descarregar gratuïtament. Cal tenir en compte que els lectors de llibres electrònics Kobo ja incorporen, des de fa anys, el Diccionari de la llengua catalana de l’Institut d’Estudis Catalans (DIEC).

Podeu baixar el diccionari i consultar les instruccions d’instal·lació a Diccionari essencial de la llengua catalana (DEIEC) per a Amazon Kindle. Podeu consultar el codi font utilitzat per a la conversió a GitHub.

L'entrada Softcatalà converteix el diccionari DEIEC al format d’Amazon Kindle ha aparegut primer a Softcatalà.

Categories: Notíes de tecnologia

Campus NPLD Coppieters: Softcatalà demana a les institucions públiques catalanes que alliberin dades i models sota llicències lliures

Ds, 16/11/2024 - 10:26

El dia 14 de novembre, el nostre company Jordi Mas va participar en el campus NPLD Coppieters a l’Institut d’Estudis Catalans, centrat en la diversitat lingüística d’Europa.

Jordi Mas al campus NPLD Coppieters, celebrat a a l’Institut d’Estudis Catalans.

Mas va fer una xerrada per explicar què és el codi lliure i presentar els diferents serveis de Softcatalà. A part dels serveis que ofereix l’associació, en la xerrada es van explicar algunes iniciatives de projectes lliures que han prosperat gràcies a la implicació del voluntariat:

La primera, prou coneguda, va ser la Viquipèdia, el projecte d’enciclopèdia lliure de Wikimedia que ja té més de 750.000 articles. Damunt de la utilitat que té per als usuaris, també serveix per a alimentar les intel·ligències artificials. Un altre dels projectes de Wikimedia és Wikidata, una base de dades que estructura una quantitat ingent de dades (més de cent milions d’entitats descrites) i que permet fer cerques semàntiques.
La segona fou Common Voice, que pretén crear una base de dades amb veus humanes. Pel que fa a la vessant catalana del projecte, hi han confluït diferents organitzacions catalanes, com ara la Secretaria de Política Lingüística, el Projecte Aina, Òmnium Cultural o Plataforma per la Llengua.
Jordi Mas també va parlar d’OpenStreetMap: es tracta d’un projecte internacional de cartografia col·laborativa, i ha estat fonamental en la toponímia de les regions de parla catalana. Gràcies a aquesta iniciativa, per exemple, moltes de les aplicacions de mapes que fem servir habitualment han pogut incorporar la toponímia catalana oficial.
El Projecte Ce Trencada té com a objectiu normalitzar la presència del català en els videojocs, un món molt complex on, a poc a poc, la nostra llengua s’ha anat estenent, en part gràcies a la feinada dels voluntaris que han contribuït a localitzar videojocs al català.
Altres exemples de treball col·laboratiu des del voluntariat són els grups que han treballat en projectes com l’Ubuntu (un sistema operatiu de codi obert), el KDE (un entorn d’escriptori per al programari lliure) o el Moodle (un programari lliure que permet crear entorns virtuals d’ensenyament i aprenentatge).

Un cop exposades aquestes iniciatives, Jordi Mas va aprofitar la jornada per reclamar a l’IEC que obrís amb llicències lliures el Diccionari de la llengua catalana i el Corpus textual informatitzat de la llengua catalana. Amb la llicència que aquests valuosos recursos tenen actualment, que no en permet l’ús comercial, no es poden fer servir les dades del diccionari per a crear llistes de paraules que, al seu torn, podrien ajudar a crear eines com ara correctors.

Lligat a aquest tema, cal destacar que, actualment, les dades tenen una importància cabdal en el món de la tecnologia, perquè són el que permeten entrenar els motors d’intel·ligència artificial. Jordi Mas va posar l’exemple de Whisper, un motor de reconeixement de la parla. Com passa en alguns casos de serveis basats en intel·ligència artificial, el model de Whisper és lliure, però les dades d’entrenament no. Això impedeix que es reaprofitin les dades per a personalitzar i ajustar el model a altres llengües minoritzades, com el català.

Jordi Mas va citar encara dos exemples reals més dels obstacles que suposen les dades privades. El primer cas és el del diccionari de sinònims de l’IEC, que no té una llicència lliure i, per tant, no s’ha pogut incorporar en les llistes de sinònims que tenen alguns projectes d’eines lliures. En canvi, el diccionari de sinònims de Softcatalà sí que és lliure, i es va elaborar per compensar la manca d’un diccionari de sinònims lliure en llengua catalana.

El segon exemple és el projecte AINA i el seu model de síntesi de veu: Matxa. La llicència d’aquest model (CC BY-NC) no en permet l’ús comercial i, segons algunes interpretacions més conservadores de la llicència, tampoc el poden fer servir associacions sense ànim de lucre si tenen publicitat a la seva pàgina web, com és el cas de Softcatalà.

Tanmateix, tot i ser una llengua minoritzada, el català té una presència digital prou destacable (se sol incloure entre les cinquanta llengües més importants) en comparació amb altres llengües minoritzades veïnes, com l’aranès o l’asturià. A més a més, el català també s’admet en un bon nombre de models d’IA. Per exemple: del milió de models que hi ha a Hugging Face, prop de mil són compatibles amb el català, una xifra notable si la comparem amb els cinc mil del castellà o els sis mil del francès. Com bé va destacar Jordi Mas, això és possible, d’una banda, gràcies al voluntariat, i, de l’altra, gràcies a la gran quantitat de contingut disponible en català a la xarxa, ja sigui en articles de la Viquipèdia o en publicacions de xarxes socials.

Llista de models de Hugging Face que admeten el català i tenen la llicència MIT, la qual permet l’ús comercial i privat.

Per finalitzar la xerrada, Jordi Mas va convidar les institucions a reflexionar sobre l’impacte positiu que les dades i els models d’IA oberts tindrien en la normalització lingüística i en la presència del català en les noves tecnologies. Si s’alliberen les quantitats massives de dades (textos, vídeos, imatges, etc.) que ja existeixen actualment, però que no són obertes o accessibles, les intel·ligències artificials es podran alimentar amb més material en català i, en definitiva, en garantirem la permanència i sobirania en les tecnologies digitals.

Podeu trobar la xerrada en aquest enllaç (1:10:51).

L'entrada Campus NPLD Coppieters: Softcatalà demana a les institucions públiques catalanes que alliberin dades i models sota llicències lliures ha aparegut primer a Softcatalà.

Categories: Notíes de tecnologia

Common Voice en català, 4 anys i mig de cursa de fons

Dj, 21/03/2024 - 13:13

Recentment, s’ha publicat un nou conjunt de dades del projecte Common Voice, impulsat per Mozilla, el corpus de dades lliure de veu i textos. En aquesta nova versió, el català és la llengua amb més hores enregistrades i validades. Un èxit de participació ciutadana! Expliquem algunes coses sobre aquest projecte.

El projecte Common Voice va néixer el juny de 2017 per a crear un corpus d’enregistraments de veu i transcripcions, en anglès, de domini públic per a poder desenvolupar tecnologies de la veu, especialment reconeixement de la parla. Mesos després, el projecte esdevindria multilingüe. L’estiu de 2018 vam implicar-nos en la creació del Common Voice en català. Aconseguírem textos de domini públic de sota les pedres. Alguns autors i traductors van cedir la seva obra per a extraure frases en català lliures de drets d’autor i alimentar Common Voice. L’objectiu inicial? 1.000 hores d’enregistraments de veu alineat amb la transcripció i poder desenvolupar tecnologies lingüístiques de veu per al català. Per exemple, poder entrenar un motor de reconeixement de la parla de qualitat, la primera pedra per a un assistent de veu en català. Objectiu final? 10.000 hores de talls de veu per a tenir un corpus.

Des d’aleshores, i gràcies a l’impuls i participació decisius del projecte Aina, de les Secretaries de Política Lingüística i Polítiques Digitals de la Generalitat de Catalunya, del govern de les Illes Balears, del projecte Vives i d’entitats com Òmnium i Plataforma per la Llengua, el corpus de veus en català ha crescut enormement, fins a assolir les 3.500 hores d’enregistraments. Diverses iniciatives, com la recollida d’enregistraments a l’Espai Mallorca, la campanya de vídeos de joves influenciadors i jugadors del FC Barcelona o els actes de promoció al Palau Blaugrana durant els partits de bàsquet del Barça contra el Reial Madrid i el València Basket Club han ajudat a nodrir d’una pluralitat notable al projecte. Però l’èxit ha estat, especialment, gràcies als més de 35.000 participants, que han fet que el català assoleixi la primera posició: 3.500 hores enregistrades, 2.649 hores validades, 35.619 participants i 70,65 GB de dades. Impressionant!

Les tecnologies de la llengua han canviat molt en aquests 4 anys i mig. Amb menys dades es poden fer millors models. Ja no calen 10.000 hores de dades de veu i text alineat. Ara, amb moltíssimes hores de veu i unes poques hores alineades d’àudio i text es poden aconseguir excel·lents resultats.

Vol dir això que les dades de Common Voice no serveixen de res? Tot el contrari! Sí que serveixen, i molt. Diverses empreses usen les dades de Common Voice per a desenvolupar tecnologies de la parla, com ara Google amb el model AudioPaLM, o per a avaluar-ne la qualitat, com ara el model Whisper d’OpenAI. Només el 2023, més de 20 articles científics han fet ús d’aquestes dades per a fer estudis i recerca en tecnologies de la llengua. No sabrem mai del cert tots els projectes que empren les dades de Common Voice, perquè com que les dades tenen llicència CC0, tothom pot utilitzar-les sense haver de cintar-ne la font. Però alguns projectes sí que citen l’ús de Common Voice, i el català hi és gràcies a aquestes dades.

Common Voice en català és un projecte madur. Hem assolit unes fites extraordinàries. Ja no calen 10.000 hores. Ens calen més varietat en els tipus d’àudios (converses, xerrades, diàlegs…) que amb Common Voice no podem cobrir, perquè està pensant per a frases curtes. També tenim una sobrerepresentació de parlants homes de mitjana edat de l’àrea metropolitana de Barcelona. Ens falten dades de veus femenines, joves, velles, i de parlants valencians, balears, rossellonesos i nord-occidentals.

Aleshores, què ens agradaria fer durant el 2024? Corregir els biaixos de Common Voice. Tenim moltes dades d’homes de més de 50 anys parlants de català central. Això és bo. Però tenim poques dades de veus femenines. Poques dades de joves i de gent gran. Poques veus valencianes, o mallorquines. O rosselloneses. Volem millorar la varietat dialectal i de gènere a Common Voice en català.

El nostre objectiu per al 2024 és aconseguir:

300 hores de valencià (ara en tenim 150)
100 hores en balear (ara en tenim 40)
200 hores de nord-occidental (ara en tenim 140)
100 hores de rossellonès (ara en tenim 60)
300 hores de veus joves (<30 anys, ara en tenim 190)
1000 hores de veus femenines (ara en tenim 700)
300 hores de veus d’edat avançada (>70 anys, ara en tenim 135)

Per què? Perquè volem que la tecnologia que se’n derivi funcioni bé per a tothom, parlin com parlin.

Ens voleu ajudar?

Si teniu algun dels perfils buscats, el més senzill és que doneu la vostra veu al Common Voice en català. Tot i que no és obligatori, és important que definiu les vostres dades demogràfiques al perfil abans de participar-hi. Si teniu cap dubte, podeu unir-vos al grup de col·laboradors a Telegram.

Si no teniu cap dels perfils, també ens podeu ajudar, revisant i validant els talls de veu que han enregistrat altres participants. O també podeu aportar textos breus perquè algú altri els enregistri.
En qualsevol cas, també podeu fer-ne difusió perquè hi participin dones, joves i parlants de valencià, rossellonès, tortosí, pallarès, lleidatà, mallorquí, menorquí i eivissenc.

Quant a Softcatalà

L'entrada Common Voice en català, 4 anys i mig de cursa de fons ha aparegut primer a Softcatalà.

Categories: Notíes de tecnologia

Seccions

Navegació

Inici de sessió d'usuari

Qui està connectat

Soft Català

Presentem un servei de doblatge automàtic de vídeos en català en proves

El català al món digital: anàlisi, reptes i oportunitats d’acció

Resum de l’any 2024 a Softcatalà

Softcatalà converteix el diccionari DEIEC al format d’Amazon Kindle

Campus NPLD Coppieters: Softcatalà demana a les institucions públiques catalanes que alliberin dades i models sota llicències lliures

Common Voice en català, 4 anys i mig de cursa de fons