Soft Català

Contingut sindicat
Informàtica i programari en català
Actualitzat: fa 23 hores 42 minuts

Publiquem un model wav2vec2 de reconeixement de la parla en català

Dm, 30/03/2021 - 11:34

Aquesta setmana el company de Softcatalà Ciaran O’Reilly ha publicat el primer model de reconeixement de veu basat wav2vec2. En aquest enllaç podeu provar-lo, amb el micròfon o pujant un fitxer d’àudio: https://huggingface.co/ccoreilly/wav2vec2-large-xlsr-catala. El model té una taxa d’error WER de només 7,57%!

Us explicarem per què aquesta fita és important i que representa.

Hem usat el corpus de Common Voice en català per a entrenar-ho, que conté 750 hores de veu enregistrades en dos anys i mig per més de 5.300 col·laboradors de diferents edats, gèneres i accents. Aquest corpus és clau per a construir sistemes de reconeixement de parla que incloguin la diversitat. Avui mateix, #CommonVoiceCAT segueix creixent, ja tenim 856 hores enregistrades i 725 de validades. Hem deixat enrere el francès (743/675) i de mica en mica reduïm distància amb l’alemany (895/843). Us animem a participar-hi: https://commonvoice.mozilla.org/ca

Hem usat un segon corpus ParlamentParla creat per Collectivat.cat (@collectivat.cat) que inclou 90 hores de veu del Parlament de Catalunya.

També esperem veure aviat els primers fruits del projecte Aina en matèria de veu, que segur sumaran en positiu a aquests corpus ja existents. Cal agrair el paper de les diferents comunitats que creen corpus lliures i els comparteixen. Són els pilars de la feina que compartim avui.

L’altre fet important és els avanços tecnològics com els models d’aprenentatge automàtic wav2vec2 permeten a llengües minoritzades crear els seus propis models de reconeixement de la veu amb poques dades i poc esforç computacional. Estem segurs que aviat hi haurà una eclosió de models reconeixement de la parla disponibles en català (i altres llengües) de diferents qualitats i adaptats a diferents tasques (generals, atenció al client, videojocs, etc.).

Per últim, reconèixer iniciatives com Huggingface  (on s’han publicat els models), que permeten que milers de desenvolupadors puguin incloure de forma molt senzilla aquests models de reconeixement de la parla.

Aquest és una nova fita perquè les torradores entenguin català ho tinguem més a prop.

L'entrada Publiquem un model wav2vec2 de reconeixement de la parla en català ha aparegut primer a Softcatalà.

Resum de l’any 2020 a Softcatalà

Dc, 20/01/2021 - 22:12

Acabat el 2020, us presentem un resum de les principals fites que hem assolit aquest any.

Dades de la web i avenços en els serveis associats

Tanquem l’any amb 69,2 milions de visites al nostre web, el que representa un increment d’un 41% sobre l’any 2019.  

  • El corrector ha finalitzat el 2020 amb 29,2 milions de visites, un increment del 46% respecte al 2019.
  • El diccionari de sinònims acomiada l’any amb 12,9 milions de visites, un increment del 44% respecte al 2019. Les expressions més cercades al diccionari de sinònims són: a més a més, tenir, gravar, realitzar i important.
  • Per últim, el traductor acaba el 2020 amb 16,7 milions de visites, un increment del 25% respecte a 2019. Durant aquest any s’ha fet una feina molt gran per a escalar els sistemes de Softcatalà per poder donar servei a la creixent demanda dels usuaris i nous serveis. Hem desplegat tota una nova infraestructura basada en contenidors amb un nou maquinari nou, cosa que ens permet desplegar nous serveis de forma més eficient.
Noves iniciatives presentades durant el 2020 Hora en català

El servei d’hora en català permet als usuaris veure com es diu en català l’hora actual o una hora específica que es vulgui consultar.

L’hora s’ofereix en diversos formats. El sistema horari de rellotge i de campanar segueixen la descripció de la Gramàtica essencial de la llengua catalana. També oferim un sistema horari de campanar tradicional, en una de les diverses variacions que pot tenir. Cal tenir present que aquests sistemes no donen una precisió de minuts.

Separador i comptador de síl·labes

Aquest servei permet separar i comptar les síl·labes de les paraules en català. La separació es fa seguint les regles habituals, amb l’afegit de la majoria d’excepcions que es poden trobar. Entre les aplicacions pràctiques de la divisió sil·làbica hi ha la separació de paraules a final de línia i el recompte mètric en poesia.

L’eina pot dividir i comptar paraules, frases o poemes sencers. Oferim diferents recomptes de síl·labes: el recompte gràfic, el recompte fonètic (que inclou elisions i sinalefes), i el recompte poètic (que és l’utilitzat en la mètrica poètica).

Nombres en lletres

El servei de nombres en lletres facilita als usuaris aprendre com escriure una xifra en lletres. És un recurs útil per a usos didàctics i també per a contextos formals on, per a evitar confusions, és necessari escriure les xifres en l’expressió escrita.

Aquest servei ofereix també les formes numèriques pròpies valencianes i balears. A més a més, en alguns casos, s’hi indiquen expressions relacionades amb la xifra proporcionada, com per exemple ordinals, partitius, col·lectius o xifres romanes.

Conjugador de verbs

El conjugador de verbs recull 10.158 verbs de tot el domini lingüístic generats a partir de les dades lliures dels diccionaris ortogràfics que desenvolupa Softcatalà.

La informació mostrada inclou les variants dialectals més comunes de tot el domini lingüístic, i és una de les eines més completes en la conjugació de verbs. L’eina permet la cerca per infinitius així com per qualsevol forma flexionada.

Paremiologia catalana comparada digital

La Paremiologia catalana comparada digital (PCCD) és l’accés obert en línia a la base de dades fraseològica del paremiòleg Víctor Pàmies i Riudor: https://pccd.dites.cat/

Amb el naixement d’aquest nou recurs en línia ja es poden consultar gairebé 150.000 frases fetes, locucions, dites, refranys, proverbis, citacions i embarbussaments, dels més de 600.000 recollits durant els darrers vint-i-cinc anys per Víctor Pàmies. Softcatalà desenvolupa i allotja l’eina de consulta.

Nou traductor neuronal anglès – català

Aquest any hem publicat un nou traductor automàtic anglès-català i català-anglès basat en tecnologia de xarxes neuronals, un camp dins de l’aprenentatge automàtic.

El nou traductor neuronal té dos avantatges respecte al traductor actual, que funciona basant-se en regles predefinides: primer, una millor qualitat en les traduccions amb diferents textos que hem provat, i que també hem confirmat amb avaluacions independents; segon, permet la traducció de fitxers grans que després podem enviar-vos per correu electrònic. 

Nou podcast: Quinze glaçons d’hidrogen

També hem posat en marxa un podcast de llengua i tecnologia que, de moment, té una periodicitat mensual. Es tracta del «Quinze glaçons d’hidrogen»: petits episodis, d’uns vint minuts de durada, que contenen píndoles informatives i d’entreteniment al voltant de la llengua en el seu àmbit més tecnològic.

Amb aquest podcast, que es publica l’últim cap de setmana de cada mes, busquem difondre els diferents projectes i la feina que duem a terme com a entitat, així com donar a conèixer qui hi ha darrere de Softcatalà. Però l’objectiu principal és entretenir amb la llengua i divulgar-ne l’ús en l’àmbit tecnològic.

Avenços en projectes existents

Després d’una mica més de tres anys de desenvolupament, s’ha publicat  finalment la versió 1.0 del programa Inkscape, totalment en català, incloent-hi un tutorial per iniciar-se pas a pas.

Aquest any també s’ha publicat la versió 7.0 del Libreoffice, un pas endavant important pel paquet ofimàtica lliure. Aquesta versió s’ha publicat amb la interfície gràfica completament traduïda al català i la documentació en més d’un 80%.

Aquest any ha estat un any important per la traducció al català de l’escriptori GNOME. Aquest és l’escriptori més popular en distribucions de Linux. Respecte a la traducció hem passat de 510 mil paraules traduïdes a 750, pràcticament un increment del 50%. Això vol dir que a part de mantenir les traduccions, s’han traduït moltes aplicacions noves i gran part de la documentació.

Respecte al projecte Common Voice de Mozilla, durant l’any 2020 s’han aconseguit enregistrar i validar 300 hores de veu, amb un total acumulat des de juny de 2018 de 632 hores validades, gràcies a la participació de més de 5.400 persones. El català és la 4a llengua amb més hores validades del projecte CommonVoice. L’objectiu inicial és arribar a 1.000 hores i desenvolupar un motor de reconeixement de la parla lliure per al català. Les dades del CommonVoice són a disposició de tothom que vulgui, lliurement i de franc. Per exemple, Facebook ja les fa servir per a traduir veu en català a text en anglès, o veu en anglès a text en català.

Quant a Softcatalà

Softcatalà és una associació sense afany de lucre que treballa per la normalització de la llengua catalana en el sector informàtic relacionat amb Internet i les noves tecnologies, a partir de la traducció de programari lliure i de distribució gratuïta. Per a més informació sobre els programes que aquesta associació ha traduït al català, podeu consultar el seu lloc web a https://www.softcatala.org.

L'entrada Resum de l’any 2020 a Softcatalà ha aparegut primer a Softcatalà.