Com mesurar la precisió de la traducció automàtica

7 de març del 2025

Per Marina Peterson

4 min de lectura

Precisió MT
NLP
LLM
Traducció

Els sistemes moderns de traducció automàtica (MT) ofereixen traduccions cada vegada més fluides i riques en context. Tot i això, mesurar fins a quin punt aquestes traduccions són realment precises pot ser sorprenentment complex. A continuació, examinem mètodes d’avaluació humans i automatitzats per mesurar la qualitat de la MT, juntament amb els nous models de QA i QE (estimació de qualitat). Tant si feu servir NMT (traducció automàtica neuronal) com grans models de llenguatge (LLM), entendre aquestes mètriques us ajuda a refinar els fluxos de treball i a augmentar la fiabilitat general de la traducció.

1. Avaluació experta humana

L’avaluació humana es considera l’estàndard d’or per valorar la sortida d’una traducció automàtica. Lingüistes amb experiència comparen la traducció del sistema amb un text de referència o amb un conjunt definit de criteris, com ara:

Adequació: la traducció cobreix tot el significat del text original?
Fluïdesa: el text de destinació és gramaticalment correcte i natural?
Context: es transmeten amb precisió les referències subtils o els matisos culturals?

Tot i que la puntuació humana ofereix una visió més profunda, pot ser costosa en temps i potencialment subjectiva. Les institucions solen fer la mitjana de les puntuacions de diversos experts per reduir els biaixos, especialment quan comparen diferents solucions MT. Malgrat això, les limitacions de cost i velocitat fan difícils les revisions humanes a gran escala.

HTER (Human Translation Error Rate)

Una mètrica manual àmpliament utilitzada és HTER, que mesura quantes edicions calen per corregir una sortida MT fins a arribar a un nivell de qualitat humana. Els editors registren substitucions, eliminacions i insercions, i la suma d’aquestes edicions indica fins a quin punt la sortida automàtica s’allunyava d’una traducció acceptable. Com més baix és l’HTER, millor és la qualitat.

2. Mètriques d’avaluació automatitzades

Quan es treballa amb grans volums de text, confiar només en revisors humans no és pràctic. Les mètriques automatitzades ajuden a comparar ràpidament el rendiment del sistema i a escala:

BLEU (Bilingual Evaluation Understudy): se centra en la coincidència de n-grames entre la sortida MT i la referència. Un BLEU més alt suggereix una correspondència més propera.
METEOR: considera tant la precisió (quin percentatge de paraules traduïdes coincideix amb la referència) com el recall (quantes paraules de la referència apareixen a la MT), a més de sinònims i paràfrasis.
TER (Translation Edit Rate): semblant a HTER, però mesurat automàticament, comptant quantes edicions transformen la sortida MT en una referència.

Cada mètrica revela aspectes diferents de la qualitat de traducció. Tanmateix, cap mètrica automatitzada no és perfecta per si sola. Sovint els costa captar el context profund o els matisos lingüístics subtils, de manera que les bones pràctiques acostumen a combinar diverses mètriques.

3. Models de Quality Assurance (QA) i Quality Estimation (QE)

Models QA

Els enfocaments de garantia de qualitat apliquen aprenentatge automàtic per detectar possibles errors de traducció abans o durant la generació. Aquests models QA poden destacar els segments amb més probabilitat de contenir errors i ajudar els posteditors a concentrar-hi millor els esforços.

Quality Estimation (QE)

La QE prediu la qualitat de frases o segments individuals analitzant tant el text d’origen com el de destinació per assignar-los una puntuació. Encara que no és tan exhaustiva com una revisió humana completa, ofereix un indicador ràpid de quines parts requereixen una comprovació o una edició més profunda.

4. Precisió en NMT vs. traducció basada en LLM

La traducció automàtica neuronal (NMT) ha evolucionat molt, però encara pot tenir dificultats de consistència en documents llargs o amb argot especialitzat. Mentrestant, els grans models de llenguatge (LLM) sovint generen traduccions més sensibles al context, tot i que requereixen més recursos computacionals. Tots dos enfocaments poden produir al·lucinacions o interpretacions errònies si els termes propis d’un domini no s’han après bé, cosa que subratlla per què una avaluació robusta continua essent essencial.

5. Refinar el flux de traducció amb transcripció

Per a moltes organitzacions, combinar avaluació automatitzada amb solucions de transformeu el vostre contingut pot crear una canalització de text accessible i d’alta qualitat. El reconeixement de veu converteix primer l’àudio o el vídeo en text. Després, sistemes avançats de MT el tradueixen. Finalment, els models QA o QE ajuden a determinar la fiabilitat general del resultat. Així, els posteditors només dediquen esforç on realment cal, estalviant temps i costos.

Conclusió

Mesurar la precisió de la traducció automàtica és un procés de diverses capes que combina avaluació humana, puntuació automatitzada i tècniques avançades de QA/QE. Cap solució única no captura totes les subtileses lingüístiques, però combinant diversos mètodes podeu identificar els sistemes més sòlids, optimitzar la postedició i oferir traduccions més precises. Tant si feu servir NMT com els LLM més recents, un enfocament informat de l’avaluació MT garanteix que el vostre contingut multilingüe compleixi tant les necessitats comunicatives com els estàndards de qualitat.