Mesurer la précision de la traduction automatique

Mesurer la précision de la traduction automatique

Par Marina Peterson
4 min de lecture
  • Précision MT
  • NLP
  • LLM
  • Traduction

Les systèmes modernes de traduction automatique (MT) produisent des traductions de plus en plus fluides et riches en contexte. Pourtant, mesurer à quel point ces traductions sont précises reste étonnamment complexe. Ci-dessous, nous examinons les méthodes d’évaluation humaines et automatisées de la qualité MT, ainsi que les nouveaux modèles QA et QE (estimation de la qualité). Que vous utilisiez la NMT (traduction automatique neuronale) ou de grands modèles de langage (LLM), comprendre ces métriques vous aide à affiner vos workflows et à renforcer la fiabilité globale de vos traductions.


1. Évaluation humaine experte

L’évaluation humaine est considérée comme la référence absolue pour juger la sortie d’une traduction automatique. Des linguistes expérimentés comparent la traduction du système à un texte de référence ou à un ensemble de critères définis, par exemple :

  • Adéquation : la traduction couvre-t-elle tout le sens du texte source ?
  • Fluidité : le texte cible est-il grammaticalement correct et naturel ?
  • Contexte : les références subtiles ou les nuances culturelles sont-elles correctement rendues ?

Même si les scores humains offrent des analyses plus fines, ils peuvent être très chronophages et parfois subjectifs. Les organisations moyennent souvent les notes de plusieurs experts pour réduire les biais, en particulier lorsqu’elles comparent différentes solutions MT. Malgré cela, le coût et les contraintes de temps compliquent les revues humaines à grande échelle.

HTER (Human Translation Error Rate)

Une métrique manuelle largement utilisée est le HTER, qui mesure le nombre de modifications nécessaires pour corriger une sortie MT afin qu’elle corresponde à une référence de qualité humaine. Les éditeurs suivent les substitutions, suppressions et insertions, et la somme de ces modifications indique à quel point la sortie machine s’écartait d’une traduction acceptable. Plus le HTER est faible, meilleure est la qualité.


2. Métriques d’évaluation automatisées

Lorsqu’on traite de gros volumes de texte, s’appuyer uniquement sur des relecteurs humains n’est pas réaliste. Les métriques automatisées permettent d’étalonner rapidement les performances d’un système et à grande échelle :

  • BLEU (Bilingual Evaluation Understudy) : se concentre sur le chevauchement des n-grammes entre la sortie MT et la référence. Un score BLEU plus élevé suggère une correspondance plus proche.
  • METEOR : prend en compte à la fois la précision (le pourcentage de mots traduits qui correspondent à la référence) et le rappel (le nombre de mots de la référence présents dans la MT), ainsi que les synonymes et paraphrases.
  • TER (Translation Edit Rate) : semblable au HTER, mais mesuré automatiquement, en comptant combien de modifications transforment la sortie MT en référence.

Chaque métrique révèle un aspect différent de la qualité de traduction. Cependant, aucune métrique automatisée n’est parfaite à elle seule. Elles peinent souvent à saisir le contexte profond ou les nuances linguistiques subtiles. Les bonnes pratiques consistent donc généralement à combiner plusieurs métriques.


3. Modèles d’assurance qualité (QA) et d’estimation de la qualité (QE)

Modèles QA

Les approches d’assurance qualité appliquent le machine learning afin de repérer les erreurs potentielles dans une traduction avant ou pendant sa génération. Ces modèles QA peuvent signaler les segments susceptibles de contenir des erreurs, ce qui aide les post-éditeurs à concentrer leurs efforts plus efficacement.

Estimation de la qualité (QE)

La QE prédit la qualité de phrases ou segments individuels en analysant à la fois le texte source et le texte cible pour attribuer un score. Même si elle n’est pas aussi complète qu’une révision humaine intégrale, elle fournit un indicateur rapide des portions qui exigent une vérification ou une correction plus approfondie.


4. Précision en NMT et en traduction fondée sur les LLM

La traduction automatique neuronale (NMT) a beaucoup évolué, mais elle peut encore rencontrer des problèmes de cohérence sur les documents longs ou le jargon spécialisé. De leur côté, les grands modèles de langage (LLM) produisent souvent des traductions plus sensibles au contexte, mais ils exigent davantage de ressources de calcul. Les deux peuvent générer des hallucinations ou des interprétations erronées si les termes propres à un domaine ne sont pas correctement appris, d’où l’importance d’une évaluation robuste.


5. Affiner le workflow de traduction grâce à la transcription

Pour de nombreuses organisations, combiner une évaluation automatisée avec des solutions transformez votre contenu permet de créer un pipeline de texte accessible et de haute qualité. La reconnaissance vocale convertit d’abord l’audio ou la vidéo en texte. Ensuite, des systèmes MT avancés le traduisent. Enfin, des modèles QA ou QE aident à déterminer la fiabilité globale du résultat. Les post-éditeurs n’interviennent alors que là où c’est nécessaire, ce qui réduit le temps et les coûts.


Conclusion

Mesurer la précision de la traduction automatique est un processus à plusieurs niveaux, qui combine évaluation humaine, scoring automatisé et techniques avancées de QA/QE. Aucune solution unique ne saisit toutes les subtilités linguistiques, mais en alignant plusieurs méthodes, vous pouvez identifier les systèmes les plus solides, optimiser votre post-édition et livrer des traductions précises et convaincantes. Que vous exploitiez la NMT ou les derniers LLM, une approche éclairée de l’évaluation MT garantit que votre contenu multilingue réponde à la fois aux besoins de communication et aux critères de qualité.