Cara mengukur akurasi terjemahan mesin

7 Maret 2025

Oleh Marina Peterson

4 mnt baca

Akurasi MT
NLP
LLM
Terjemahan

Sistem terjemahan mesin (MT) modern menghasilkan terjemahan yang semakin lancar dan kaya konteks. Namun, menilai seberapa akurat hasil terjemahan tersebut ternyata bisa sangat kompleks. Di bawah ini, kami membahas metode evaluasi manusia dan otomatis untuk mengukur kualitas MT, bersama model QA dan QE (estimasi kualitas) yang terus berkembang. Baik Anda mengandalkan NMT (Neural Machine Translation) maupun model bahasa besar (LLM), memahami metrik ini membantu Anda menyempurnakan alur kerja dan meningkatkan keandalan terjemahan secara keseluruhan.

1. Evaluasi ahli manusia

Evaluasi manusia dianggap sebagai standar emas untuk menilai keluaran terjemahan mesin. Ahli bahasa berpengalaman membandingkan terjemahan sistem dengan teks referensi atau dengan serangkaian kriteria yang jelas, seperti:

Kecukupan: apakah terjemahan mencakup seluruh makna dari teks sumber?
Kelancaran: apakah teks target benar secara tata bahasa dan terdengar alami?
Konteks: apakah rujukan halus atau nuansa budaya tersampaikan secara akurat?

Walaupun penilaian manusia memberikan wawasan yang lebih dalam, proses ini bisa memakan waktu dan berpotensi subjektif. Lembaga sering merata-ratakan skor dari beberapa ahli untuk mengurangi bias, terutama saat membandingkan berbagai solusi MT. Meski begitu, keterbatasan biaya dan kecepatan membuat peninjauan manusia berskala besar tetap menantang.

HTER (Human Translation Error Rate)

Salah satu metrik manual yang banyak digunakan adalah HTER, yang mengukur berapa banyak edit yang dibutuhkan untuk memperbaiki keluaran MT agar setara dengan tolok ukur kualitas manusia. Editor melacak penggantian, penghapusan, dan penyisipan, dan jumlah edit tersebut menunjukkan seberapa jauh keluaran mesin dari terjemahan yang dapat diterima. Semakin rendah HTER, semakin baik kualitasnya.

2. Metrik evaluasi otomatis

Saat bekerja dengan volume teks yang besar, mengandalkan peninjau manusia saja tidaklah praktis. Metrik otomatis membantu membandingkan performa sistem dengan cepat dan dalam skala besar:

BLEU (Bilingual Evaluation Understudy): berfokus pada tumpang tindih n-gram antara keluaran MT dan referensi. Skor BLEU yang lebih tinggi menunjukkan kecocokan yang lebih dekat.
METEOR: mempertimbangkan presisi (berapa persen kata hasil terjemahan mesin yang cocok dengan referensi) dan recall (berapa banyak kata dalam referensi yang muncul di MT), serta sinonim dan parafrasa.
TER (Translation Edit Rate): mirip dengan HTER, tetapi diukur secara otomatis dengan menghitung berapa banyak edit yang diperlukan untuk mengubah keluaran MT menjadi referensi.

Setiap metrik menyoroti sisi yang berbeda dari kualitas terjemahan. Namun, tidak ada satu pun metrik otomatis yang sempurna. Metrik tersebut sering kesulitan menangkap konteks yang lebih dalam atau nuansa bahasa yang halus, sehingga praktik terbaik biasanya menggabungkan beberapa metrik sekaligus.

3. Model Quality Assurance (QA) dan Quality Estimation (QE)

Model QA

Pendekatan jaminan kualitas menerapkan machine learning untuk mendeteksi potensi kesalahan dalam terjemahan sebelum atau selama proses generasi. Model QA ini dapat menyoroti segmen yang kemungkinan besar mengandung kesalahan, sehingga post-editor dapat memfokuskan upayanya dengan lebih efisien.

Quality Estimation (QE)

QE memprediksi kualitas kalimat atau segmen individual dengan menganalisis teks sumber dan target untuk memberi skor. Meskipun tidak sedetail tinjauan manusia penuh, QE memberikan indikator cepat tentang bagian mana yang memerlukan pemeriksaan atau penyuntingan lebih mendalam.

4. Akurasi pada NMT vs. terjemahan berbasis LLM

Neural Machine Translation (NMT) telah berkembang pesat, tetapi masih bisa kesulitan menjaga konsistensi pada dokumen panjang atau jargon khusus. Sementara itu, model bahasa besar (LLM) sering menghasilkan terjemahan yang lebih peka terhadap konteks, walau memerlukan sumber daya komputasi yang lebih tinggi. Keduanya dapat mengalami halusinasi atau salah tafsir jika istilah spesifik domain tidak dipelajari dengan baik, yang menegaskan pentingnya evaluasi yang kuat.

5. Menyempurnakan alur kerja terjemahan dengan transkripsi

Bagi banyak organisasi, menggabungkan evaluasi otomatis dengan solusi ubah konten Anda dapat menciptakan pipeline teks yang mudah diakses dan berkualitas tinggi. Pengenalan suara terlebih dahulu mengubah audio atau video menjadi teks. Setelah itu, sistem MT canggih menerjemahkannya. Terakhir, model QA atau QE membantu menentukan keandalan keseluruhan hasil tersebut. Post-editor hanya perlu menghabiskan tenaga pada bagian yang benar-benar membutuhkan perhatian, sehingga menghemat waktu dan biaya.

Kesimpulan

Mengukur akurasi terjemahan mesin adalah proses berlapis yang menggabungkan penilaian manusia, skor otomatis, dan teknik QA/QE yang canggih. Tidak ada satu solusi pun yang mampu menangkap seluruh kehalusan bahasa, tetapi dengan menggabungkan beberapa metode Anda dapat mengidentifikasi sistem yang paling kuat, mengoptimalkan post-editing, dan menghasilkan terjemahan yang lebih presisi. Baik Anda menggunakan NMT maupun LLM terbaru, pendekatan yang matang terhadap evaluasi MT memastikan konten multibahasa Anda memenuhi kebutuhan komunikasi sekaligus standar kualitas.