چگونه دقت ترجمه ماشینی را اندازه‌گیری کنیم

۱۷ اسفند ۱۴۰۳

توسط Marina Peterson

4 دقیقه مطالعه

دقت MT
NLP
LLM
ترجمه

سامانه‌های مدرن ترجمه ماشینی (MT) ترجمه‌هایی هرچه روان‌تر و غنی‌تر از نظر بافت ارائه می‌کنند. با این حال، سنجش اینکه این ترجمه‌ها تا چه حد واقعاً دقیق هستند، می‌تواند به‌طرزی شگفت‌آور پیچیده باشد. در ادامه، روش‌های ارزیابی انسانی و خودکار برای سنجش کیفیت MT را همراه با مدل‌های نوظهور QA و QE (برآورد کیفیت) بررسی می‌کنیم. فرقی نمی‌کند به NMT (ترجمه ماشینی عصبی) تکیه کنید یا به مدل‌های زبانی بزرگ (LLM)، درک این معیارها به شما کمک می‌کند جریان‌های کاری خود را دقیق‌تر کنید و قابلیت اطمینان کلی ترجمه را بالا ببرید.

1. ارزیابی تخصصی انسانی

ارزیابی انسانی استاندارد طلایی برای سنجش خروجی ترجمه ماشینی به شمار می‌رود. زبان‌شناسان باتجربه ترجمهٔ سامانه را با متن مرجع یا مجموعه‌ای از معیارهای تعریف‌شده مقایسه می‌کنند، مانند:

کفایت: آیا ترجمه تمام معنای متن مبدأ را پوشش می‌دهد؟
روانی: آیا متن مقصد از نظر دستوری درست و از نظر بیان طبیعی است؟
بافت: آیا ارجاعات ظریف یا ظرافت‌های فرهنگی به‌درستی منتقل شده‌اند؟

با اینکه امتیازدهی انسانی بینش عمیق‌تری ارائه می‌دهد، می‌تواند زمان‌بر و تا حدی ذهنی باشد. سازمان‌ها اغلب برای کاهش سوگیری، میانگین امتیاز چند کارشناس را محاسبه می‌کنند، به‌ویژه هنگام مقایسه راهکارهای مختلف MT. با این همه، محدودیت‌های هزینه و سرعت، بازبینی‌های انسانی در مقیاس بزرگ را دشوار می‌کند.

HTER (Human Translation Error Rate)

یکی از معیارهای دستی پرکاربرد HTER است که اندازه می‌گیرد برای رساندن خروجی MT به سطح کیفیت انسانی، چند ویرایش لازم است. ویراستاران جایگزینی‌ها، حذف‌ها و افزوده‌ها را ثبت می‌کنند و مجموع این ویرایش‌ها نشان می‌دهد خروجی ماشین تا چه اندازه از یک ترجمه قابل‌قبول فاصله داشته است. هرچه HTER پایین‌تر باشد، کیفیت بهتر است.

2. معیارهای ارزیابی خودکار

وقتی با حجم زیادی از متن کار می‌کنید، اتکا صرف به بازبین‌های انسانی عملی نیست. معیارهای خودکار به شما کمک می‌کنند عملکرد سامانه را به‌سرعت و در مقیاس وسیع مقایسه کنید:

BLEU ‏(Bilingual Evaluation Understudy): بر هم‌پوشانی n-gram میان خروجی MT و متن مرجع تمرکز دارد. امتیاز BLEU بالاتر معمولاً نشان‌دهنده تطابق نزدیک‌تر است.
METEOR: هم دقت (چه درصدی از واژه‌های ترجمه‌شده با مرجع تطابق دارند) و هم یادآوری یا recall (چه تعداد از واژه‌های مرجع در MT دیده می‌شوند) را در نظر می‌گیرد، به‌علاوه مترادف‌ها و بازنویسی‌ها.
TER ‏(Translation Edit Rate): مشابه HTER است، اما به‌صورت خودکار اندازه‌گیری می‌شود و تعداد ویرایش‌های لازم برای تبدیل خروجی MT به متن مرجع را می‌شمارد.

هر معیار جنبه متفاوتی از کیفیت ترجمه را آشکار می‌کند. با این حال، هیچ معیار خودکاری به‌تنهایی کامل نیست. این معیارها اغلب در درک بافت عمیق‌تر یا ظرافت‌های زبانی ظریف مشکل دارند، بنابراین بهترین رویکرد معمولاً ترکیب چند معیار با یکدیگر است.

3. مدل‌های Quality Assurance (QA) و Quality Estimation (QE)

مدل‌های QA

رویکردهای تضمین کیفیت از یادگیری ماشین برای شناسایی خطاهای احتمالی ترجمه، پیش از تولید یا در حین آن، استفاده می‌کنند. این مدل‌های QA می‌توانند بخش‌هایی را که احتمال خطا در آن‌ها بیشتر است برجسته کنند و به پس‌ویراستاران کمک کنند تلاش خود را مؤثرتر متمرکز کنند.

Quality Estimation (QE)

QE کیفیت جمله‌ها یا بخش‌های جداگانه را با تحلیل متن مبدأ و مقصد پیش‌بینی می‌کند و به آن‌ها امتیاز می‌دهد. هرچند به اندازه یک بازبینی کامل انسانی جامع نیست، اما به‌سرعت نشان می‌دهد کدام بخش‌ها به بررسی یا ویرایش عمیق‌تری نیاز دارند.

4. دقت در NMT در برابر ترجمه مبتنی بر LLM

ترجمه ماشینی عصبی (NMT) پیشرفت زیادی کرده است، اما هنوز ممکن است در اسناد طولانی یا اصطلاحات تخصصی با ثبات مشکل داشته باشد. در همین حال، مدل‌های زبانی بزرگ (LLM) اغلب ترجمه‌هایی حساس‌تر به بافت تولید می‌کنند، اما به منابع محاسباتی بیشتری نیاز دارند. هر دو رویکرد ممکن است اگر اصطلاحات حوزه‌محور به‌خوبی آموخته نشده باشند، دچار توهم یا برداشت نادرست شوند؛ موضوعی که نشان می‌دهد چرا ارزیابی قوی همچنان ضروری است.

5. بهبود جریان ترجمه با استفاده از رونویسی

برای بسیاری از سازمان‌ها، ترکیب ارزیابی خودکار با راهکارهای محتوای خود را متحول کنید می‌تواند یک مسیر تولید متن باکیفیت و در دسترس ایجاد کند. ابتدا تشخیص گفتار، صوت یا ویدیو را به متن تبدیل می‌کند. سپس سامانه‌های پیشرفته MT آن را ترجمه می‌کنند. در نهایت، مدل‌های QA یا QE به تعیین میزان قابلیت اطمینان کلی خروجی کمک می‌کنند. در این حالت، پس‌ویراستاران فقط در بخش‌هایی که واقعاً لازم است وقت و انرژی صرف می‌کنند و در نتیجه زمان و هزینه کاهش می‌یابد.

جمع‌بندی

اندازه‌گیری دقت ترجمه ماشینی فرایندی چندلایه است که ارزیابی انسانی، امتیازدهی خودکار و تکنیک‌های پیشرفته QA/QE را با هم ترکیب می‌کند. هیچ راهکار واحدی همه ظرافت‌های زبانی را پوشش نمی‌دهد، اما با ترکیب مناسب چند روش می‌توانید قوی‌ترین سامانه‌ها را شناسایی کنید، فرایند پس‌ویرایش را بهینه سازید و ترجمه‌هایی دقیق‌تر ارائه دهید. چه از NMT استفاده کنید و چه از جدیدترین LLMها، رویکردی آگاهانه به ارزیابی MT کمک می‌کند محتوای چندزبانه شما هم نیازهای ارتباطی و هم معیارهای کیفیت را برآورده کند.