Persian MT-Bench


دیتاست Persian MT-Bench نسخه‌ی بومی‌سازی‌شده‌ی مجموعه‌ی MT-Bench به زبان فارسی است که با تغییرات محتوایی و ساختاری همراه بوده است. MT-Bench یک مجموعه‌ی ارزیابی مبتنی بر پرسش‌وپاسخ چندنوبتی (multi-turn) و دیالوگ‌محور است که شامل ۸۰ گفت‌وگو در قالب ۲ نوبت (turn) و در ۸ موضوع مختلف می‌باشد.

در نسخه‌ی فارسی، تمام نمونه‌ها به‌صورت دقیق ترجمه و سپس توسط انسان بازنویسی شده‌اند تا از لحاظ زبانی و فرهنگی با کاربران فارسی‌زبان سازگار باشند. همچنین برای سنجش بهتر عملکرد مدل‌ها در مکالمات بلند، برخی از نمونه‌ها به ۳ یا ۴نوبت گسترش یافته‌اند.

افزون بر این، دو موضوع جدید به مجموعه اضافه شده است، که هر یک شامل ۱۰ نمونه هستند:

  • دانش بومی ایرانی: شامل سوالاتی درباره‌ی موضوعات فرهنگی مانند فیلم‌ها، بازیگران و چهره‌های ایرانی.
  • بازیابی در مکالمه (Chat-Retrieval): در این بخش، یک گفت‌وگوی چندنوبتی بین کاربر و چت‌بات ارائه می‌شود و مدل باید در پایان، یک سوال و پاسخ مرتبط با نیاز کاربر استخراج کند.

این گسترش‌ها با هدف افزایش تنوع موضوعی و عمق ارزیابی مدل‌های فارسی‌زبان انجام شده‌اند.