Persian MT-Bench

دیتاست Persian MT-Bench نسخهی بومیسازیشدهی مجموعهی MT-Bench به زبان فارسی است که با تغییرات محتوایی و ساختاری همراه بوده است. MT-Bench یک مجموعهی ارزیابی مبتنی بر پرسشوپاسخ چندنوبتی (multi-turn) و دیالوگمحور است که شامل ۸۰ گفتوگو در قالب ۲ نوبت (turn) و در ۸ موضوع مختلف میباشد.
در نسخهی فارسی، تمام نمونهها بهصورت دقیق ترجمه و سپس توسط انسان بازنویسی شدهاند تا از لحاظ زبانی و فرهنگی با کاربران فارسیزبان سازگار باشند. همچنین برای سنجش بهتر عملکرد مدلها در مکالمات بلند، برخی از نمونهها به ۳ یا ۴نوبت گسترش یافتهاند.
افزون بر این، دو موضوع جدید به مجموعه اضافه شده است، که هر یک شامل ۱۰ نمونه هستند:
- دانش بومی ایرانی: شامل سوالاتی دربارهی موضوعات فرهنگی مانند فیلمها، بازیگران و چهرههای ایرانی.
- بازیابی در مکالمه (Chat-Retrieval): در این بخش، یک گفتوگوی چندنوبتی بین کاربر و چتبات ارائه میشود و مدل باید در پایان، یک سوال و پاسخ مرتبط با نیاز کاربر استخراج کند.
این گسترشها با هدف افزایش تنوع موضوعی و عمق ارزیابی مدلهای فارسیزبان انجام شدهاند.
مطلبی دیگر از این انتشارات
MIZAN: A Persian LLM Leaderboard
مطلبی دیگر از این انتشارات
PerMMLU
مطلبی دیگر از این انتشارات
PerCoR