PerCoR
PerCoR مخفف "Persian CommonSense Reasoning" است و اولین بنچمارک بزرگمقیاس فارسی برای ارزیابی توانایی مدلها در استدلال دانش عمومی به صورت تکمیل جمله با چند گزینه است. این مجموعه شامل ۱۰۶هزار نمونه از حوزههای متنوعی مانند اخبار، دین، تکنولوژی و سبک زندگی است که از بیش از ۴۰ وبسایت فارسی استخراج شدهاند.
برای ساخت نمونهها از روشی نوآورانه بر اساس «تقسیمبندی با کلمات ربط» استفاده شده تا جملات و گزینهها هماهنگ و متنوع باشند. همچنین با روش جدید و خلاقانه DRESS-AF که یک تکنیک بدون نیاز به تولید متن و مستقل از زبان است، گزینههای گمراهکننده چالشبرانگیز و قابلحل برای انسان ایجاد شدهاند.
برای مثال کدام گزینه ادامه منطقی جملهی زیر میباشد:

در این سوال تنها گزینه ۲ میتواند جواب منطقی برای جمله باشد و سایر گزینه ها به دلایل مختلف نمیتوانند جواب باشند. گزینه۱ و ۳ در مورد موضوع دیگری صحبت میکنند و در گزینه ۴ زمان جمله با جمله اول تطبیق ندارد.
PerMMLU
Persian MT-Bench
MIZAN: A Persian LLM Leaderboard