PerCoR

PerCoR مخفف "Persian CommonSense Reasoning" است و اولین بنچمارک بزرگ‌مقیاس فارسی برای ارزیابی توانایی مدل‌ها در استدلال دانش عمومی به صورت تکمیل جمله با چند گزینه است. این مجموعه شامل ۱۰۶هزار نمونه از حوزه‌های متنوعی مانند اخبار، دین، تکنولوژی و سبک زندگی است که از بیش از ۴۰ وب‌سایت فارسی استخراج شده‌اند.

برای ساخت نمونه‌ها از روشی نوآورانه بر اساس «تقسیم‌بندی با کلمات ربط» استفاده شده تا جملات و گزینه‌ها هماهنگ و متنوع باشند. همچنین با روش جدید و خلاقانه DRESS-AF که یک تکنیک بدون نیاز به تولید متن و مستقل از زبان است، گزینه‌های گمراه‌کننده چالش‌برانگیز و قابل‌حل برای انسان ایجاد شده‌اند.

برای مثال کدام گزینه ادامه منطقی جمله‌ی زیر میباشد:

در این سوال تنها گزینه ۲ میتواند جواب منطقی برای جمله باشد و سایر گزینه ها به دلایل مختلف نمیتوانند جواب باشند. گزینه۱ و ۳ در مورد موضوع دیگری صحبت میکنند و در گزینه ۴ زمان جمله با جمله اول تطبیق ندارد.