PerMMLU


MMLU چیست؟

MMLU (اختصار Massive Multitask Language Understanding) یک بنچ‌مارک جامع برای سنجش درک زبانی مدل‌های زبانی بزرگ (LLMs) است که توسط دانشگاه UC Berkeley توسعه داده شده است. این بنچ‌مارک شامل بیش از ۱۵ هزار سوال چندگزینه‌ای در ۵۷ حوزه‌ی دانشی مختلف است که از منابع مختلفی چون امتحانات دانشگاهی، آزمون‌های حرفه‌ای، و اطلاعات عمومی گردآوری شده‌اند. هدف اصلی MMLU ارزیابی توانایی مدل‌های زبان در پاسخ‌گویی به سوالات سطح بالا و میان‌رشته‌ای است.

سوالات MMLU از حوزه‌هایی چون علوم انسانی (تاریخ، فلسفه، ادبیات)، علوم پایه (فیزیک، شیمی، ریاضی)، علوم اجتماعی (جامعه‌شناسی، روان‌شناسی)، پزشکی، حقوق، کسب‌وکار، و تکنولوژی تشکیل شده‌اند. این تنوع موضوعی به ارزیابان اجازه می‌دهد تا عملکرد مدل‌ها را نه‌تنها در تولید زبان طبیعی، بلکه در میزان عمق و صحت دانش آن‌ها نیز بسنجند. ویژگی خاص این مجموعه، آن است که سوال‌ها همگی استاندارد و مشابه آزمون‌های واقعی هستند.

MMLU به سرعت به یک معیار پذیرفته‌شده برای سنجش مدل‌های بزرگ مانند GPT، LLaMA، PaLM و دیگر LLMها تبدیل شده است. نتایج آزمون‌های MMLU معمولاً در مقالات و ارائه‌های رسمی مدل‌ها منتشر می‌شود و به عنوان یکی از چالش‌های اصلی در هوش مصنوعی عمومی شناخته می‌شود.




PersianMMLU (Khayyam Challenge)

مقاله Khayyam Challenge
مقاله Khayyam Challenge

با توجه به اهمیت MMLU در سطح جهانی، پژوهشگران ایرانی تلاش کردند تا نسخه‌ای از این بنچ‌مارک را برای زبان فارسی توسعه دهند. نتیجه‌ی این تلاش، مجموعه داده‌ای به نام PersianMMLU یا چالش خیام بود. این مجموعه شامل ۲۰٬۱۹۲ سوال چندگزینه‌ای برگرفته از آزمون‌های رسمی مدارس ایران در پایه‌های مختلف تحصیلی و در ۳۸ موضوع متنوع است، که موضوعاتی چون درک ادبی، ریاضی، علوم، منطق، و آزمون‌های هوش را در بر می‌گیرد. هدف این چالش، ارزیابی دقیق مدل‌های زبانی فارسی در ابعاد مختلفی همچون فهم زبان و استدلال بوده است.

یک نمونه از داده Persian MMLU
یک نمونه از داده Persian MMLU

با وجود ارزشمند بودن، بنچمارک PersianMMLU ، این بنچمارک دارای محدودیت‌هایی است. نخست آن‌که دامنه‌ی سوالات آن محدود به موضوعات تدریس‌شده در مقطع مدرسه است و اغلب حوزه‌های دانشگاهی، تخصصی یا فرهنگی مانند قوانین ایرانی، طب سنتی، مشاهیر ایرانی، مسائل پزشکی، مسائل فنی مهندسی و دانش مختص به جامعه ایرانی را پوشش نمی‌دهد. دوم این‌که تنوع زبانی و سبک نگارش سوالات در آن کم بوده و بیشتر بر آموزش رسمی و استاندارد مدارس متکی است، که می‌تواند باعث عدم پوشش کامل مهارت‌های زبانی مدل‌ها شود.


همچنین، این مجموعه به‌طور کامل از دیدگاه بین‌رشته‌ای بودن یا تحلیل‌های سطح بالا که در نسخه اصلی MMLU وجود دارد، فاصله دارد. با وجود تلاش برای پرهیز از مشکلات آلودگی داده و استفاده از داده‌های اصیل و بومی برای فارسی‌زبانان، همچنان برای ارزیابی جامع و دقیق مدل‌های زبانی فارسی، نیاز به یک بنچ‌مارک گسترده‌تر، متنوع‌تر و مقیاس‌پذیر احساس می‌شود.




معرفی PerMMLU – گامی نوین در ارزیابی جامع زبان فارسی

PerMMLU جهت رفع محدودیت های موجود درPersianMMLU، توسعه داده شده است. در ساخت این بنچمارک تلاش شده تا یک بنچمارک جامع‌تر، متنوع‌تر و تطبیق‌پذیر با ویژگی‌های زبانی و فرهنگی ایرانیان ایجاد شود. این بنچمارک با هدف پوشش سه بعد مهم از دانش فارسی طراحی شده و در قالب سه مجموعه داده‌ی مستقل و مکمل ارائه می‌شود: UPK ، SPK و GPK

نخستین بخش، SPK (School Persian Knowledge)، شامل ۵۵۸۱ سوال چهارگزینه‌ای از دروس رسمی مدارس ایران است که از پایه چهارم تا دوازدهم و در ۷۸ موضوع متنوع می‎‌باشد. این مجموعه داده از وب‌سایت آموزشی پادرس کرال شده است و سپس توسط انسان و مدل های زبانی بزرگ(LLMs) تمیز سازی شده تا سوالاتی که ناقص هستند یا نیاز به اطلاعات اضافی همچون تصویر، نمودار یا جدول دارند، حذف شوند. این دیتاست پایه‌ای منسجم برای ارزیابی توانایی مدل‌ها، در فهم محتوای درسی مدارس به زبان فارسی ایجاد می‌کند.

توزیع دادگان در هر پایه در دیتاست SPK
توزیع دادگان در هر پایه در دیتاست SPK


مثال از دیتاست SPK:

نمونه سوال - دسته‌بندی: تاریخ دهم
سؤال: در کدام کشور باستانی، مجموعه متون دینی (وداها) در حدود 1200 ق م به صورت مکتوب در آمد؟
گزینه‌ها: ۱) هند ۲) چین ۳) یونان ۴) میان دورود

پاسخ صحیح: ۱) هند




دومین مجموعه، UPK (University Persian Knowledge)، شامل ۷۷۹۳ سوال و جواب چهارگزینه‌ای برگرفته از آزمون‌های کنکور کارشناسی ارشد و دکترا در ۲۵ رشته دانشگاهی است که حوزه‌هایی مانند پزشکی، مهندسی، علوم انسانی و هنر را پوشش می‌دهد. این مجموعه تلاش می‌کند خلأ موجود در چالش خیام را با ارائه‌ی متونی تخصصی و سطح‌بالای علمی جبران کند و مدل‌های زبانی را در مواجهه با مفاهیم دانشگاهی به چالش بکشد. در فرآیند گردآوری این داده‌ها، از فناوری OCR برای استخراج سوالات و پاسخ‌ها از دفترچه کنکورهای ارشد و دکترا استفاده شده و از مدل‌های زبانی بزرگ (LLM) برای پاک‌سازی و تمیزسازی داده‌ها بهره گرفته شده است. طراحی این مجموعه به‌گونه‌ای بوده که پوشش جامعی از مفاهیم تدریس‌شده در دانشگاه ارائه دهد و در مواردی که رشته‌ها اشتراک محتوایی بالایی داشته‌اند، تنها یکی به‌عنوان نماینده انتخاب شده است.

توزیع داده در هر گرایش در دیتاست UPK
توزیع داده در هر گرایش در دیتاست UPK

مثال از دیتاست UPK:

نمونه سوال - دسته‌بندی: عمران
سؤال: اگر ضخامت یک پی صلب ۸۰ سانتی‌متر و پوشش بتن روی آرماتورهای آن ۱۰ سانتی‌متر باشد، برای یک ستون مربعی به عرض ۵۰ سانتی‌متر، مقطع بحرانی برای کنترل برش یک‌طرفه چند سانتی‌متر از بر ستون فاصله دارد؟
گزینه‌ها: ۱) ۷۰ ۲) ۶۲ ۳) ۴۰ ۴) ۳۵

پاسخ صحیح: ۱) ۷۰




در نهایت، GPK (General Persian Knowledge) با هدف ارزیابی دانش عمومی مدل‌ها از موضوعاتی طراحی شده که مختص جامعه ایرانی هستند. منظور از دانش عمومی مختص جامعه ایرانی، دانشی است که در بستر فرهنگی، اجتماعی و قانونی ایران معنا و کاربرد دارد و برای آن‌که مدل‌های زبانی بزرگ با فرهنگ فارسی آشنا باشند، لازم است به این نوع دانش نیز تسلط داشته باشند. این مجموعه شامل ۱۰۰۳ سوال چهارگزینه‌ای در ۱۵ موضوع مختلف است که زمینه‌هایی مانند سوغات شهرها، احکام دینی، قوانین ملی، شخصیت‌های مشهور، اصطلاحات فرهنگی و دیگر موضوعات بومی ایران را در بر می‌گیرد. این داده‌ها با جمع‌آوری اطلاعات از وب‌سایت‌های مختلف و تولید ساختارمند سوالات از طریق پرامپت‌های ویژه برای هر موضوع به‌طور جداگانه توسط مدل‌های زبانی بزرگ ساخته شده‌اند. همچنین، داده‌های حساس‌تری مانند محتوای دینی و سیاسی توسط انسان بررسی و ویرایش شده‌اند تا از بروز خطا یا سوگیری جلوگیری شود.

توزیع دیتاست GPK در هر موضوع
توزیع دیتاست GPK در هر موضوع


مثال از دیتاست GPK:

سؤال: ورزش کبدی مدرن از کدام بازی قدیمی برگرفته شده است؟
گزینه‌ها: ۱) لوچو ۲) زو ۳) چوگو ۴) گورش

پاسخ صحیح: ۲) زو


PerMMLU با این رویکرد سه‌گانه، گامی مهم در مسیر ارزیابی دقیق‌تر و بومی‌تر مدل‌های زبانی فارسی برداشته است.