۴۰ معیار برتر مدل‌های زبان بزرگ (LLM) با پشتوانه تحقیقاتی و موارد استفاده آن‌ها

با توسعه روزافزون هوش مصنوعی مولد (GenAI)، تمرکز ویژه‌ای بر آزمایش و ارزیابی آن وجود دارد که منجر به انتشار چندین معیار (بنچمارک) برای مدل‌های زبان بزرگ (LLM) شده است. هر یک از این معیارها، قابلیت‌های متفاوتی از LLM را می‌سنجند – اما آیا برای ارزیابی کامل عملکرد در دنیای واقعی کافی هستند؟

این وبلاگ به بررسی برخی از محبوب‌ترین بنچمارک‌های LLM برای ارزیابی مدل‌های زبانی برتر مانند GPT 4o، Gemma 3 می‌پردازد. علاوه بر این، ما در مورد استفاده از LLM‌ها در سناریوهای عملی و اینکه آیا این معیارها برای پیاده‌سازی‌های پیچیده مانند سیستم‌های عامل‌محور (agentic systems) کافی هستند، بحث خواهیم کرد.

فهرست مطالب

معیارهای ارزیابی: هوش مصنوعی سنتی در مقابل هوش مصنوعی مولد
۴۰ بنچمارک LLM
درک بنچمارک‌های LLM
آیا بنچمارک‌های LLM کافی هستند؟
ارزیابی عامل‌محور: فراتر از LLM‌ها
جمع‌بندی نهایی

معیارهای ارزیابی: هوش مصنوعی سنتی در مقابل هوش مصنوعی مولد

الگوریتم‌های هوش مصنوعی سنتی، مانند الگوریتم‌هایی که برای طبقه‌بندی، رگرسیون و پیش‌بینی سری‌های زمانی استفاده می‌شوند، معمولاً سیستم‌های قطعی (deterministic) هستند. این بدان معناست که برای مجموعه‌ای مشخص از ورودی‌ها، انتظار می‌رود مدل یک خروجی ثابت تولید کند. در حالی که پیش‌بینی‌های مدل ممکن است بسته به آموزش آن از واقعیت پایه (ground truth) مورد انتظار منحرف شود، خروجی هنگام ارائه با همان ترکیب ورودی، پایدار باقی خواهد ماند. معیارهای ارزیابی استاندارد، مانند دقت (accuracy)، صحت (precision) و ریشه میانگین مربعات خطا (RMSE)، انحراف مدل از برچسب‌های واقعیت پایه را برای ارزیابی عملکرد آن کمی‌سازی می‌کنند. این معیارها یک سنجش ساده، ساختاریافته و عینی از اثربخشی هوش مصنوعی ارائه می‌دهند.

با این حال، این مورد برای مدل‌های هوش مصنوعی مولد صادق نیست. این مدل‌های مولد غیرقطعی هستند، یعنی یک خروجی متوالی تولید می‌کنند و هر عنصر در توالی به صورت احتمالی تعیین می‌شود. هیچ واقعیت پایه ملموسی برای مقایسه خروجی مدل وجود ندارد، که ارزیابی آن‌ها را دشوار می‌کند. مدل‌های هوش مصنوعی مولد در سناریوهای مختلفی مانند مکالمه عمومی، حل مسئله منطقی و چت‌بات‌های آموزنده استفاده می‌شوند. عملکرد آن‌ها بر اساس توانایی‌شان در پردازش ورودی و هرگونه زمینه (context) موجود و تولید پاسخی مرتبط با سناریو ارزیابی می‌شود. چندین معیار استاندارد برای این منظور ایجاد شده است. هر یک از این‌ها جنبه منحصربه‌فردی از مدل را هدف قرار داده و یک امتیاز ارزیابی ارائه می‌دهد که برای قضاوت در مورد عملکرد مدل استفاده می‌شود. بیایید این معیارها را با جزئیات بیشتری بررسی کنیم.

۴۰ بنچمارک LLM

در ادامه به ۴۰ معیار رایج LLM و هدف هر یکپرداخته شده است.

بنچمارک	خلاصه	دسته
MMLU (درک زبان چندوظیفه‌ای عظیم)	یک آزمون پرسش و پاسخ چندگزینه‌ای شامل ۵۷ موضوع که دانش عمومی گسترده و استدلال را ارزیابی می‌کند و موضوعاتی از ریاضی و تاریخ گرفته تا حقوق را پوشش می‌دهد.	استدلال (دانش)
ARC-AGI (مجموعه داده‌های انتزاع و استدلال)	مجموعه‌ای از پازل‌های بصری انتزاعی (ARC فرانسوا شوله) که برای اندازه‌گیری پیشرفت به سوی هوش مصنوعی عمومی (AGI) با آزمایش تشخیص الگو و استدلال قیاسی فراتر از یادگیری brute-force در نظر گرفته شده است.	استدلال (قیاس)
تعمیم موضوعی (Thematic Generalization)	آزمایش می‌کند که آیا یک LLM می‌تواند یک «تم» یا قانون پنهان را از چند اعلان نمونه و نمونه نقض استنباط کند، که نیازمند تعمیم از داده‌های محدود است.	استدلال (یادگیری مفهوم)
توجه گمراه‌کننده (Misguided Attention)	مجموعه‌ای از مسائل استدلالی که با اطلاعات گمراه‌کننده یا نامربوط طراحی شده‌اند تا توانایی LLM را در تمرکز بر سرنخ‌های صحیح و جلوگیری از فریب خوردن به چالش بکشند.	استدلال (استحکام)
WeirdML	وظایف نامتعارف به سبک یادگیری ماشین (مانند شناسایی تصاویر درهم‌ریخته، مسائل عجیب ML) را ارائه می‌دهد که نیازمند استدلال دقیق و مبتنی بر درک واقعی از سوی LLM‌ها است.	استدلال (نامتعارف)
GPQA-Diamond	یک معیار پرسش و پاسخ «ضد گوگل» در سطح تحصیلات تکمیلی شامل حدود ۲۰۰ سوال نوشته شده توسط متخصصان در فیزیک، زیست‌شناسی و شیمی – مسائل علمی بسیار چالش‌برانگیز که برای مقاومت در برابر حفظ کردن طراحی شده‌اند.	استدلال (علمی)
SimpleQA	یک معیار پرسش و پاسخ واقعی از OpenAI با سوالات کوتاه و حقیقت‌جو، که توانایی LLM را در ارائه پاسخ‌های دقیق و مختصر به پرسش‌های سرراست آزمایش می‌کند.	استدلال (واقعی)
TrackingAI – IQ Bench	یک آزمون هوش برای هوش مصنوعی با استفاده از سوالات هوش انسانی بیان شده به صورت کلامی (مانند پازل‌های منسا) برای تخمین توانایی شناختی مدل‌ها؛ نحوه مدیریت مدل‌ها با منطق، تطبیق الگو و حل مسئله معمول در آزمون‌های هوش را اندازه‌گیری می‌کند.	استدلال (شناختی)
آخرین آزمون بشریت (Humanity’s Last Exam – HLE)	یک معیار فوق‌العاده دشوار جدید که توسط متخصصان حوزه («آخرین آزمون» برای هوش مصنوعی) با سوالات دقیق در ریاضیات، علوم و غیره تنظیم شده است، جایی که مدل‌های برتر فعلی نمره‌ای کمتر از ۱۰٪ کسب می‌کنند – به عنوان یک مانع نهایی در نظر گرفته شده که عبور از آن نشان‌دهنده نزدیک شدن به AGI است.	استدلال (پیشرفته)
MathArena	پلتفرمی که از مسائل جدید مسابقات ریاضی و المپیادها برای ارزیابی دقیق استدلال ریاضی LLM‌ها استفاده می‌کند؛ برای جلوگیری از آلودگی داده‌ها (contamination) با آزمایش مدل‌ها بلافاصله پس از انتشار مسائل مسابقه طراحی شده است.	استدلال (ریاضی)
MGSM (ریاضیات دبستان چندزبانه)	نسخه‌ای چندزبانه از مسائل کلمه‌ای ریاضیات دبستان (GSM8K ترجمه شده به ۱۰ زبان) برای آزمایش استدلال ریاضی در زبان‌های مختلف. (توجه: این معیار اشباع شده در نظر گرفته می‌شود زیرا بسیاری از مدل‌ها در حال حاضر به عملکرد بالایی در زنجیره تفکر دست یافته‌اند)	استدلال (ریاضی)
BBH (Big-Bench Hard)	زیرمجموعه‌ای از ۲۳ وظیفه به‌خصوص چالش‌برانگیز از مجموعه BIG-Bench که مدل‌های قبلی (مانند GPT-3) در آن‌ها شکست خوردند، برای ارزیابی استدلال ترکیبی پیشرفته و تعمیم خارج از توزیع استفاده می‌شود. (اشباع شده در نظر گرفته می‌شود.)	استدلال (وظایف سخت مختلط)
DROP (استدلال گسسته روی پاراگراف‌ها)	یک معیار درک مطلب شامل ۹۶ هزار سوال خصمانه (adversarial) که نیازمند استدلال گسسته (مانند محاسبات، مرتب‌سازی تاریخ) روی متون است – مدل‌ها باید خواندن را با استدلال نمادین ترکیب کنند.	استدلال (خواندن و ریاضی)
Context-Arena	یک جدول امتیازات (leaderboard) متمرکز بر درک زمینه طولانی: عملکرد LLM را در وظایفی مانند پاسخ به سوالات از اسناد طولانی و تفکیک ارجاع چندنوبتی (multi-turn reference resolution) (مانند آزمون MRCR OpenAI برای یادآوری زمینه طولانی) به تصویر می‌کشد.	استدلال (زمینه طولانی)
Fiction-Live Bench (نوشتن خلاقانه داستان کوتاه)	یک معیار نوشتن خلاقانه که از مدل‌ها می‌خواهد داستان‌های کوتاهی بنویسند که حدود ۱۰ عنصر مشخص مورد نیاز (شخصیت‌ها، اشیاء، مضامین و غیره) را در خود جای دهند و ارزیابی می‌کند که یک LLM چقدر انسجام روایی را حفظ کرده و در عین حال به محدودیت‌های محتوایی پایبند است.	نوشتن طولانی (خلاقانه)
AidanBench	یک معیار تولید ایده با پایان باز که در آن مدل‌ها به سوالات خلاقانه با بیشترین تعداد ایده‌های منحصربه‌فرد و منسجم ممکن پاسخ می‌دهند – فروپاشی مُد (mode collapse) و پاسخ‌های تکراری را جریمه می‌کند، و عملاً هیچ سقفی برای امتیاز خروجی‌های واقعاً بدیع وجود ندارد.	تفکر خلاق
EQ-Bench (معیار هوش هیجانی)	درک LLM از استدلال هیجانی و اجتماعی را از طریق وظایفی مانند گفتگوی همدلانه یا نوشتن خلاقانه با ظرافت هیجانی ارزیابی می‌کند، که توسط یک داور LLM بر اساس جنبه‌های هوش هیجانی امتیازدهی می‌شود.	نوشتن طولانی (IQ هیجانی)
HumanEval	معیار کدنویسی OpenAI شامل ۱۶۴ مسئله پایتون دست‌نویس که در آن مدل باید کد صحیح را برای یک مشخصات معین تولید کند، برای اندازه‌گیری صحت عملکردی در برنامه‌نویسی پایه استفاده می‌شود.	کدنویسی
Aider Polyglot Coding	یک معیار ویرایش کد از Aider: شامل ۲۲۵ چالش کدنویسی از Exercism در زبان‌های C++، Go، Java، JavaScript، Python و Rust، که توانایی LLM را در دنبال کردن دستورالعمل‌ها برای تغییر یا نوشتن کد به چندین زبان اندازه‌گیری می‌کند.	کدنویسی (چندزبانه)
BigCodeBench	یک معیار بزرگ شامل ۱۱۴۰ وظیفه برنامه‌نویسی متنوع و واقع‌گرایانه (با فراخوانی توابع پیچیده و مشخصات) برای ارزیابی قابلیت‌های واقعی کدنویسی فراتر از مسائل الگوریتمی ساده.	کدنویسی
WebDev Arena	یک چالش کدنویسی به سبک آرنا که در آن دو LLM برای ساخت یک برنامه وب کاربردی از روی همان اعلان (prompt) با یکدیگر رقابت می‌کنند و امکان ارزیابی مهارت‌های عملی توسعه وب از طریق مقایسه‌های زوجی انسانی را فراهم می‌کند.	کدنویسی (توسعه وب)
SciCode	یک معیار کدنویسی پژوهش‌محور با ۳۳۸ مسئله کدنویسی برگرفته از حوزه‌های علمی (ریاضیات، فیزیک، شیمی، زیست‌شناسی) – آزمایش می‌کند که آیا مدل‌ها می‌توانند برای حل مسائل علمی چالش‌برانگیز در سطح دکترا کد بنویسند.	کدنویسی (علمی)
METR (وظایف طولانی)	یک چارچوب ارزیابی که پیشنهاد می‌کند عملکرد هوش مصنوعی را بر اساس طول وظیفه اندازه‌گیری کند: طولانی‌ترین و پیچیده‌ترین وظایفی را که یک عامل هوش مصنوعی می‌تواند به طور مستقل تکمیل کند، به عنوان نماینده‌ای از رشد قابلیت کلی بررسی می‌کند.	رفتار عامل‌محور (افق طولانی)
RE-Bench (مهندسی پژوهش)	معیاری از METR که عامل‌های هوش مصنوعی پیشرفته را در مقابل مهندسان یادگیری ماشین انسانی در وظایف پیچیده پژوهش و مهندسی ML (مانند بازتولید آزمایش‌ها) قرار می‌دهد و ارزیابی می‌کند که هوش مصنوعی چقدر به خودکارسازی کارهای تحقیق و توسعه ML نزدیک است.	رفتار عامل‌محور (وظایف تحقیق و توسعه)
PaperBench	معیار OpenAI که ارزیابی می‌کند آیا عامل‌های هوش مصنوعی می‌توانند تحقیقات پیشرفته هوش مصنوعی را تکرار کنند – به عامل‌ها مقالات ML اخیر (مانند ICML 2024) داده می‌شود و وظیفه دارند نتایج را از ابتدا مجدداً پیاده‌سازی و بازتولید کنند، که برنامه‌ریزی، کدنویسی و اجرای آزمایش را آزمایش می‌کند.	رفتار عامل‌محور (اتوماسیون پژوهش)
SWE-Lancer	معیاری شامل ۱۴۰۳ وظیفه واقعی مهندسی نرم‌افزار فریلنسری (از Upwork، به ارزش کل ۱ میلیون دلار) برای ارزیابی اینکه آیا LLM‌های پیشرفته می‌توانند کارهای کدنویسی سرتاسری را تکمیل کنند – عملکرد هوش مصنوعی را مستقیماً به درآمدهای بالقوه نگاشت می‌کند.	رفتار عامل‌محور (کدنویسی در دنیای واقعی)
MLE-Bench	معیار مهندس یادگیری ماشین OpenAI با ۷۵ وظیفه ML در دنیای واقعی (مانند مسابقات Kaggle) – ارزیابی می‌کند که یک عامل هوش مصنوعی چقدر می‌تواند گردش کار سرتاسری مسائل ML، از جمله مدیریت داده، آموزش و تحلیل را انجام دهد.	رفتار عامل‌محور (AutoML)
SWE-Bench	معیاری از پرینستون/OpenAI شامل ۲۲۹۴ مسئله GitHub (با پایگاه‌های کد مرتبط) – مدل‌ها باید به عنوان عامل‌های نرم‌افزاری عمل کنند که یک مخزن (repo) را می‌خوانند، سپس برای حل مسئله وصله‌هایی (patches) می‌نویسند و تمام تست‌ها را با موفقیت پشت سر می‌گذارند؛ این معیار به دقت گردش کار توسعه‌دهندگان واقعی را تقلید می‌کند.	رفتار عامل‌محور (نگهداری کد)
Tau-Bench (ابزار-عامل-کاربر)	معیار Sierra AI برای عامل‌های تعاملی در سناریوهای واقع‌گرایانه – عامل با یک کاربر شبیه‌سازی شده گفتگو می‌کند و از ابزارها برای انجام وظایف در حوزه‌هایی مانند خرده‌فروشی (لغو سفارش‌ها و غیره) یا خطوط هوایی استفاده می‌کند، که استفاده چندنوبتی از ابزار و برنامه‌ریزی پویا را آزمایش می‌کند.	رفتار عامل‌محور (استفاده از ابزار)
XLANG Agent	یک چارچوب باز و جدول امتیازات (HKU) برای عامل‌های چندزبانه – توانایی عامل‌ها را در انجام وظایفی که شامل چندین زبان هستند ارزیابی می‌کند و تطبیق‌پذیری و استدلال عامل را در موانع زبانی منعکس می‌کند.	رفتار عامل‌محور (عامل‌های چندزبانه)
Balrog-AI	معیاری برای استدلال عامل‌محور در بازی‌ها: LLM‌ها (و VLM‌ها) را با بازی یک ماجراجویی متنی یا تکمیل اهداف بازی با افق طولانی به چالش می‌کشد و برنامه‌ریزی، حافظه و تصمیم‌گیری را در یک محیط تعاملی ارزیابی می‌کند.	رفتار عامل‌محور (بازی)
Snake-Bench	یک چالش LLM-به-عنوان-بازیکن-مار که در آن مدل‌ها یک مار را در یک بازی شبیه‌سازی شده مار کنترل می‌کنند؛ چندین «مار» LLM با هم رقابت می‌کنند و توانایی مدل را در استراتژی‌پردازی و واکنش در یک محیط نوبتی با پیامدهای بلندمدت آزمایش می‌کنند.	رفتار عامل‌محور (بازی)
SmolAgents LLM	یک جدول امتیازات HuggingFace که وظایف عامل خودمختار در مقیاس کوچک (زیرمجموعه‌ای کوچک از معیار عامل GAIA و برخی وظایف ریاضی) را ارزیابی می‌کند – رتبه‌بندی می‌کند که چگونه مدل‌های متن‌باز و بسته هنگام استقرار به عنوان عامل‌های حداقلی عمل می‌کنند.	رفتار عامل‌محور (عامل‌ها)
MMMU (درک چندوجهی چندرشته‌ای عظیم)	یک معیار چندوجهی جامع با مسائل سطح دانشگاهی که شامل متن و تصویر (نمودارها، چارت‌ها و غیره) است و از مدل‌ها می‌خواهد اطلاعات بصری را با دانش موضوعی پیشرفته و استدلال ادغام کنند.	چندوجهی (استدلال)
MC-Bench (معیار Minecraft)	یک معیار تعاملی که در آن LLM‌ها ساختارهای Minecraft یا راه‌حل‌هایی تولید می‌کنند که از طریق مقایسه‌های انسانی (مانند Minecraft Arena) ارزیابی می‌شوند؛ استدلال فضایی و خلاقیت را در یک جعبه شنی (sandbox) بصری آزمایش می‌کند و ارزیابی را پویاتر و با پایان بازتر می‌کند.	چندوجهی (تعاملی)
SEAL by Scale (جدول امتیازات چندچالشی)	جدول امتیازات ارزیابی چندچالشی Scale AI که طیف گسترده‌ای از وظایف را در یک رتبه‌بندی واحد جمع‌آوری می‌کند – مقایسه‌ای جامع از مدل‌ها در چالش‌های متنوع ارائه می‌دهد (بخش «MultiChallenge» قابلیت کلی را به نمایش می‌گذارد).	فرامعیارسنجی (چندوظیفه‌ای)
LMArena (Chatbot Arena)	یک جدول امتیازات به سبک Elo با جمع‌سپاری که در آن مدل‌ها در مکالمات چت زوجی (که توسط کاربران قضاوت می‌شود) دوئل می‌کنند؛ کیفیت/ترجیحات عمومی را با رقابت مدل‌ها در گفتگوی با پایان باز آشکار می‌کند.	فرامعیارسنجی (ترجیح انسانی)
LiveBench	یک مجموعه ارزیابی همیشه‌سبز که ماهانه با داده‌های آزمایشی تازه و بدون آلودگی در ۱۸ وظیفه (ریاضی، کدنویسی، استدلال، زبان، پیروی از دستورالعمل، تحلیل داده) به‌روز می‌شود. یک معیار به‌روز برای پیگیری پیشرفت مدل در طول زمان ارائه می‌دهد.	فرامعیارسنجی (چندوظیفه‌ای)
OpenCompass	یک پلتفرم ارزیابی LLM متن‌باز که از بیش از ۱۰۰ مجموعه داده پشتیبانی می‌کند. به عنوان یک چارچوب و جدول امتیازات یکپارچه برای محک زدن طیف گسترده‌ای از مدل‌ها (GPT-4، Llama، Mistral و غیره) در بسیاری از وظایف عمل می‌کند و امکان مقایسه سیب‌به‌سیب مدل‌ها را فراهم می‌آورد.	فرامعیارسنجی (پلتفرم)
Dubesor LLM	یک جمع‌آورنده بنچمارک شخصی اما گسترده (به نام «rosebud» به صورت معکوس): مقایسه مداوم یک فرد از مدل‌های مختلف در ده‌ها وظیفه سفارشی، که در یک امتیاز وزنی واحد برای هر مدل ترکیب شده است.	فرامعیارسنجی (جمع‌آورنده)

درک بنچمارک‌های LLM

برای درک بهتر برخی از این معیارها، در ادامه جزئیات بیشتری در مورد چند مورد از محبوب‌ترین آن‌ها که برای ارزیابی LLM استفاده می‌شوند، ارائه شده است.

بنچمارک‌های درک دانش عمومی و زبان

معیارهای رایج طراحی شده برای آزمایش درک زبان طبیعی یک مدل عبارتند از:

۱. بنچمارک MMLU

بنچمارک درک زبان چندوظیفه‌ای عظیم (MMLU) یک بنچمارک همه‌منظوره است که برای ارزیابی مدل در برابر موضوعات متنوع طراحی شده است. این بنچمارک شامل سوالات چندگزینه‌ای است که ۵۷ موضوع از جمله علوم، فناوری، مهندسی و ریاضیات (STEM)، علوم اجتماعی، علوم انسانی و غیره را پوشش می‌دهد. دشواری سوالات از سطح ابتدایی تا پیشرفته حرفه‌ای متغیر است.

در اینجا یک نمونه سوال از مجموعه داده مربوط به اخلاق تجاری آورده شده است:

_______ مانند بیت‌کوین به طور فزاینده‌ای در حال تبدیل شدن به جریان اصلی هستند و مجموعه‌ای کامل از پیامدهای اخلاقی مرتبط را به همراه دارند، به عنوان مثال، آن‌ها ______ و ______تر هستند. با این حال، از آن‌ها برای مشارکت در _______ نیز استفاده شده است.

الف. رمزارزها، گران، امن، جرایم مالی
ب. ارز سنتی، ارزان، ناامن، کمک‌های خیریه
ج. رمزارزها، ارزان، امن، جرایم مالی
د. ارز سنتی، گران، ناامن، کمک‌های خیریه

توجه: MMLU به طور گسترده‌ای اشباع شده در نظر گرفته می‌شود و معمولاً معیار مناسبی برای مقایسه مدل‌های امروزی نیست. با این حال، با توجه به کاربرد رایج و تاریخی آن، هنوز هم ارزش آشنایی دارد.

۲. چالش استدلال AI2 (ARC)

چالش استدلال AI2 (ARC) مجموعه‌ای از ۷۷۸۷ سوال علوم در سطح دبستان است. این مجموعه داده به دو بخش آسان و چالشی تقسیم شده است، که بخش چالشی شامل سوالاتی است که هم توسط یک الگوریتم مبتنی بر بازیابی و هم یک الگوریتم وقوع کلمه به اشتباه پاسخ داده شده‌اند.

در اینجا یک نمونه سوال از مجموعه داده آورده شده است:

سوال: جورج می‌خواهد با مالیدن دستانش به سرعت آن‌ها را گرم کند. کدام سطح پوست بیشترین گرما را تولید می‌کند؟

الف. کف دست خشک
ب. کف دست خیس
ج. کف دست پوشیده از روغن
د. کف دست پوشیده از لوسیون

۳. SuperGLUE

SuperGLUE یک نسخه پیشرفته از بنچمارک اصلی درک عمومی زبان (GLU) است. این بنچمارک شامل ۸ وظیفه درک زبان است. SuperGLUE شامل وظایف متنوعی مانند درک مطلب، پیامد متنی (textual entailment)، پاسخ به پرسش و تفکیک ضمیر (pronoun resolution) است که آن را به یک معیار جامع‌تر از GLUE اصلی تبدیل می‌کند.

یک نمونه وظیفه از این مجموعه داده:

فرض اولیه (Premise): سگ گربه را تعقیب کرد.
فرضیه (Hypothesis): گربه از دست سگ فرار می‌کرد.
برچسب (Label): پیامد (Entailment)

بنچمارک‌های کدنویسی

۴. HumanEval

معیار ارزیابی دستی (Hand-written Evaluation Benchmark) مجموعه‌ای از چالش‌های برنامه‌نویسی است که برای سنجش توانایی‌های کدنویسی یک مدل طراحی شده‌اند. این مجموعه برای نخستین‌بار در مقاله‌ی «Evaluating Large Language Model Trained on Code» معرفی شد و شامل 164 چالش برنامه‌نویسی به‌صورت دستی نوشته‌شده است.

این چالش‌ها به‌صورت دستی تهیه شده‌اند زیرا اکثر مدل‌های زبانی بزرگ (LLMها) پیش‌تر با داده‌هایی که از مخازن GitHub جمع‌آوری شده‌اند آموزش دیده‌اند. هر مسئله شامل امضای تابع (function signature)، توضیح عملکرد (docstring)، بدنه‌ی تابع (body)، و چندین تست واحد (unit test) است؛ به‌طور میانگین ۷٫۷ تست برای هر مسئله در نظر گرفته شده است.

در ادامه یک نمونه از مسائل موجود در این مجموعه ارائه شده است:

def solution(lst):
    """Given a non-empty list of integers, return the sum of all of the odd elements
    that are in even positions.

    Examples
    solution([5, 8, 7, 1])=12
    solution([3, 3, 3,3, 3]) =9
    solution([30, 13, 24, 321]) =0
    """

LLMs output: return sum(lst[i] for i in range(0,len(lst)) if i % 2 == 0 and lst[i] % 2 == 1)

۵. CodeXGLUE

مجموعه داده بنچمارک CodeXGLUE برای آزمایش درک و تولید کد توسط LLM‌ها ساخته شده است. این مجموعه شامل ۱۰ وظیفه در ۱۴ مجموعه داده و یک پلتفرم برای ارزیابی و مقایسه مدل‌ها است. وظایف را می‌توان به ۴ دسته بالاتر تقسیم کرد:

کد به کد: این شامل ترجمه کد، تکمیل کد، اشکال‌زدایی و تعمیر کد است.
متن به کد: این شامل تولید کد از توضیحات زبان طبیعی و تجزیه و تحلیل معنایی بین کد و توضیحات متنی است.
کد به متن: این شامل خلاصه‌سازی و توضیح کد است.
متن به متن: این شامل ترجمه مستندات کد از یک زبان طبیعی به زبان دیگر است.

در اینجا مثالی از وظیفه ترجمه کد آورده شده است:

یک مثال در مجموعه داده ترجمه کد، وظیفه ترجمه کد از بنچمارک CodeXGLUE – منبع

۶. SWE-Bench

بنچمارک SWE-Bench شامل ۲۲۹۴ مسئله واقعی مهندسی نرم‌افزار است که از GitHub استخراج شده‌اند. وظایف شامل درک نظرات از درخواست‌های pull در GitHub و ایجاد تغییرات مرتبط در پایگاه کد است. LLM وظیفه دارد مسئله را شناسایی و حل کرده و تست‌ها را اجرا کند تا از صحت عملکرد همه چیز اطمینان حاصل شود.

بنچمارک‌های استدلال

در اینجا چند معیار آورده شده است که توانایی مدل را در انجام استدلال منطقی برای رسیدن به نتیجه آزمایش می‌کنند.

۷. GSM8k

GSM8k شامل ۸.۵ هزار مسئله ریاضی در سطح دبستان و از نظر زبانی متنوع است. این مسائل به زبان طبیعی بیان شده‌اند، که درک آن‌ها را برای مدل‌های هوش مصنوعی چالش‌برانگیز می‌کند. این معیار توانایی LLM‌ها را در تجزیه مسئله به زبان طبیعی، تشکیل یک زنجیره تفکر و رسیدن به راه‌حل آزمایش می‌کند.

در اینجا یک نمونه مسئله از مجموعه داده آورده شده است:

مسئله: بث در یک هفته ۴ دسته ۲ دوجینی کلوچه می‌پزد. اگر این کلوچه‌ها به طور مساوی بین ۱۶ نفر تقسیم شوند، هر نفر چند کلوچه مصرف می‌کند؟

راه‌حل: بث ۴ * ۲ = ۸ دوجین کلوچه می‌پزد. در هر دوجین ۱۲ کلوچه وجود دارد، بنابراین او ۱۲ * ۸ = ۹۶ کلوچه درست می‌کند. او ۹۶ کلوچه را به طور مساوی بین ۱۶ نفر تقسیم می‌کند، بنابراین هر نفر ۹۶ / ۱۶ = ۶ کلوچه می‌خورد.

پاسخ نهایی: ۶

۸. ارزیابی استدلال خلاف واقع (CRASS)

CRASS یک طرح آزمایشی جدید با استفاده از به اصطلاح شرطی‌های خلاف واقع و به طور دقیق‌تر، شرطی‌های خلاف واقع سوالی ارائه می‌دهد. یک گزاره خلاف واقع، عبارتی است که سناریویی را ارائه می‌دهد که ممکن بود اتفاق بیفتد اما نیفتاده است. این‌ها همچنین معمولاً به عنوان سناریوهای «چه می‌شد اگر» شناخته می‌شوند. معیارهای CRASS شامل چندین سناریو از این دست با واقعیت‌های جایگزین هستند و درک مدل را در برابر این‌ها آزمایش می‌کنند.

یک نمونه سناریو از مجموعه داده این است:

زنی آتشی را می‌بیند. چه اتفاقی می‌افتاد اگر زن به آتش سوخت می‌رساند؟
آتش بزرگتر می‌شد.
آتش کوچکتر می‌شد.
این امکان‌پذیر نیست.

۹. Big-Bench Hard (BBH)

معیار اصلی Big-Bench شامل ۲۰۰ وظیفه در حوزه‌هایی مانند محاسبات عددی و استدلال منطقی، دانش عمومی (commonsense) و برنامه‌نویسی است. با این حال، بیشتر مدل‌های زبانی بزرگ امروزی در بسیاری از این وظایف عملکردی بهتر از ارزیاب‌های انسانی دارند. «Big-Bench Hard» زیرمجموعه‌ای از نسخه اصلی است که شامل ۲۳ وظیفه چالش‌برانگیز می‌شود که در آن‌ها هیچ مدل زبانی عملکردی بهتر از انسان نداشته است. این وظایف توانایی‌های استدلالی مدل‌ها و توسعه‌ی زنجیره‌ استدلال (chain-of-thought) را به چالش می‌کشند.

یک نمونه سؤال از این بنچ‌مارک به شکل زیر است:
سؤال: امروز، «هانا» به زمین فوتبال رفت. در چه بازه‌ی زمانی ممکن است او رفته باشد؟
ما می‌دانیم که:
هانا ساعت ۵ صبح بیدار شد. […] زمین فوتبال بعد از ساعت ۶ عصر بسته شد. […]

گزینه‌ها:
A. از ۳ بعدازظهر تا ۵ بعدازظهر
B. از ۵ بعدازظهر تا ۶ بعدازظهر
C. از ۱۱ صبح تا ۱ بعدازظهر
D. از ۱ بعدازظهر تا ۳ بعدازظهر

آیا بنچمارک‌های LLM کافی هستند؟

بنچ‌مارک‌های مربوط به مدل‌های زبانی بزرگ (LLM) ابزار بسیار خوبی برای ارزیابی عملکرد این مدل‌ها در سناریوهای دنیای واقعی هستند، اما سؤال اصلی همچنان باقی‌ست: آیا این بنچ‌مارک‌ها برای یک ارزیابی جامع کافی هستند؟ بنچ‌مارک‌هایی که تاکنون به آن‌ها اشاره شد، تنها بخش کوچکی از مجموعه‌ی موجود هستند و چارچوب‌های دیگری نیز برای وظایف متنوع‌تری وجود دارد.

علاوه بر این، هیچ مدل زبانی خاصی در تمام ارزیابی‌ها برتری ندارد، چرا که هر مدل با هدف خاصی آموزش دیده است. به عنوان مثال، مدل GPT-4.5 که به‌تازگی عرضه شده، در درک پایه‌ای زبان عملکردی بهتر از مدل قدیمی‌تر o3-mini دارد، اما در وظایف استدلال پیچیده ضعیف‌تر عمل می‌کند، چرا که به‌صورت اختصاصی برای استدلال زنجیره‌وار (Chain-of-Thought یا CoT) آموزش ندیده است.

نمرات ارزیابی برای GPT-4.5 در مقایسه با GPT-4o و o3-mini – منبع

با اینکه هر بنچ‌مارک عملکرد مدل‌های زبانی بزرگ (LLM) را در چند سناریوی خاص اندازه‌گیری می‌کند، اما این اعداد تصویر کاملی از عملکرد کلی مدل ارائه نمی‌دهند. یک مدل ممکن است در بنچ‌مارک‌های مختلف—even در یک حوزه خاص—عملکرد متفاوتی داشته باشد، چرا که هر بنچ‌مارک مجموعه‌ای متفاوت از وظایف را شامل می‌شود.

این موضوع نشان می‌دهد که بیشتر بنچ‌مارک‌ها برای ارزیابی‌هایی خاص و نسبتاً آسان طراحی شده‌اند. نمونه‌ای شاخص از یک چارچوب ارزیابی جامع، بنچ‌مارک Humanity’s Last Exam (HLE) است که یکی از معدود چارچوب‌هایی است که به‌منظور ایجاد یک معیار واحد برای سنجش عملکرد مدل طراحی شده است. HLE شامل ۲۷۰۰ وظیفه بسیار چالش‌برانگیز و چندوجهی در حوزه‌های مختلف دانشگاهی است.

نتایج به‌دست‌آمده از ارزیابی مدل‌های پیشرفته بر اساس HLE نشان می‌دهد که مدل‌های فعلی LLM هنوز با کاستی‌های جدی مواجه‌اند و همچنین بنچ‌مارک‌های متداول برای ارزیابی دقیق و همه‌جانبه‌ در دنیای امروز کافی نیستند.

بنچ‌مارک‌هایی که عملکرد ضعیف مدل‌های زبانی بزرگ (LLMها) را در آزمون HLE نشان می‌دهند – منبع

یکی دیگر از عوامل مهمی که باید در نظر گرفت این است که سیستم‌های مدرن اکنون به سمت پیاده‌سازی‌های عامل‌محور (agentic) حرکت می‌کنند.
بنچ‌مارک‌های سنتی ممکن است پاسخ تولیدی مدل را ارزیابی کنند، اما عملکرد آن را در چارچوب یک سیستم خودکار و عامل‌محور مورد سنجش قرار نمی‌دهند.

ارزیابی عامل‌محور: فراتر از LLM‌ها

یک سیستم عامل‌محور (agentic system) فراتر از درک زبان و تولید داده عمل می‌کند. چنین سیستمی شامل خواندن جریان‌های داده در زمان واقعی، تعامل با محیط، و تجزیه‌ی وظایف برای رسیدن به یک هدف مشخص است.
عامل‌های هوش مصنوعی (AI agents) به‌سرعت در حال محبوب شدن هستند و موارد استفاده‌ی جالب و کاربردی زیادی از آن‌ها در صنایعی مانند پشتیبانی مشتری، تجارت الکترونیک و امور مالی پیدا شده است. این عامل‌ها حتی در موقعیت‌های غیرمعمول ولی سرگرم‌کننده‌ای هم به کار رفته‌اند—برای مثال، مدل Claude Sonnet 3.7 از شرکت Anthropic بازی Pokemon Red را روی کنسول قدیمی Game Boy انجام داده است!

نمرات بنچ‌مارک‌های سنتی، عملکرد مدل‌ها را در سناریوهای واقعی و قابل اجرا در دنیای واقعی نشان نمی‌دهند. سیستم‌های عامل‌محور عملیاتی نیاز به بنچ‌مارک‌های تخصصی‌تری مانند AgentBench و t-bench دارند تا بتوانند توانمندی‌های عامل را به‌درستی بسنجند.
این بنچ‌مارک‌ها تعامل مدل‌های زبانی با ماژول‌هایی مانند پایگاه‌داده‌ها و گراف‌های دانش را ارزیابی کرده و عملکرد آن‌ها را در پلتفرم‌ها و سیستم‌عامل‌های مختلف بررسی می‌کنند.

علاوه بر این، عامل‌های هوش مصنوعی باید از نظر زمان انجام وظیفه نسبت به انسان‌ها نیز مورد سنجش قرار گیرند.
مطالعات نشان می‌دهد که هرچند افق زمانی برای انجام خودکار وظایف در حال رشد نمایی است، سیستم‌های عامل‌محور هنوز از نیروی انسانی عقب‌تر هستند و برای خودکارسازی کامل کارهای روزمره به زمان بیشتری نیاز دارند.

جمع‌بندی نهایی

عصر هوش مصنوعی مولد (GenAI) فرارسیده، و به‌نظر می‌رسد که ماندگار خواهد بود. مدل‌های مولد به‌سرعت در حال ادغام در جریان‌های کاری روزمره هستند، کارهای تکراری را خودکار کرده و بهره‌وری را بهبود می‌بخشند. اما با افزایش این میزان از پذیرش، ارزیابی دقیق سیستم‌های مبتنی بر مدل‌های زبانی بزرگ (LLM) و عملکرد آن‌ها در سناریوهای واقعی و چالش‌برانگیز، امری حیاتی است.

بنچ‌مارک‌های مختلفی برای ارزیابی LLMها طراحی شده‌اند که هر یک عملکرد مدل را در سناریوهای متفاوتی می‌سنجند. برخی بر توانایی مدل در استدلال منطقی تمرکز دارند، در حالی که برخی دیگر بر توانایی حل مسائل برنامه‌نویسی و تولید کد تأکید می‌کنند.
با این حال، با عرضه مدل‌های جدیدتر و هوشمندتر، حتی محبوب‌ترین بنچ‌مارک‌ها نیز برای ارزیابی کامل مدل‌ها ناکافی به‌نظر می‌رسند.
بنچ‌مارک‌هایی مانند HLE نشان می‌دهند که حتی مدل‌های پیشرفته‌ی امروزی نیز در شرایط دشوار می‌توانند ضعف‌هایی از خود نشان دهند.

علاوه بر این، با افزایش استقبال از هوش مصنوعی عامل‌محور (agentic AI)، نیاز به روش‌های ارزیابی جدیدتر و مقاوم‌تری برای سیستم‌های سرتاسری (end-to-end) داریم. بنچ‌مارک‌های سنتی توانایی مدل در درک محیط یا رسیدن به یک هدف مشخص را مورد ارزیابی قرار نمی‌دهند.

با پیشرفت GenAI، معیارهای ارزیابی نیز باید تکامل یابند تا پاسخ‌گوی نیازهای عملی و فزاینده‌ باشند. استانداردهای جدیدی باید تعریف شوند تا اطمینان حاصل شود که پذیرش هوش مصنوعی با ایمنی و کارایی همراه باشد.

بیشتر بخوانیم:

ارزیابی مدل‌های زبانی و LLM ها

شورتکات‌ها در مدل‌های زبانی بزرگ (LLM): چالشی پنهان در ارزیابی هوش مصنوعی

AI agentها یا عامل‌های هوش مصنوعی چیستند؟

منبع: https://arize.com/blog/llm-benchmarks-mmlu-codexglue-gsm8k

۴۰ معیار برتر مدل‌های زبان بزرگ (LLM) با پشتوانه تحقیقاتی و موارد استفاده آن‌ها

فهرست مطالب

معیارهای ارزیابی: هوش مصنوعی سنتی در مقابل هوش مصنوعی مولد

۴۰ بنچمارک LLM