مقدمهای بر Reinforcement Learning و نقش آن در LLMها

در این پست قراره به Reinforcement Learning (RL) و تاثیر آن روی آموزش مدلهای زبانی بزرگ بپردازیم. تمرکز ما روی Reinforcement Learning برای مدلهای زبانی خواهد بود. البته Reinforcement Learning یا به اختصار RL که در فارسی یادگیری تقویتی نامیده میشود، حوزهی گستردهایست و کاربردهای زیاد و فراتر از مدلهای زبانی دارد.
حتی اگر تا به حال با این موضوغ آشنا نبوده باشید، این پست قصد دارد مفاهیم اصلی رو به سادهترین شکل توضیح داده و دلیل اهمیت RL در حوزهی Large Language Models را بررسی کند.
- Reinforcement Learning چیست؟
- اجزای اصلی RL
- فرایند یادگیری: آزمون و خطا
- نقش RL در مدلهای زبانی بزرگ (LLMs)
- Reinforcement Learning from Human Feedback (RLHF)
- چرا GRPO؟
Reinforcement Learning چیست؟
فرض کنید میخواید به یه سگ آموزش بدید بشینه. میگید “بشین!”، اگه نشست یه تشویقی و تحسین میگیره. اگه ننشست، شاید کمی راهنماییش کنید یا دوباره تلاش کنید. کمکم سگ یاد میگیره که نشستن با تشویقی همراهه و دفعهی بعدی که “بشین!” بشنوه، احتمال اینکه بشینه بیشتر میشه. توی RL، به این بازخورد میگیم reward.
خلاصهی قضیه همینه! به جای سگ، یه language model داریم (که توی RL بهش agent میگیم)، و به جای شما، یه environment که بازخورد میده.
اجزای اصلی RL
- Agent
یادگیرندهی ماست. توی مثال سگ، خود سگ agent است. برای LLM، خود مدل زبانی agent محسوب شده که آموزش میبیند. - Environment
دنیایی که agent توش زندگی میکنه و باهاش تعامل داره. برای سگ، محیط خونه و شما هستید. برای LLM، محیط میتونه کاربران یا سناریوی شبیهسازیشدهای باشه که براش درست میکنیم. محیط همواره بازخورد (reward) میده. - Action
انتخابهایی که agent میتونه بکنه. برای سگ، “بشین”، “پاشو”، “پارس کن” و غیره. برای LLM ما، actionها میتوانند تولید کلمات در جمله، انتخاب پاسخ به سؤال یا چگونگی واکنش در مکالمه باشه. - Reward
بازخوردی که محیط بعد از هر action میده. معمولاً عددی است.- Positive rewards مثل تشویقی و تحسین: “آفرین، کارت درسته!”
- Negative rewards (penalties): یه “نه” ملایم که میگه “این درست نبود، چیز دیگهای امتحان کن”.
- Policy
استراتژی agent برای انتخاب action. مثل فهم سگ از اینکه وقتی “بشین!” میشنوه باید بشینه. در RL، هدف اصلی همینه که policy رو یاد بگیریم و بهبود بدیم.
فرایند یادگیری: آزمون و خطا
یادگیری تقویتی (Reinforcement Learning) از طریق فرایند آزمون و خطا انجام میشود.
مرحله | فرآیند | توضیح |
---|---|---|
1.مشاهده(Observation) | عامل (Agent) محیط را مشاهده میکند | اطلاعاتی دربارهی وضعیت فعلی و اطراف خود دریافت میکند. |
2.عمل (Action) | عامل بر اساس سیاست فعلی خود یک عمل انجام میدهد | با استفاده از سیاست (Policy) یادگرفتهشده، تصمیم میگیرد که چه کاری انجام دهد. |
3.بازخورد(Feedback) | محیط به عامل پاداش میدهد | عامل بازخوردی دریافت میکند که نشان میدهد عملش چقدر خوب یا بد بوده است. |
4.یادگیری(Learning) | عامل سیاست خود را بر اساس پاداش بهروزرسانی میکند | استراتژی خود را اصلاح میکند: اعمال مؤثر منجر به پاداش را تقویت کرده و از اعمال با پاداش کم اجتناب میکند. |
5.تکرار(Iteration) | فرآیند تکرار میشود | این چرخه ادامه مییابد و به عامل کمک میکند تا تصمیمگیری خود را بهطور مداوم بهبود بخشد. |
مثل یادگیری دوچرخهسواری: اول ممکنه بیثبات باشی و بیفتی (negative reward!)، اما وقتی متعادل میشی و خوب پدال میزنی، حس خوبی داری (positive reward!) و بر اساس همین بازخوردها حرکاتت اصلاح میشه. یادگیری تقویتی هم مشابه همین است! یادگیری از طریق تعامل و بازخورد.
نقش RL در مدلهای زبانی بزرگ (LLMs)
آموزش مدلهای زبانی قدرتمند، کار سختیه. با pre-training روی حجم عظیمی از متنها، مدل یاد میگیره کلمهی بعدی رو پیشبینی کنه و متن روان و درست بسازه. اما فقط روان بودن کافی نیست؛ میخوایم مدلها:
- Helpful: اطلاعات مفید و مرتبط بدن.
- Harmless: از تولید محتوای سمی یا جانبدارانه پرهیز کنن.
- Aligned with Human Preferences: طوری واکنش بدن که برای انسانها طبیعی، مفید و جذاب باشه.
Pre-training و supervised training گاهی در این موارد ضعف دارن. مدلهای fine-tuned ممکنه متن ساختاری و روان بسازن ولی برحق نباشن یا سؤال کاربر رو واقعاً جواب ندن. اینجاست که Reinforcement Learning وارد عمل میشه!
Reinforcement Learning from Human Feedback (RLHF)
یک تکنیک بسیار رایج برای همراستا کردن مدلهای زبانی، یادگیری تقویتی با بازخورد انسانی (RLHF) است. در RLHF، از بازخورد انسانی بهعنوان جایگزینی برای سیگنال «پاداش» در یادگیری تقویتی استفاده میکنیم. روند کار به این صورت است:
۱. دریافت ترجیحات انسانی:
ما ممکن است از انسانها بخواهیم پاسخهای مختلفی را که مدل زبانی بزرگ (LLM) برای یک ورودی تولید کرده مقایسه کنند و بگویند کدام پاسخ را ترجیح میدهند.
مثلاً به یک انسان دو پاسخ مختلف به سؤال «پایتخت ایران چیست؟» را نشان میدهیم و از او میپرسیم: «کدام پاسخ بهتر است؟»
۲. آموزش یک مدل پاداش:
از این دادههای ترجیح انسانی برای آموزش مدلی جداگانه به نام مدل پاداش (Reward Model) استفاده میکنیم.
این مدل یاد میگیرد که پیشبینی کند انسانها چه نوع پاسخهایی را ترجیح میدهند. همچنین پاسخها را بر اساس معیارهایی مانند مفید بودن، بیخطر بودن، و همراستایی با ترجیحات انسانی امتیازدهی میکند.
۳. Fine-tune کردن LLM با RL:
در این مرحله، از مدل پاداش بهعنوان محیط برای عامل LLM استفاده میکنیم.
LLM پاسخهایی تولید میکند (عمل)، و مدل پاداش این پاسخها را امتیازدهی میکند (پاداش میدهد).
در واقع، ما در حال آموزش LLM برای تولید متنی هستیم که مدل پاداش (که از ترجیحات انسانی آموخته) آن را خوب میداند.
از دیدگاهی کلی، بیایید به مزایای استفاده از یادگیری تقویتی (RL) در مدلهای زبانی بزرگ (LLMها) نگاهی بیندازیم:
مزیت | توضیح |
---|---|
کنترل بهتر | یادگیری تقویتی به ما امکان میدهد تا کنترل بیشتری روی نوع متنی که مدلهای زبانی تولید میکنند داشته باشیم. ما میتوانیم آنها را راهنمایی کنیم تا متونی تولید کنند که با اهداف خاصی مانند مفید بودن، خلاقانه بودن یا مختصر بودن هماهنگ باشند. |
هماهنگی بهتر با ارزشهای انسانی | بهطور خاص، RLHF به ما کمک میکند تا مدلهای زبانی را با ترجیحات انسانی پیچیده و اغلب ذهنی هماهنگ کنیم. نوشتن قوانین مشخص برای «چه چیزی یک پاسخ خوب را میسازد» دشوار است، اما انسانها میتوانند به راحتی پاسخها را قضاوت و مقایسه کنند. RLHF به مدل اجازه میدهد از این قضاوتهای انسانی یاد بگیرد. |
کاهش رفتارهای نامطلوب | RL میتواند برای کاهش رفتارهای منفی در مدلهای زبانی استفاده شود، مانند تولید زبان سمی، گسترش اطلاعات نادرست یا نشان دادن سوگیریها. با طراحی پاداشهایی که این رفتارها را جریمه میکنند، میتوانیم مدل را بهسمت اجتناب از آنها سوق دهیم. |
یادگیری تقویتی از بازخورد انسانی (RLHF) برای آموزش بسیاری از مدلهای زبانی محبوب امروزی استفاده شده است، از جمله GPT-4 شرکت OpenAI و Gemini گوگل، و R1 از DeepSeek.
تکنیکهای متنوعی برای پیادهسازی RLHF وجود دارد که از نظر پیچیدگی و پیشرفت، سطوح متفاوتی دارند.
در این سلسله پستها، ما بر روی Group Relative Policy Optimization (GRPO) تمرکز خواهیم کرد، که روشی مؤثر برای آموزش مدلهای زبانی است تا خروجیهایی مفید، بیضرر و منطبق با ترجیحات انسانی تولید کنند.
چرا باید به GRPO (بهینهسازی سیاست نسبی گروهی) اهمیت بدهیم؟
تکنیکهای زیادی برای RLHF (یادگیری تقویتی از بازخورد انسانی) وجود دارد، اما این سلسله پستها بر GRPO تمرکز دارد، زیرا این روش پیشرفت قابلتوجهی در یادگیری تقویتی برای مدلهای زبانی بهشمار میرود.
بیایید بهطور خلاصه دو تکنیک محبوب دیگر در RLHF را مرور کنیم:
-
Proximal Policy Optimization (PPO)
-
Direct Preference Optimization (DPO)
PPO یکی از نخستین و مؤثرترین تکنیکها برای RLHF بود. این روش از الگوریتم گرادیان سیاست برای بهروزرسانی سیاست بر اساس پاداش دریافتی از یک مدل پاداش جداگانه استفاده میکند.
DPO بعدها به عنوان روشی سادهتر توسعه یافت که نیاز به مدل پاداش جداگانه را حذف میکند و مستقیماً از دادههای ترجیح استفاده میکند. اساساً این روش مسئله را بهصورت یک مسئله طبقهبندی بین پاسخ انتخابشده و پاسخ ردشده در نظر میگیرد.
PPO و DPO هر دو الگوریتمهای پیچیده یادگیری تقویتی هستند. اگر علاقهمند هستید بیشتر درباره آنها بدانید، میتوانید منابع زیر را بررسی کنید:
برخلاف DPO و PPO،روش GRPO نمونههای مشابه را گروهبندی کرده و آنها را بهصورت گروهی با یکدیگر مقایسه میکند. این رویکرد مبتنی بر گروه، گرادیانهای پایدارتر و ویژگیهای همگرایی بهتری نسبت به سایر روشها ارائه میدهد.
GRPO مانند DPO از دادههای ترجیح استفاده نمیکند، بلکه گروههایی از نمونههای مشابه را با استفاده از سیگنال پاداش دریافتی از یک مدل یا تابع با یکدیگر مقایسه میکند.
GRPO در نحوه دریافت سیگنال پاداش انعطافپذیر است – میتواند با یک مدل پاداش (مشابه PPO) کار کند، اما بهطور الزامآور به آن نیاز ندارد. دلیلش این است که GRPO میتواند سیگنال پاداش را از هر تابع یا مدلی که قادر به ارزیابی کیفیت پاسخها باشد، دریافت کند.
برای مثال، میتوانیم از یک تابع طول برای پاداش دادن به پاسخهای کوتاهتر، یک حلکننده ریاضی برای بررسی درستی راهحل، یا تابعی برای صحت اطلاعات استفاده کنیم تا پاسخهایی که دقیقتر هستند پاداش بگیرند. این انعطافپذیری، GRPO را به ابزاری بسیار کاربردی برای انواع مختلف وظایف همترازی تبدیل میکند.
تبریک! شما بخش اول را به پایان رساندید!
شما اکنون درک خوبی از یادگیری تقویتی و نقش کلیدی آن در شکلدادن به آینده مدلهای زبانی بزرگ (LLMها) دارید. مفاهیم پایه RL را آموختید، دلایل استفاده از آن برای LLMها را فهمیدید و با الگوریتم کلیدی GRPO آشنا شدید.
در بخش بعدی، وارد جزئیات مقاله DeepSeek R1 خواهیم شد تا ببینیم این مفاهیم در عمل چگونه پیادهسازی میشوند!
دیدگاهتان را بنویسید