فراموشی فاجعه‌بار در مدل‌های زبانی بزرگ و راه‌های مقابله با آن

تصور کنید مدلی را برای ترجمه‌ی فارسی به انگلیسی آموزش داده‌اید. حالا می‌خواهید همین مدل را برای خلاصه‌سازی متون فارسی هم آموزش دهید. مشکل اینجاست که با آموزش دادن مدل روی وظیفه‌ی جدید، ممکن است عملکرد آن در وظیفه‌ی قبلی (ترجمه) به شدت کاهش یابد، گویی مدل تمام آموخته‌های قبلی خود را فراموش کرده است! این پدیده همان فراموشی فاجعه‌بار (Catastrophic Forgetting) است.

تنظیم دقیق روی یک وظیفه برای LLM

وقتی یک LLM را روی یک وظیفه خاص تنظیم دقیق (Fine-tune) می‌کنیم، در واقع وزن‌های مدل را برای بهبود عملکرد در آن وظیفه تغییر می‌دهیم. این تغییرات می‌توانند باعث شوند اطلاعات مربوط به وظایف قبلی از بین بروند.

چگونه از فراموشی فاجعه‌بار جلوگیری کنیم؟

قبل از هر چیز، توجه داشته باشید که ممکن است اصلاً نیازی به نگرانی در مورد فراموشی فاجعه‌بار نداشته باشید! اگر وظیفه‌ی جدید بسیار شبیه به وظیفه‌ی قبلی باشد، احتمال فراموشی کمتر است. اما اگر وظایف تفاوت زیادی دارند، می‌توانید از روش‌های زیر استفاده کنید:

تنظیم دقیق روی چندین وظیفه همزمان: به جای آموزش مدل روی هر وظیفه به صورت جداگانه، می‌توانید تمام وظایف را همزمان به مدل آموزش دهید. این روش به مدل کمک می‌کند تا تعادلی بین وظایف مختلف برقرار کند و از فراموشی اطلاعات مربوط به وظایف قبلی جلوگیری کند.
استفاده از روش‌های تنظیم دقیق پارامتر-کارا (PEFT): روش‌های PEFT مانند Adapter، LoRA و Prefix-tuning به جای تغییر تمام وزن‌های مدل، فقط تعداد کمی از پارامترها را تغییر می‌دهند. این کار باعث کاهش احتمال فراموشی فاجعه‌بار می‌شود و همچنین نیاز به حافظه‌ی کمتری دارد.

تنظیم دقیق چندوظیفه‌ای و مبتنی بر دستورالعمل

تنظیم دقیق چندوظیفه‌ای (Multi-task fine-tuning) همانطور که گفته شد، روشی است که در آن مدل روی چندین وظیفه به طور همزمان آموزش می‌بیند. تنظیم دقیق مبتنی بر دستورالعمل (Instruction fine-tuning) نیز روشی است که در آن مدل با استفاده از دستورالعمل‌های مختلف آموزش می‌بیند. به عنوان مثال، به جای دادن فقط متن برای ترجمه، می‌توانیم به مدل دستورالعمل “متن زیر را به انگلیسی ترجمه کن” را بدهیم. این روش به مدل کمک می‌کند تا درک بهتری از وظایف مختلف داشته باشد و به طور کلی‌تر عمل کند.

تنظیم دقیق با FLAN

FLAN (Finetuned LAnguage Net) یک روش تنظیم دقیق است که توسط گوگل توسعه داده شده است. در این روش، مدل روی مجموعه‌ی داده‌ی بزرگی از دستورالعمل‌ها آموزش می‌بیند. این کار باعث می‌شود مدل در طیف وسیعی از وظایف عملکرد خوبی داشته باشد و کمتر دچار فراموشی فاجعه‌بار شود.

فراموشی فاجعه‌بار در مدل‌های زبانی بزرگ و راه‌های مقابله با آن

تنظیم دقیق روی یک وظیفه برای LLM

چگونه از فراموشی فاجعه‌بار جلوگیری کنیم؟

تنظیم دقیق چندوظیفه‌ای و مبتنی بر دستورالعمل

تنظیم دقیق با FLAN

مطالب زیر را حتما مطالعه کنید

دیدگاهتان را بنویسید لغو پاسخ

درباره کلاس‌ویژن

دسترسی سریع

تمامی حقوق سایت برای کلاس‌ویژن محفوظ می باشد.

تنظیم دقیق روی یک وظیفه برای LLM

چگونه از فراموشی فاجعه‌بار جلوگیری کنیم؟

تنظیم دقیق چندوظیفه‌ای و مبتنی بر دستورالعمل

تنظیم دقیق با FLAN

مطالب زیر را حتما مطالعه کنید

ایجاد مدل‌های کوچک کارآمد با Llama 3.2 و هرس کردن (Pruning)

انقلابی در فرآیند Fine-Tune مدل‌های هوش مصنوعی با Unsloth

چطور مدل‌ها را ساده‌تر با انسان همراستا کنیم: از RLHF تا DPO

PPO به زبان ساده: چگونه هوش مصنوعی یاد می‌گیرد مثل ما فکر کند؟

۴۰ معیار برتر مدل‌های زبان بزرگ (LLM) با پشتوانه تحقیقاتی و موارد استفاده آن‌ها

دیتاست کارت ملی ایرانی

دیدگاهتان را بنویسید لغو پاسخ

درباره کلاس‌ویژن

دسترسی سریع

درخواست مشاوره رایگان

فرم ارتباط با کلاس‌ویژن