فراموشی فاجعهبار در مدلهای زبانی بزرگ و راههای مقابله با آن
تصور کنید مدلی را برای ترجمهی فارسی به انگلیسی آموزش دادهاید. حالا میخواهید همین مدل را برای خلاصهسازی متون فارسی هم آموزش دهید. مشکل اینجاست که با آموزش دادن مدل روی وظیفهی جدید، ممکن است عملکرد آن در وظیفهی قبلی (ترجمه) به شدت کاهش یابد، گویی مدل تمام آموختههای قبلی خود را فراموش کرده است! این پدیده همان فراموشی فاجعهبار (Catastrophic Forgetting) است.
تنظیم دقیق روی یک وظیفه برای LLM
وقتی یک LLM را روی یک وظیفه خاص تنظیم دقیق (Fine-tune) میکنیم، در واقع وزنهای مدل را برای بهبود عملکرد در آن وظیفه تغییر میدهیم. این تغییرات میتوانند باعث شوند اطلاعات مربوط به وظایف قبلی از بین بروند.
چگونه از فراموشی فاجعهبار جلوگیری کنیم؟
قبل از هر چیز، توجه داشته باشید که ممکن است اصلاً نیازی به نگرانی در مورد فراموشی فاجعهبار نداشته باشید! اگر وظیفهی جدید بسیار شبیه به وظیفهی قبلی باشد، احتمال فراموشی کمتر است. اما اگر وظایف تفاوت زیادی دارند، میتوانید از روشهای زیر استفاده کنید:
-
تنظیم دقیق روی چندین وظیفه همزمان: به جای آموزش مدل روی هر وظیفه به صورت جداگانه، میتوانید تمام وظایف را همزمان به مدل آموزش دهید. این روش به مدل کمک میکند تا تعادلی بین وظایف مختلف برقرار کند و از فراموشی اطلاعات مربوط به وظایف قبلی جلوگیری کند.
-
استفاده از روشهای تنظیم دقیق پارامتر-کارا (PEFT): روشهای PEFT مانند Adapter، LoRA و Prefix-tuning به جای تغییر تمام وزنهای مدل، فقط تعداد کمی از پارامترها را تغییر میدهند. این کار باعث کاهش احتمال فراموشی فاجعهبار میشود و همچنین نیاز به حافظهی کمتری دارد.
تنظیم دقیق چندوظیفهای و مبتنی بر دستورالعمل
تنظیم دقیق چندوظیفهای (Multi-task fine-tuning) همانطور که گفته شد، روشی است که در آن مدل روی چندین وظیفه به طور همزمان آموزش میبیند. تنظیم دقیق مبتنی بر دستورالعمل (Instruction fine-tuning) نیز روشی است که در آن مدل با استفاده از دستورالعملهای مختلف آموزش میبیند. به عنوان مثال، به جای دادن فقط متن برای ترجمه، میتوانیم به مدل دستورالعمل “متن زیر را به انگلیسی ترجمه کن” را بدهیم. این روش به مدل کمک میکند تا درک بهتری از وظایف مختلف داشته باشد و به طور کلیتر عمل کند.
تنظیم دقیق با FLAN
FLAN (Finetuned LAnguage Net) یک روش تنظیم دقیق است که توسط گوگل توسعه داده شده است. در این روش، مدل روی مجموعهی دادهی بزرگی از دستورالعملها آموزش میبیند. این کار باعث میشود مدل در طیف وسیعی از وظایف عملکرد خوبی داشته باشد و کمتر دچار فراموشی فاجعهبار شود.
دیدگاهتان را بنویسید