فاینتیونینگ کارآمد از نظر پارامتر (PEFT) چیست؟

فاینتیونینگ کارآمد از نظر پارامتر (Parameter-efficient fine-tuning) روشی برای بهبود عملکرد مدلهای زبانی بزرگ از پیش آموزشدیده (LLMها) و شبکههای عصبی برای وظایف یا مجموعه دادههای خاص است. با آموزش مجموعه کوچکی از پارامترها و حفظ بیشتر ساختار مدل بزرگ از پیش آموزشدیده، PEFT در زمان و منابع محاسباتی صرفهجویی میکند.
شبکههای عصبی آموزشدیده برای وظایف عمومی مانند پردازش زبان طبیعی (NLP) یا طبقهبندی تصویر میتوانند بدون اینکه کاملاً بازآموزی شوند، در یک وظیفه جدید مرتبط تخصص پیدا کنند. PEFT روشی کارآمد از نظر منابع برای ساخت مدلهای بسیار تخصصی بدون شروع از صفر در هر بار است.
فاینتیونینگ کارآمد از نظر پارامتر چگونه کار میکند؟
PEFT با freeze کردن بیشتر پارامترها و لایههای مدل زبانی از پیش آموزشدیده و افزودن تعداد کمی پارامتر قابل آموزش، معروف به آداپتورها (adapters)، به لایههای نهایی برای وظایف پاییندستی (downstream) از پیش تعیینشده کار میکند.
مدلهای فاینتیون شده تمام یادگیری به دست آمده در طول آموزش را حفظ میکنند در حالی که در وظایف پاییندستی مربوطه تخصص پیدا میکنند. بسیاری از روشهای PEFT کارایی را با gradient checkpointing، تکنیکی برای صرفهجویی در حافظه که به مدلها کمک میکند بدون ذخیره اطلاعات زیاد به صورت همزمان یاد بگیرند، بیشتر افزایش میدهند.
چرا فاینتیونینگ کارآمد از نظر پارامتر مهم است؟
فاینتیونینگ کارآمد از نظر پارامتر تعادلی بین کارایی و عملکرد ایجاد میکند تا به سازمانها کمک کند منابع محاسباتی را به حداکثر برسانند و در عین حال هزینههای ذخیرهسازی را به حداقل برسانند. وقتی مدلهای مبتنی بر ترنسفورمر مانند GPT-3، LLaMA و BERT با روشهای PEFT تنظیم میشوند، میتوانند از تمام دانش موجود در پارامترهای پیشآموزشی خود استفاده کنند و عملکرد بهتری نسبت به حالتی که بدون فاینتیونینگ داشتند، ارائه دهند.
PEFT اغلب در طول انتقال یادگیری (Transfer Learning) استفاده میشود، جایی که مدلهای آموزشدیده در یک وظیفه برای وظیفه دوم مرتبط به کار گرفته میشوند. به عنوان مثال، مدلی که در طبقهبندی تصویر آموزش دیده ممکن است برای تشخیص اشیاء به کار گرفته شود. اگر مدل پایه برای بازآموزی کامل بیش از حد بزرگ باشد یا اگر وظیفه جدید با وظیفه اصلی متفاوت باشد، PEFT میتواند راهحلی ایدهآل باشد.
PEFT در مقابل فاینتیونینگ
روشهای سنتی فاینتیونینگ کامل شامل تنظیمات جزئی در تمام پارامترهای مدلهای زبانی بزرگ از پیش آموزشدیده (LLMها) برای سازگاری آنها با وظایف خاص است. اما با پیشرفتهای هوش مصنوعی (AI) و یادگیری عمیق که منجر به بزرگتر و پیچیدهتر شدن مدلها شده، فرآیند فاینتیونینگ بیش از حد برای منابع محاسباتی و انرژی پرهزینه شده است.
همچنین، هر مدل فاینتیون شده به اندازه مدل اصلی است. تمام این مدلها فضای ذخیرهسازی قابل توجهی اشغال میکنند که هزینههای سازمانهایی که از آنها استفاده میکنند را بیشتر افزایش میدهد. در حالی که فاینتیونینگ یادگیری ماشین کارآمدتری ایجاد میکند، خود فرآیند فاینتیونینگ LLMها ناکارآمد شده است.
PEFT تعداد کمی از پارامترهایی را که برای مورد استفاده مورد نظر مدل بیشترین ارتباط را دارند تنظیم میکند تا عملکرد تخصصی مدل را ارائه دهد و در عین حال وزنهای مدل را برای صرفهجویی قابل توجه در هزینه محاسباتی و زمان کاهش دهد.
مزایای PEFT
فاینتیونینگ کارآمد از نظر پارامتر مزایای زیادی دارد که آن را در میان سازمانهایی که از LLMها در کار خود استفاده میکنند محبوب کرده است:
افزایش کارایی
بیشتر مدلهای زبانی بزرگ مورد استفاده در هوش مصنوعی مولد (gen AI) توسط واحدهای پردازش گرافیکی (GPUs) گرانقیمت ساخته شده توسط تولیدکنندگانی مانند Nvidia تغذیه میشوند. هر LLM مقدار زیادی منابع محاسباتی و انرژی مصرف میکند. تنظیم فقط مرتبطترین پارامترها صرفهجویی زیادی در هزینههای انرژی و محاسبات ابری به همراه دارد.
زمان ارزشآفرینی سریعتر
زمان ارزشآفرینی مدت زمانی است که برای توسعه، آموزش و استقرار یک LLM لازم است تا بتواند برای سازمانی که از آن استفاده میکند ارزش ایجاد کند. از آنجا که PEFT فقط تعداد کمی پارامتر قابل آموزش را تنظیم میکند، بهروزرسانی یک مدل برای وظیفه جدید زمان بسیار کمتری میبرد. PEFT میتواند عملکردی قابل مقایسه با فرآیند فاینتیونینگ کامل را در کسری از زمان و هزینه ارائه دهد.
عدم فراموشی فاجعهبار
فراموشی فاجعهبار زمانی اتفاق میافتد که LLMها دانش به دست آمده در طول فرآیند آموزش اولیه را هنگامی که برای موارد استفاده جدید بازآموزی یا تنظیم میشوند، از دست میدهند یا “فراموش” میکنند. از آنجا که PEFT بیشتر پارامترهای اولیه را حفظ میکند، همچنین در برابر فراموشی فاجعهبار محافظت میکند.
خطر کمتر بیشبرازش
بیشبرازش زمانی است که یک مدل در طول فرآیند آموزش بیش از حد به دادههای آموزشی خود نزدیک میشود، که آن را قادر به تولید پیشبینیهای دقیق در زمینههای دیگر نمیکند. مدلهای ترنسفورمر تنظیم شده با PEFT بسیار کمتر مستعد بیشبرازش هستند زیرا بیشتر پارامترهای آنها ثابت میمانند.
نیازهای داده کمتر
با تمرکز بر تعداد کمی از پارامترها، PEFT نیازهای داده آموزشی را برای فرآیند فاینتیونینگ کاهش میدهد. فاینتیونینگ کامل به مجموعه داده آموزشی بسیار بزرگتری نیاز دارد زیرا تمام پارامترهای مدل در طول فرآیند فاینتیونینگ تنظیم خواهند شد.
هوش مصنوعی در دسترستر
بدون PEFT، هزینههای توسعه یک LLM تخصصی برای بسیاری از سازمانهای کوچک یا متوسط بسیار زیاد است. تکنیک PEFT، مدلهای زبانی بزرگ را حتی برای تیمهایی که ممکن است زمان یا منابع لازم برای آموزش و فاینتیونینگ مدلها را نداشته باشند نیز در دسترس قرار میدهد.
هوش مصنوعی انعطافپذیرتر
PEFT به دانشمندان داده و سایر متخصصان امکان میدهد LLMهای عمومی را برای موارد استفاده فردی سفارشی کنند. تیمهای هوش مصنوعی میتوانند بدون نگرانی زیاد در مورد مصرف منابع محاسباتی، انرژی و ذخیرهسازی، با بهینهسازی مدل آزمایش کنند.
تکنیکهای PEFT
تیمهای هوش مصنوعی تکنیکها و الگوریتمهای مختلف PEFT را در اختیار دارند که هر کدام مزایا و تخصصهای نسبی خود را دارند. بسیاری از محبوبترین ابزارهای PEFT را میتوان در Hugging Face (هاگینگ فیس) و بسیاری از جوامع GitHub دیگر یافت.
آداپترها (Adapters)
آداپترها یکی از اولین تکنیکهای PEFT هستند که برای مدلهای پردازش زبان طبیعی (NLP) به کار گرفته شدند. محققان تلاش کردند تا بر چالش آموزش یک مدل برای چندین وظیفه پاییندستی غلبه کنند و در عین حال وزنهای مدل را به حداقل برسانند. ماژولهای آداپتر پاسخ بودند: افزونههای کوچکی که تعداد کمی پارامتر قابل آموزش و مخصوص وظیفه را به هر لایه ترانسفورمر مدل اضافه میکنند.
LoRA
معرفی شده در سال 2021، انطباق رتبه پایین مدلهای زبانی بزرگ (LoRA) از ماتریسهای تجزیه رتبه پایین دوقلو استفاده میکند تا وزنهای مدل را به حداقل برساند و زیرمجموعه پارامترهای قابل آموزش را حتی بیشتر کاهش دهد.
QLoRA
QLoRA نسخه گسترش یافتهای از LoRA است که وزن هر پارامتر از پیش آموزشدیده را به فقط 4 بیت از وزن معمول 32 بیتی کوانتیزه یا استاندارد میکند. به این ترتیب، QLoRA صرفهجویی قابل توجهی در حافظه ارائه میدهد و اجرای یک LLM را روی فقط یک GPU امکانپذیر میسازد.
پیشوند-تیونینگ (Prefix-tuning)
پیشوند-تیونینگ که به طور خاص برای مدلهای تولید زبان طبیعی (NLG) ایجاد شده، یک بردار پیوسته مخصوص وظیفه، معروف به پیشوند، را به هر لایه ترانسفورمر اضافه میکند در حالی که تمام پارامترها را منجمد نگه میدارد. در نتیجه، مدلهای تنظیم شده با پیشوند بیش از هزار برابر کمتر پارامتر نسبت به مدلهای کاملاً فاینتیون شده با عملکرد قابل مقایسه ذخیره میکنند.
پرامپت-تیونینگ (Prompt-tuning)
پرامپت-تیونینگ، پیشوند-تیونینگ را ساده میکند و مدلها را با تزریق پرامپتهای سفارشی به ورودی یا دادههای آموزشی آموزش میدهد. پرامپتهای سخت به صورت دستی ایجاد میشوند، در حالی که پرامپتهای نرم رشتههای اعدادی تولید شده توسط هوش مصنوعی هستند که دانش را از مدل پایه میگیرند. مشخص شده که پرامپتهای نرم در طول تنظیم عملکرد بهتری نسبت به پرامپتهای سخت تولید شده توسط انسان دارند.
P-tuning
P-tuning نوعی از پرامپت-تیونینگ است که برای وظایف درک زبان طبیعی (NLU) طراحی شده است. به جای استفاده از پرامپتهای ایجاد شده به صورت دستی، P-tuning آموزش و تولید خودکار پرامپت را معرفی کرد که با گذشت زمان به پرامپتهای آموزشی تأثیرگذارتری منجر میشود.
دیدگاهتان را بنویسید