یادگیری نظارت‌شده و بدون ناظر(Supervised Learning و Unsupervised Learning)

در الگوریتم‌های یادگیری ماشینی، الگوریتم ها معمولا به سه دسته تقسیم بندی میشوند، نظارت شده، بدون ناظر و یادگیری تقویتی. در این پست دو رویکرد یادگیری نظارت‌شده یا Supervised Learning و یادگیری بدون نظارت یا Unsupervised Learning را بررسی خواهیم کرد. (در برخی از ترجمه ها ممکن است از لفظ یادگیری با نظارت و بدون نظارت استفاده گردد)

به لطف پیشرفت های هوش مصنوعی، دنیا هر روز در حال «هوشمندتر» شدن است و برای هم‌سویی با انتظارات مصرف‌کننده، شرکت‌ها به طور فزاینده‌ای به سمت استفاده از الگوریتم‌های یادگیری ماشین در جهت آسان‌تر کردن کارها حرکت می‌کنند. شما می‌توانید مثال‌هایی از آن‌ها را در دستگاه‌های شخصی خودتان (از طریق تشخیص چهره برای باز کردن قفل گوشی‌های هوشمند) یا برای شناسایی تقلب در کارت اعتباری (مانند هشدار برای خریدهای غیرعادی) مشاهده کنید.

در هوش مصنوعی (AI) و یادگیری ماشین، دو رویکرد اساسی وجود دارد: یادگیری نظارت‌شده و یادگیری بدون ناظر. تفاوت اصلی این دو رویکرد در این است که یکی از آن‌ها، از داده‌های برچسب‌گذاری شده برای کمک به پیش‌بینی نتایج استفاده می‌کند، در حالی که دیگری این کار را نمی‌کند. با این حال، تفاوت‌های ظریفی بین این دو رویکرد و حوزه‌هایی در آن‌ها یکی بهتر از دیگری عمل می‌کند، وجود دارد. این مقاله سعی می‌کند تا این تفاوت‌ها را روشن کند.

(این ویدیو بخشی از دوره هوش مصنوعی و یادگیری ماشین است)

یادگیری نظارت‌شده (Supervised) چیست؟

یادگیری نظارت‌شده یک رویکرد در یادگیری ماشین است که با استفاده از مجموعه داده‌های برچسب‌گذاری‌شده در فرایند آموزش، تعریف می‌شود. این مجموعه داده‌ها برای آموزش یا «نظارت» الگوریتم‌ها برای طبقه‌بندی داده‌ها یا پیش‌بینی نتایج طراحی شده‌اند. با استفاده از ورودی‌ها و خروجی‌های برچسب‌دار، مدل می‌تواند دقت خود را اندازه‌گیری کند و در طول زمان تسک مورد نظر را یاد بگیرد.

یادگیری نظارت‌شده را می‌توان در هنگام داده‌کاوی به دو نوع کلی تقسیم کرد؛ طبقه‌بندی و رگرسیون:

مسائل طبقه‌بندی از یک الگوریتم برای قراردادن داده‌های آزمایش در دسته‌های خاص، مانند جدا کردن سیب از پرتقال استفاده می‌کنند. یا در دنیای واقعی، می‌توان از این الگوریتم‌های یادگیری تحت نظارت برای طبقه‌بندی هرزنامه‌ها و قرار دادن آن‌ها در یک پوشه جداگانه از صندوق ورودی ایمیل استفاده کرد. طبقه‌بندی‌کننده‌های خطی (Linear Classifiers)، ماشین‌های بردار پشتیبان(Support Vector Machines) ، درخت‌های تصمیم‌گیری (Decision Trees) و جنگل‌های تصادفی (Random Forest) همه انواع رایجی از الگوریتم‌های طبقه‌بندی هستند.
رگرسیون نوع دیگری از روش‌های یادگیری تحت نظارت است که از الگوریتمی برای درک رابطه‌ی بین متغیرهای وابسته و مستقل استفاده می‌کند. مدل‌های رگرسیون برای پیش‌بینی مقادیر عددی بر اساس داده‌های مختلف، مانند پیش‌بینی درآمد فروش برای یک کسب‌وکار معین، مفید هستند. برخی از الگوریتم‌های رگرسیون رایج عبارتند از رگرسیون خطی (Linear Regression)، رگرسیون لجستیک (Logistic Regression) و رگرسیون چند جمله ای (Polynomial Regression).

یادگیری بدون ناظر (Unsupervised) چیست؟

یادگیری بدون ناظر از الگوریتم‌های یادگیری ماشین برای تجزیه و تحلیل و خوشه‌بندی مجموعه‌داده‌های بدون برچسب استفاده می‌کند. این الگوریتم‌ها بدون نیاز به دخالت انسان، الگوهای پنهان در داده‌ها را کشف می‌کنند (به همین دلیل، آن‌ها “بدون ناظر” خوانده می‌شوند).

به طور کلی، مدل‌های یادگیری بدون ناظر برای سه کار اصلی استفاده می‌شوند: خوشه‌بندی (Clustering)، ارتباط (Association) و کاهش بعد (Dimensionality Reduction):

خوشه‌بندی یک تکنیک یادگیری ماشین و داده‌کاوی برای گروه‌بندی داده‌های بدون برچسب بر اساس شباهت‌ها یا تفاوت‌های آن‌هاست. برای مثال، الگوریتم‌ خوشه‌بندی K-means، نقاط داده‌ی مشابه را به گروه‌ها‌ی یکسان اختصاص می‌دهد، و مقدار K نشان‌دهنده‌ی تعداد گروه و دانه‌بندی است. این تکنیک برای تقسیم‌بندی بازار، فشرده‌سازی تصویر و غیره مفید است.

ارتباط نوع دیگری از روش‌های یادگیری بدون نظارت است که از قوانین مختلفی برای یافتن روابط بین متغیرها در یک مجموعه داده‌ی معین استفاده می‌کند. این روش‌ها اغلب برای تحلیل سبد بازار و سیستم‌های توصیه‌گر، در راستای توصیه‌هایی نظیر «مشتریانی که این کالا را خریدند، آن کالا را هم خریده‌اند» استفاده می‌شوند.
کاهش بعد یک تکنیک یادگیری است که زمانی استفاده می‌شود که تعداد ویژگی‌ها (یا ابعاد) در یک مجموعه‌ی داده بسیار بالا است. این روش‌ها تعداد ویژگی‌های ورودی داده را به اندازه‌ای قابل مدیریت کاهش می دهند و در عین حال یکپارچگی داده‌ها را نیز حفظ می‌کنند. اغلب، این تکنیک در مرحله‌ی پیش‌پردازش داده‌ها استفاده می شود، مانند زمانی که رمزگذارهای خودکار نویز را از داده‌های تصویری به جهت بهبود کیفیت تصویر حذف می‌کنند.

صد البته که الگوریتم های بدون ناظر به این سه محدود نمی‌شوند و انواع دیگری نیز وجود دارد.

تفاوت اصلی در یادگیری نظارت شده و بدون ناظر: داده‌ی برچسب‌خورده

تمایز اصلی بین این دو رویکرد استفاده از مجموعه داده‌های برچسب‌گذاری‌شده است. به بیان ساده، یادگیری تحت نظارت از داده‌های ورودی و خروجی برچسب‌خورده استفاده می‌کند، در حالی که الگوریتم یادگیری بدون نظارت این کار را نمی‌کند.

در یادگیری نظارت‌شده، الگوریتم از مجموعه داده‌های آموزشی با پیش‌بینی های مکرر و تنظیم برای تولید پاسخ صحیح، “یاد می‌گیرد”. در حالی که مدل‌های یادگیری تحت نظارت نسبت به مدل‌های یادگیری بدون نظارت دقیق‌تر هستند، اما برای برچسب‌گذاری مناسب داده‌ها به مداخله‌ی اولیه‌ی انسانی نیاز دارند. به عنوان مثال، یک مدل یادگیری تحت نظارت می‌تواند مدت زمان رفت‌و‌آمد شما را بر اساس زمان روز، شرایط آب‌و‌هوایی و غیره پیش‌بینی کند؛ اما ابتدا باید آن را آموزش دهید تا یاد بگیرد که هوای بارانی باعث افزایش زمان بارندگی می‌شود.

در مقابل، مدل‌های یادگیری بدون نظارت، به تنهایی برای کشف ساختار ذاتی داده‌های بدون برچسب کار می‌کنند. البته باید توجه داشت که آن‌ها هم هنوز به حدی از مداخله‌ی انسانی برای اعتبارسنجی متغیرهای خروجی نیاز دارند. به عنوان مثال، یک مدل یادگیری بدون نظارت می‌تواند تشخیص دهد که خریداران آنلاین اغلب گروه‌هایی از محصولات را به طور همزمان خریداری می‌کنند. با این حال، یک تحلیلگر داده باید تأیید کند که دسته‌بندی لباس‌های کودک با پوشک، سس سیب و فنجان‌های نوشیدنی منطقی است یا خیر.

سایر تفاوت‌های کلیدی بین روش‌های یادگیری تحت نظارت و بدون نظارت

اهداف: در یادگیری نظارت‌شده، هدف پیش‌بینی نتایج برای داده‌های جدید است. شما از قبل از نوع نتایجی که باید انتظار آن‌ها را داشته باشید خبر دارید. در مقابل هدف استفاده از الگوریتم‌های بدون ناظر این است که بینشی با استفاده از حجم قابل توجه داده‌ی دردسترس بدست بیاوریم. روش‌های یادگیری ماشین، خود مشخص می‌کنند که چه چیزی در بین داده‌ها جالب و یا متفاوت است.
کاربرد: مدل های یادگیری نظارت‌شده برای تشخیص هرزنامه، تجزیه و تحلیل احساسات، پیش‌بینی آب‌و هوا و پیش‌بینی قیمت و موارد دیگر ایده آل هستند. در مقابل، یادگیری بدون ناظر برای تشخیص ناهنجاری‌ها، سیستم‌های توصیه‌گر، شخصی‌سازی مشتریان و تصویربرداری پزشکی مناسب است.

پیچیدگی: یادگیری تحت نظارت روشی ساده برای یادگیری ماشین است که معمولاً از طریق استفاده از زبان‌هایی مانند R یا Python قابل توسعه هستند. در یادگیری بدون نظارت، به ابزارهای قدرتمندی برای کار با مقادیر زیادی از داده‌های طبقه‌بندی نشده نیاز دارید. مدل‌های یادگیری بدون نظارت از نظر محاسباتی پیچیده‌تر هستند؛ چرا که به داده‌های آموزشی زیادی برای تولید نتایج مورد نظر نیاز خواهند داشت.
مشکلات: آموزش مدل‌های یادگیری تحت نظارت ممکن است زمان‌بر باشد؛ همچنین تولید داده‌های برچسب‌خورده نیازمند تخصص در حوزه‌ی مدنظر است. در همین حال، روش‌های یادگیری بدون نظارت می‌توانند نتایج بسیار نادرستی داشته باشند، مگر اینکه مداخله انسانی‌ای برای اعتبارسنجی متغیرهای خروجی وجود داشته باشد.

یادگیری با نظارت و بدون نظارت: کدام برای شما مناسب است؟

انتخاب رویکرد مناسب برای موقعیت شما بستگی به این دارد که ساختار و حجم داده‌های شما و همچنین مورد استفاده چگونه ارزیابی می‌شود. برای تصمیم‌گیری، حتما موارد زیر را انجام دهید:

داده‌ی ورودی را ارزیابی کنید: آیا داده‌های شما برچسب‌گذاری شده است یا خیر؟ آیا افراد متخصص برای برچسب‌گذاری داده‌ها را در اختیار دارید؟
اهداف خود را تعیین کنید: آیا مسئله‌ی شما یک مسئله‌ی پرتکرار و خوش‌تعریف است؟ یا اینکه الگوریتم نیاز به حل مسائل جدیدی دارد؟
گزینه‌های الگوریتمی خود را دوره کنید: آیا الگوریتم‌هایی با همان ابعاد مورد نیاز شما (تعداد ویژگی‌های ورودی) وجود دارد؟ آیا آن‌ها می‌توانند حجم و ساختار داده‌ی شما را پشتیبانی کنند؟

طبقه‌بندی داده‌های حجیم می‌تواند یک چالش واقعی در روش‌های یادگیری تحت نظارت باشد، اما نتایج آن هم می‌تواند بسیار دقیق و قابل اعتماد باشد. در مقابل، یادگیری بدون نظارت می‌تواند حجم زیادی از داده‌ها را به صورت بی‌درنگ (real-time) مدیریت کند؛ اما، عدم شفافیت در مورد نحوه‌ی خوشه‌بندی داده‌ها و احتمال بالای دریافت نتایج نادقیق هم در این روش‌ها وجود دارد. یادگیری نیمه‌نظارتی یا Semi-Supervised Learning می‌تواند راه حلی برای برخی از این مشکلات باشد.

یادگیری نیمه‌نظارتی (Semi-Supervised): بهترین‌های هر دو رویکرد

نمی‌توانید در مورد استفاده از یادگیری تحت نظارت یا بدون نظارت تصمیم بگیرید؟ یادگیری نیمه‌نظارتی یک روش میانه‌ است که در آن می‌توانید از یک مجموعه داده‌ی آموزشی با هر دو نوع داده‌‌ی برچسب‌دار و بدون برچسب استفاده کنید. این روش زمانی مفید است که استخراج ویژگی‌های مرتبط از داده‌ها دشوار است و یا حجم داده بسیار زیاد است.

یادگیری نیمه‌نظارتی برای تصاویر پزشکی ایده‌آل است، جایی که حتی حجم کمی از داده‌ می‌تواند منجر به بهبودهای چشم‌گیر در دقت خروجی شود. به عنوان مثال، یک رادیولوژیست می‌تواند مجموعه‌ی کوچکی از سی‌تی اسکن را برای بررسی تومور یا سایر بیما‌ری‌ها برچسب‌گذاری کند تا سیستم‌ها بتوانند با دقت بیشتری پیش‌بینی کنند که کدام یک از بیماران ممکن است به مراقبت‌های پزشکی بیشتری نیاز داشته باشند.

یادگیری نیمه‌نظارتی یا Semi-supervised learning

بیشتر در خصوص یادگیری تحت نظارت و بدون نظارت بیاموزید

مدل‌های یادگیری ماشین یک راه قدرتمند برای به‌دست آوردن بینش از داده برای بهبود جهان پیرامون ما هستند. برای اینکه بیشتر در مورد الگوریتم‌های یادگیری تحت نظارت و بدون نظارت مطالعه کنید، پیشنهاد می‌کنیم که از دوره‌ی آموزشی هوش مصنوعی و یادگیری ماشین استفاده کنید. همچنین مقالات بیشتری در این خصوص مطالعه کنید. تعدادی از این مقالات را می‌توانید در زیر ببینید:

مبانی هوش مصنوعی و یادگیری ماشین

منبع:

https://www.ibm.com/cloud/blog/supervised-vs-unsupervised-learning

یادگیری نظارت‌شده و بدون ناظر(Supervised Learning و Unsupervised Learning)

یادگیری نظارت‌شده (Supervised) چیست؟

یادگیری بدون ناظر (Unsupervised) چیست؟

تفاوت اصلی در یادگیری نظارت شده و بدون ناظر: داده‌ی برچسب‌خورده

سایر تفاوت‌های کلیدی بین روش‌های یادگیری تحت نظارت و بدون نظارت

یادگیری با نظارت و بدون نظارت: کدام برای شما مناسب است؟

یادگیری نیمه‌نظارتی (Semi-Supervised): بهترین‌های هر دو رویکرد

بیشتر در خصوص یادگیری تحت نظارت و بدون نظارت بیاموزید

مطالب زیر را حتما مطالعه کنید

دیدگاهتان را بنویسید لغو پاسخ

درباره کلاس‌ویژن

دسترسی سریع

تمامی حقوق سایت برای کلاس‌ویژن محفوظ می باشد.

یادگیری نظارت‌شده (Supervised) چیست؟

یادگیری بدون ناظر (Unsupervised) چیست؟

تفاوت اصلی در یادگیری نظارت شده و بدون ناظر: داده‌ی برچسب‌خورده

سایر تفاوت‌های کلیدی بین روش‌های یادگیری تحت نظارت و بدون نظارت

یادگیری با نظارت و بدون نظارت: کدام برای شما مناسب است؟

یادگیری نیمه‌نظارتی (Semi-Supervised): بهترین‌های هر دو رویکرد

بیشتر در خصوص یادگیری تحت نظارت و بدون نظارت بیاموزید

مطالب زیر را حتما مطالعه کنید

بهینه‌سازی ترجیحی برای استدلال چندوجهی و مقاله MPO

معرفی Min P: روش جدید نمونه‌برداری توکن برای LLMها

مدل‌های انتشار (Diffusion Models) و کتابخانه diffusers – بخش 2

مدل‌های انتشار (Diffusion Models) و کتابخانه diffusers – بخش 1

راهنمای قدم به قدم کرایه کارت گرافیک (GPU) با Vast.ai برای پروژه‌های هوش مصنوعی

Unsloth: از مبانی تا فاین‌تیون کردن مدل‌های زبانی بینایی (VLM)

دیدگاهتان را بنویسید لغو پاسخ

درباره کلاس‌ویژن

دسترسی سریع

درخواست مشاوره رایگان