یادگیری نظارتشده چیست؟
یادگیری نظارتشده یا Supervised Learning چیست؟
روش کار یادگیری نظارتشده
یادگیری نظارتشده از یک مجموعهی آموزشی برای آموزش مدلها در جهت بهدست آوردن خروجی مطلوب استفاده میکند. این مجموعه دادهی آموزشی، شامل ورودیها و خروجیهای صحیح است که به مدل اجازه میدهد در طول زمان تسک مورد نظر را یاد بگیرد. این الگوریتم دقت خود را از طریق تابع هزینه اندازهگیری میکند، و تا زمانی که خطا به اندازهی کافی کاهش پیدا کند، تنظیم و آموزش مدل را ادامه میدهد.
- طبقهبندی از یک الگوریتم برای تخصیص دقیق دادههای آزمون به دستههایی خاص استفاده میکند. در واقع موجودیتهای خاصی را در مجموعه داده شناسایی میکند و تلاش میکند تا در مورد چگونگی تعریف آن موجودیتها، نتیجهگیری کند. الگوریتمهای طبقهبندی رایج، طبقهبندهای خطی، ماشینهای بردار پشتیبان (SVM)، درختهای تصمیمگیری، k-نزدیکترین همسایه و جنگل تصادفی هستند که در ادامه با جزئیات بیشتر توضیح داده میشوند.
- رگرسیون برای پیدا کردن رابطه بین متغیرهای وابسته و مستقل استفاده میشود. معمولاً برای پیشبینی، مانند تعیین درآمد فروش برای یک کسبوکار معین به کار گرفته میشود. رگرسیون خطی، رگرسیون لجستیک و رگرسیون چندجملهای، از جمله الگوریتمهای رایج رگرسیون هستند.
الگوریتمهای یادگیری نظارتشده
الگوریتمها و تکنیکهای محاسباتی مختلفی در روشهای یادگیری ماشین نظارتشده استفاده میشوند. در زیر توضیحات مختصری دربارهی برخی از متداولترین آنها که معمولاً با استفاده از زبانهایی مانند R یا Python قابل توسعه هستند، آورده شده است:
- Naive Bayes: رویکرد طبقهبندیای است که از اصل استقلال شرطی کلاسها در قضیه Bayes استفاده میکند. این اصل بیان میکند که با احتمال یک خروجی مشخص، وجود یک ویژگی بر وجود یا عدم وجود دیگری تاثیری نمیگذارد و هر ویژگی تأثیر یکسانی بر نتیجهی نهایی دارد. سه نوع طبقهبند از این نوع وجود دارد: Naive Bayes چندجملهای، Naive Bayes برنولی و Naive Bayes گاوسی. این تکنیک در درجهی اول برای طبقهبندی متون، تشخیص هرزنامه و سیستمهای توصیهگر استفاده میشود.
- رگرسیون خطی: رگرسیون خطی برای شناسایی رابطهی بین یک متغیر وابسته و یک یا چند متغیر مستقل استفاده میشود و معمولاً برای پیشبینی نتایج آتی مورد استفاده قرار میگیرد. زمانی که تنها یک متغیر مستقل و یک متغیر وابسته وجود داشته باشد، به آن رگرسیون خطی ساده میگویند؛ و با افزایش تعداد متغیرهای مستقل، به آن رگرسیون خطی چندگانه گفته میشود. رگرسیون خطی، به دنبال ترسیم خطی با بهترین برازش است که از طریق روش حداقل مربعات محاسبه میشود و بر خلاف سایر مدلهای رگرسیون، این خط زمانی که بر روی یک نمودار رسم میشود، خطی صاف و مستقیم است.
- رگرسیون لجستیک: در حالی که رگرسیون خطی زمانی اعمال میشود که متغیرهای وابسته پیوسته هستند، رگرسیون لجستیک زمانی به کار میآید که متغیر وابسته طبقهبندیشده باشند،درواقع آنهایی که مقادیر باینری دارند، مانند “درست” و “نادرست” یا “بله” و “خیر”. در حالی که هر دو مدل رگرسیون به دنبال درک روابط بین دادههای ورودی هستند، رگرسیون لجستیک عمدتا برای حل مشکلات طبقهبندی باینری، مانند تشخیص هرزنامه استفاده میشود.
- ماشین بردار پشتیبان (SVM): ماشین بردار پشتیبان یک مدل یادگیری نظارتشدهی محبوب است که توسط Vladimir Vapnik توسعه یافته است و هم برای طبقهبندی دادهها و هم رگرسیون مورد استفاده قرار میگیرد. صرف نظر از نکتهی پیشین، این الگوریتم معمولاً برای مسائل طبقهبندی استفاده میشود، و یک ابرصفحه ایجاد میکند که فاصلهی بین دو کلاس از نقاط داده در آن حداکثر مقدار ممکن باشد. این ابرصفحه به عنوان مرز تصمیم شناخته میشود که کلاسهای نقاط داده (مثلاً پرتقال در مقابل سیب) را در دو طرف صفحه از هم جدا میکند.
- K-نزدیکترین همسایه: K-نزدیکترین همسایه که به الگوریتم KNN نیز معروف است، یک الگوریتم بدون پارامتر است که نقاط داده را بر اساس نزدیکی و ارتباط آنها با سایر دادههای موجود طبقهبندی میکند. این الگوریتم فرض میکند که نقاط دادهی مشابه را میتوان در نزدیکی یکدیگر پیدا کرد. در نتیجه، این الگوریتم فاصلهی بین نقاط داده را، معمولاً از طریق فاصلهی اقلیدسی، محاسبه میکند و سپس دستهی نهایی را بر اساس پرتکرارترین دسته یا میانگین از بین K نزدیکترین همسایهی نقطهی هدف، انتخاب میکند. سهولت استفاده و زمان محاسبهی کم آن را به الگوریتم مورد علاقهی دانشمندان داده تبدیل کرده است، اما با افزایش اندازهی دادههای آزمون، زمان پردازش طولانیتر می شود و جذابیت آن برای انجام تسک طبقهبندی کمتر میشود. KNN معمولاً برای سیستمهای توصیهگر و تشخیص تصاویر استفاده میشود.
- جنگل تصادفی: جنگل تصادفی یکی دیگر از الگوریتمهای انعطافپذیر یادگیری ماشین نظارتشده است که برای اهداف طبقهبندی و رگرسیون استفاده میشود. “جنگل” به مجموعهای از درختان تصمیمگیری نامرتبط اشاره میکند که در نهایت برای کاهش واریانس و ایجاد پیشبینیهای دقیقتر با یکدیگر ادغام میشوند.
یادگیری بدون ناظر، نظارتشده، و نیمه نظارتشده
اغلب به صورت همزمان از یادگیری ماشین بدون ناظر و یادگیری ماشین نظارتشده صحبت میشود. برخلاف یادگیری نظارتشده، یادگیری بدون ناظر از دادههای بدون برچسب استفاده میکند و از این دادهها، الگوهایی را کشف میکند که از آن برای حل مسائل خوشهبندی یا پیدا کردن ارتباط استفاده میکند. این روش به ویژه زمانی مفید است که متخصصان موضوع از ویژگیهای مشترک یک مجموعهی داده اطمینان ندارند. رایجترین الگوریتمهای خوشهبندی شامل مدلهای سلسلهمراتبی، k-means و مدلهای ترکیبی گاوسی است.
یادگیری نیمه نظارتشده زمانی کاربرد دارد که تنها بخشی از دادههای ورودی برچسبگذاری شده باشند. یادگیری بدون ناظر و نیمه نظارتشده میتوانند جایگزینهای جذابتری نسبت به روشهای یادگیری نظارتشده باشد، چرا که تکیه بر تخصص افراد برای برچسبگذاری مناسب دادهها به جهت استفاده با این دسته از الگوریتمها، میتواند زمانبر و پرهزینه باشد.
برای دانستن بیشتر در مورد تفاوتهای بین این روشها، میتوانید مقالهی یادگیری نظارتشده و بدون ناظر، تفاوت چیست؟ را بررسی کیند.
مثالهایی از یادگیری نظارتشده
از مدلهای آموزشدیده با یادگیری نظارتشده میتوان برای ساخت و توسعهی تعدادی از برنامههای کاربردی تجاری استفاده کرد، از جمله:
- تشخیص تصاویر و اشیا: الگوریتمهای یادگیری نظارتشده را میتوان برای مکانیابی، جداسازی و دستهبندی اشیاء در فیلمها یا تصاویر استفاده کرد که کاربردهای بسیاری در مسائل بینایی ماشین و تجزیه و تحلیل تصاویر دارد.
- تجزیه و تحلیل پیشبینیکننده: یک مورد استفادهی گسترده برای مدلهای یادگیری نظارتشده، ایجاد سیستمهای تحلیل پیشبینیکننده برای ارائه بینش عمیق نسبت به نقاط مختلفی از دادههای تجاری است. این روش به شرکتها اجازه میدهد تا نتایج خاصی را بر اساس یک متغیر خروجی معین پیشبینی کنند و به رهبران کسبوکارها کمک میکند تا تصمیمات خود را مستدلتر و به نفع سازمان وضع کنند.
- تجزیه و تحلیل احساسات مشتری: با استفاده از الگوریتمهای یادگیری ماشین نظارتشده، سازمانها میتوانند اطلاعات مهمی را از بین حجم زیادی از دادهها – از جمله محتوا، احساسات و هدف- با دخالت انسانی بسیار کمی استخراج و طبقهبندی کنند. این کاربرد میتواند برای بهدست آوردن درک بهتری از تعاملات مشتری بسیار مفید باشد و برای بهبود تعامل با برند استفاده شود.
- تشخیص هرزنامه: تشخیص هرزنامه نمونهی دیگری از مدل یادگیری نظارتشده است. با استفاده از الگوریتمهای طبقهبندی نظارتشده، سازمانها میتوانند پایگاههای اطلاعاتی را برای تشخیص الگوها یا ناهنجاریها در دادههای جدید آموزش دهند تا هرزنامه و سایر پیامها را به طور مؤثر سازماندهی کنند.
چالشهای یادگیری نظارتشده
- یادگیری نظارتشده، میتوان به سطح خاصی از تخصص برای ساماندهی دقیق نیاز داشته باشد.
- آموزش مدلها به صورت نظارتشده میتواند بسیار زمانبر باشد.
- در صورت بالا بودن احتمال خطای انسانی در مجموعه دادهها، الگوریتمها میتوانند به صورت نادرست آموزش ببینند.
- برخلاف روشهای بدون ناظر، یادگیری نظارتشده نمیتواند دادهها را تنها با تکیه بر خود دستهبندی و یا خوشهبندی کند.
منبع:
https://www.ibm.com/topics/supervised-learning
مطالب زیر را حتما مطالعه کنید
بیشبرازش (Over-fitting) در و راهکارهای جلوگیری از آن
زنجیره مارکوف یا Markov Chain
خودرمزگذار متغیر یا VAE چیست و چگونه کار میکند؟
پیشنیازهای یادگیری عمیق: راهنمای جامع برای ورود به دنیای هوش مصنوعی
یادگیری عمیق (دیپ لرنینگ) چیست؟
تاریخچهی هوش مصنوعی
1 دیدگاه
به گفتگوی ما بپیوندید و دیدگاه خود را با ما در میان بگذارید.
با تشکر از مطلب مفیدتون