استدلال عقل سلیم یا common sense inference یعنی چه؟
عقل سلیم در هوش مصنوعی یعنی چی!
از خودتان بپرسید، چگونه یک وسیله نقلیه خودکار (automated vehicle) میداند که یک آدمبرفی که در لبه خیابان ایستاده است، به جاده نخواهد دوید؟ انسانها از دانش عقل سلیم (common-sense knowledge) خود استفاده میکنند تا متوجه شوند که این اتفاق نخواهد افتاد!
برای مثال، اگر جملهای به سیستم داده شود که “او به زمین افتاد و از زانوهایش خون آمد”، سیستم باید بتواند استنتاج کند که افتادن باعث جراحت شده است، حتی اگر این صریحاً ذکر نشده باشد. این نوع از استنتاجها نیازمند دانش زمینهای و عمومی درباره جهان است که فراتر از اطلاعات صریح موجود در دادهها میباشد. یا یک مدل زبانی با استدلال عقل سلیم می تواند درک کند که عبارت “من به پارک می روم” به این معنی است که شخص در حال حرکت به مکانی است که معمولاً دارای درختان، چمن و زمین های بازی است. این مدل همچنین می تواند استنباط کند که شخص احتمالاً در حال پیاده روی، دویدن یا دوچرخه سواری در پارک است و نه شنا کردن!
استدلال عقل سلیم برای بسیاری از وظایف NLP مانند پاسخ به سوال، خلاصه سازی متن، ترجمه ماشینی و چتبات ها ضروری است. با این حال، دستیابی به آن برای مدل های زبانی یک چالش دشوار است زیرا نیاز به دانش گسترده ای در مورد جهان و توانایی اعمال آن دانش در موقعیت های مختلف دارد. به لطف LLM ها میتوان گفت امروزه تا حد خیلی خوبی پیشرفت داشته ایم!
در اینجا چند نمونه از نحوه استفاده از استدلال عقل سلیم در NLP آورده شده است:
- پاسخ به سوال: یک مدل زبانی با استدلال عقل سلیم می تواند به سوالاتی پاسخ دهد که نیاز به دانش دنیای واقعی دارند، مانند “پایتخت فرانسه کجاست؟” یا “سریع ترین راه رسیدن به فرودگاه چیست؟”.
- خلاصه سازی متن: یک مدل زبانی با استدلال عقل سلیم می تواند متون را خلاصه کند و در عین حال اطلاعات مهم را حفظ کند. این مدل می تواند جزئیات غیرضروری را حذف کند و بر نکات کلیدی تمرکز کند.
- ترجمه ماشینی: یک مدل زبانی با استدلال عقل سلیم می تواند متن را از یک زبان به زبان دیگر ترجمه کند و در عین حال معنی را حفظ کند. این مدل می تواند تفاوت های فرهنگی و اصطلاحات خاص زبان را در نظر بگیرد.
- چت بات ها: یک مدل زبانی با استدلال عقل سلیم می تواند با انسان ها به روشی مکالمه ای گفتگو کند. این مدل می تواند زمینه مکالمه را درک کند، به سوالات به روشی جامع و آموزنده پاسخ دهد و در صورت نیاز مکالمه را ادامه دهد.
مجموعه دادههایی برای ارزیابی استدلال مبتنی بر عقل سلیم
این صفحه به معرفی چندین مجموعه داده برای سنجش توانایی مدلهای زبان طبیعی در استدلال مبتنی بر عقل سلیم (Commonsense Reasoning) میپردازد. این مجموعه دادهها شامل سناریوها و سوالاتی است که نیازمند درک و استنتاج بر اساس دانش عمومی و قوانین منطقی زبان هستند.
-
Event2Mind: این مجموعه داده شامل ۲۵۰۰۰ عبارت کوتاه توصیف کنندهی رویدادهای روزمره است. یک مدل زبان طبیعی با دریافت این متن کوتاه، باید دربارهی اهداف احتمالی و واکنشهای شرکتکنندگان در رویداد استدلال کند. عملکرد مدلها بر اساس میانگین آنتروپی متقاطع (هرچه کمتر بهتر) ارزیابی میشود.
Model | Dev | Test | Paper / Source | Code |
---|---|---|---|---|
BiRNN 100d (Rashkin et al., 2018) | 4.25 | 4.22 | Event2Mind: Commonsense Inference on Events, Intents, and Reactions | |
ConvNet (Rashkin et al., 2018) | 4.44 | 4.40 | Event2Mind: Commonsense Inference on Events, Intents, and Reactions |
-
SWAG (Situations with Adversarial Generations): این مجموعه داده شامل 113 هزار سوال چندگزینهای دربارهی موقعیتهای گستردهای از شرایط واقعی است. مدلها بر اساس دقت پاسخدهی به این سوالات ارزیابی میشوند.
Model | Dev | Test | Paper / Source | Code |
---|---|---|---|---|
BERT Large (Devlin et al., 2018) | 86.6 | 86.3 | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | |
BERT Base (Devlin et al., 2018) | 81.6 | – | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | |
ESIM + ELMo (Zellers et al., 2018) | 59.1 | 59.2 | SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference | |
ESIM + GloVe (Zellers et al., 2018) | 51.9 | 52.7 | SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference |
-
Winograd Schema Challenge: این مجموعه داده برای ارزیابی استدلال مبتنی بر عقل سلیم طراحی شده است. سوالات Winograd Schema نیازمند حل ابهام مرجع ضمیر (Anaphora) هستند. در این سوالات، سیستم باید مرجع ضمیر مبهم موجود در جمله را تشخیص دهد.
- مثال: جام [Trophy] درون چمدان جا نمیشود چون خیلی بزرگ است [It is too big]. چه چیزی خیلی بزرگ است؟
- پاسخ ۰: جام [The trophy]
- پاسخ ۱: چمدان [The suitcase]
- مثال: جام [Trophy] درون چمدان جا نمیشود چون خیلی بزرگ است [It is too big]. چه چیزی خیلی بزرگ است؟
مدلها بر اساس میزان صحت تشخیص مرجع ضمیر ارزیابی میشوند.
Model | Score | Paper / Source | Code |
---|---|---|---|
Word-LM-partial (Trinh and Le, 2018) | 62.6 | A Simple Method for Commonsense Reasoning | |
Char-LM-partial (Trinh and Le, 2018) | 57.9 | A Simple Method for Commonsense Reasoning | |
USSM + Supervised DeepNet + KB (Liu et al., 2017) | 52.8 | Combing Context and Commonsense Knowledge Through Neural Networks for Solving Winograd Sche |
استدلال عقل سلیم بصری (Visual Common Sense Reasoning)
استدلال عقل سلیم بصری (Visual Commonsense Reasoning – VCR) که به بینایی کامپیوتر هم مربوط میشود، یک وظیفه نسبتاً جدید و یک مجموعه داده حجیم برای درک بصری در سطح شناخت است. ما انسانها میتوانیم با یک نگاه کوتاه به یک تصویر، به راحتی دنیای فراتر از پیکسلها را تصور کنیم (برای مثال، اینکه [نفر اول] پنکیک سفارش داده است). در حالی که این کار برای انسانها آسان است، برای سیستمهای بینایی کامپیوتری امروزی بسیار دشوار است، زیرا نیازمند درک مرتبه بالاتر و استدلال مبتنی بر عقل سلیم دربارهی جهان است. ما این وظیفه را به صورت استدلال عقل سلیم بصری تعریف میکنیم.
علاوه بر پاسخ به سوالات تصویری چالشبرانگیز که با زبان طبیعی بیان میشوند، یک مدل باید دلیلی نیز ارائه دهد که چرا پاسخ آن درست است.
Model | Q->A | QA->R | Q->AR | Paper / Source | Code |
---|---|---|---|---|---|
Human Performance University of Washington (Zellers et al. ‘18) | 91.0 | 93.0 | 85.0 | From Recognition to Cognition: Visual Commonsense Reasoning | |
Recognition to Cognition Networks University of Washington | 65.1 | 67.3 | 44.0 | From Recognition to Cognition: Visual Commonsense Reasoning | https://github.com/rowanz/r2c |
BERT-Base Google AI Language (experiment by Rowan) | 53.9 | 64.5 | 35.0 | https://github.com/google-research/bert | |
MLB Seoul National University (experiment by Rowan) | 46.2 | 36.8 | 17.2 | https://github.com/jnhwkim/MulLowBiVQA | |
Random Performance | 25.0 | 25.0 | 6.2 |
دیدگاهتان را بنویسید