آموزش Agent-بخش 5: درک Agent‌های هوش مصنوعی از طریق چرخه تفکر-اقدام-مشاهده

در بخش‌های قبلی، ما آموختیم:

چگونه ابزارها در پرامپت سیستم برای Agent در دسترس قرار می‌گیرند.
چگونه Agent‌های هوش مصنوعی سیستم‌هایی هستند که می‌توانند ‘استدلال’ کنند، برنامه‌ریزی کنند و با محیط خود تعامل داشته باشند.

در این بخش، ما گردش کار کامل Agent هوش مصنوعی را بررسی می‌کنیم، چرخه‌ای که آن را به عنوان تفکر-اقدام-مشاهده تعریف کرده‌ایم.

و سپس، عمیق‌تر به هر یک از این مراحل خواهیم پرداخت.

اجزای اصلی

Agent‌ها در یک چرخه مداوم کار می‌کنند:

تفکر (Thought) → اقدام (Act) و مشاهده (Observe).

بیایید این اقدامات را با هم بررسی کنیم:

تفکر: بخش LLM از Agent تصمیم می‌گیرد که قدم بعدی چه باید باشد.
اقدام: Agent با فراخوانی ابزارها با آرگومان‌های مرتبط، اقدامی انجام می‌دهد.
مشاهده: مدل درباره پاسخ دریافتی از ابزار تأمل می‌کند.

چرخه تفکر-اقدام-مشاهده

این سه جزء در یک حلقه مداوم با هم کار می‌کنند. با استفاده از یک قیاس از برنامه‌نویسی، Agent از یک حلقه while استفاده می‌کند: حلقه تا زمانی که هدف Agent برآورده شود ادامه می‌یابد.

از نظر بصری، به این شکل است:

در بسیاری از چارچوب‌های Agent، قوانین و دستورالعمل‌ها مستقیماً در پرامپت سیستم جاسازی می‌شوند تا اطمینان حاصل شود که هر چرخه از منطق تعریف شده پیروی می‌کند.

در یک نسخه ساده‌شده، پرامپت سیستم ما ممکن است به این شکل باشد:

ما در اینجا می‌بینیم که در پیام سیستم موارد زیر را تعریف کرده‌ایم:

رفتار Agent
ابزارهایی که Agent ما به آنها دسترسی دارد، همانطور که در بخش قبلی توضیح دادیم.
چرخه تفکر-اقدام-مشاهده، که ما در دستورالعمل‌های LLM قرار می‌دهیم.

بیایید یک مثال کوچک بررسی کنیم تا قبل از عمیق شدن در هر مرحله از فرآیند، روند کار را درک کنیم.

آلفرد، Agent هواشناسی

ما آلفرد، Agent هواشناسی را ایجاد کرده‌ایم.

یک کاربر از آلفرد می‌پرسد: “آب و هوای فعلی نیویورک چگونه است؟”

alfred agent

وظیفه آلفرد پاسخ به این پرسش با استفاده از ابزار API هواشناسی است.

اینگونه چرخه کار پیش می‌رود:

تفکر

استدلال داخلی:

پس از دریافت پرسش، گفتگوی درونی آلفرد ممکن است چنین باشد:

“کاربر به اطلاعات آب و هوای فعلی نیویورک نیاز دارد. من به ابزاری دسترسی دارم که داده‌های آب و هوا را دریافت می‌کند. ابتدا، باید API هواشناسی را فراخوانی کنم تا جزئیات به‌روز را دریافت کنم.”

این مرحله نشان می‌دهد که Agent مسئله را به مراحلی تقسیم می‌کند: ابتدا، جمع‌آوری داده‌های ضروری.

alfred agent 1

اقدام

استفاده از ابزار:

بر اساس استدلال خود و با توجه به اینکه آلفرد از ابزار get_weather آگاه است، آلفرد یک دستور با فرمت JSON آماده می‌کند که ابزار API هواشناسی را فراخوانی می‌کند. برای مثال، اولین اقدام او می‌تواند این باشد:

تفکر: من باید آب و هوای فعلی نیویورک را بررسی کنم.

{
  "action": "get_weather",
  "action_input": {
    "location": "New York"
  }
}

در اینجا، اقدام به وضوح مشخص می‌کند که کدام ابزار باید فراخوانی شود (مثلاً get_weather) و چه پارامتری باید ارسال شود (“location”: “New York”).

alfred agent 2

مشاهده

بازخورد از محیط:

پس از فراخوانی ابزار، آلفرد مشاهده‌ای دریافت می‌کند. این می‌تواند داده‌های خام آب و هوا از API باشد مانند:

“آب و هوای فعلی در نیویورک: نیمه ابری، 15 درجه سانتی‌گراد، رطوبت 60%.”

alfred agent 3

این مشاهده سپس به عنوان زمینه یا context اضافی به پرامپت اضافه می‌گردد. این به عنوان بازخورد دنیای واقعی عمل کرده و تأیید می‌کند که آیا اقدام موفقیت‌آمیز بوده و سپس جزئیات مورد نیاز را ارائه می‌دهد.

تفکر به‌روز شده

تأمل:

با داشتن مشاهده، آلفرد استدلال داخلی خود را به‌روز می‌کند:

“اکنون که داده‌های آب و هوای نیویورک را دارم، می‌توانم پاسخی برای کاربر تهیه کنم.”

alfred agent 4

اقدام نهایی

آلفرد سپس یک پاسخ نهایی را به شکلی که به او گفته‌ایم تولید می‌کند:

تفکر: اکنون داده‌های آب و هوا را دارم. آب و هوای فعلی در نیویورک نیمه ابری با دمای 15 درجه سانتی‌گراد و رطوبت 60% است.

پاسخ نهایی: آب و هوای فعلی در نیویورک نیمه ابری با دمای 15 درجه سانتی‌گراد و رطوبت 60% است.

این اقدام نهایی پاسخ را به کاربر برمی‌گرداند و چرخه را کامل می‌کند.

alfred agent 5

آنچه در این مثال می‌بینیم:

Agent‌ها تا زمان برآورده شدن هدف، یک حلقه را تکرار می‌کنند:

فرآیند آلفرد چرخه‌ای است. با یک تفکر شروع می‌شود، سپس با فراخوانی یک ابزار عمل می‌کند، و در نهایت نتیجه را مشاهده می‌کند. اگر مشاهده نشان‌دهنده خطا یا داده‌های ناقص بود، آلفرد می‌توانست دوباره وارد چرخه شود تا رویکرد خود را اصلاح کند.

ادغام ابزار(Tool Integration):

توانایی فراخوانی یک ابزار (مانند API هواشناسی) به آلفرد امکان می‌دهد فراتر از دانش ثابت عمل کرده و داده‌های real-time را بازیابی کند، که جنبه‌ای ضروری در بسیاری از Agent‌های هوش مصنوعی است.

سازگاری پویا (Dynamic Adaptation):

هر چرخه به Agent اجازه می‌دهد اطلاعات جدید (مشاهدات) را در استدلال خود (تفکر) وارد کند، تا اطمینان حاصل شود که پاسخ نهایی آگاهانه و دقیق است.

این مثال مفهوم اصلی پشت چرخه ReAct (مفهومی که در پست بعدی به آن خواهیم پرداخت) را نشان می‌دهد: تعامل بین تفکر، اقدام و مشاهده، Agent‌های هوش مصنوعی را قادر می‌سازد تا وظایف پیچیده را به صورت تکراری حل کنند.

با درک و به‌کارگیری این اصول، می‌توانید Agent‌هایی طراحی کنید که نه تنها درباره وظایف خود استدلال می‌کنند، بلکه به طور مؤثر از ابزارهای خارجی برای تکمیل آنها استفاده می‌کنند، در حالی که به طور مداوم خروجی خود را بر اساس بازخورد محیطی بهبود می‌بخشند.

حال بیایید عمیق‌تر به مراحل فردی فرآیند یعنی تفکر، اقدام و مشاهده بپردازیم. در پست بعدی همراهمان باشید…

آموزش Agent-بخش 5: درک Agent‌های هوش مصنوعی از طریق چرخه تفکر-اقدام-مشاهده

اجزای اصلی

چرخه تفکر-اقدام-مشاهده

آلفرد، Agent هواشناسی

تفکر

اقدام

مشاهده

تفکر به‌روز شده

اقدام نهایی

مطالب زیر را حتما مطالعه کنید

دیدگاهتان را بنویسید لغو پاسخ

درباره کلاس‌ویژن

دسترسی سریع

تمامی حقوق سایت برای کلاس‌ویژن محفوظ می باشد.

اجزای اصلی

چرخه تفکر-اقدام-مشاهده

آلفرد، Agent هواشناسی

تفکر

اقدام

مشاهده

تفکر به‌روز شده

اقدام نهایی

مطالب زیر را حتما مطالعه کنید

آموزش Agent-بخش 10: ساخت agent با smolagents

smolagents: کتابخانه‌ای ساده برای ساخت Agent‌ها

آموزش Agent-بخش 9: کتابخانه Dummy Agent

آموزش Agent-بخش 8(مشاهده): یکپارچه‌سازی بازخورد برای تطبیق و بهبود

آموزش Agent-بخش 7(اقدامات): توانمندسازی Agent برای تعامل با محیط خود

آموزش Agent-بخش 6 (تفکر): استدلال داخلی و رویکرد Re-Act

دیدگاهتان را بنویسید لغو پاسخ

درباره کلاس‌ویژن

دسترسی سریع

درخواست مشاوره رایگان

فرم ارتباط با کلاس‌ویژن