آموزش Agent-بخش 5: درک Agentهای هوش مصنوعی از طریق چرخه تفکر-اقدام-مشاهده

در بخشهای قبلی، ما آموختیم:
- چگونه ابزارها در پرامپت سیستم برای Agent در دسترس قرار میگیرند.
- چگونه Agentهای هوش مصنوعی سیستمهایی هستند که میتوانند ‘استدلال’ کنند، برنامهریزی کنند و با محیط خود تعامل داشته باشند.
در این بخش، ما گردش کار کامل Agent هوش مصنوعی را بررسی میکنیم، چرخهای که آن را به عنوان تفکر-اقدام-مشاهده تعریف کردهایم.
و سپس، عمیقتر به هر یک از این مراحل خواهیم پرداخت.
اجزای اصلی
Agentها در یک چرخه مداوم کار میکنند:
تفکر (Thought) → اقدام (Act) و مشاهده (Observe).
بیایید این اقدامات را با هم بررسی کنیم:
- تفکر: بخش LLM از Agent تصمیم میگیرد که قدم بعدی چه باید باشد.
- اقدام: Agent با فراخوانی ابزارها با آرگومانهای مرتبط، اقدامی انجام میدهد.
- مشاهده: مدل درباره پاسخ دریافتی از ابزار تأمل میکند.
چرخه تفکر-اقدام-مشاهده
این سه جزء در یک حلقه مداوم با هم کار میکنند. با استفاده از یک قیاس از برنامهنویسی، Agent از یک حلقه while استفاده میکند: حلقه تا زمانی که هدف Agent برآورده شود ادامه مییابد.
از نظر بصری، به این شکل است:
در بسیاری از چارچوبهای Agent، قوانین و دستورالعملها مستقیماً در پرامپت سیستم جاسازی میشوند تا اطمینان حاصل شود که هر چرخه از منطق تعریف شده پیروی میکند.
در یک نسخه سادهشده، پرامپت سیستم ما ممکن است به این شکل باشد:
ما در اینجا میبینیم که در پیام سیستم موارد زیر را تعریف کردهایم:
- رفتار Agent
- ابزارهایی که Agent ما به آنها دسترسی دارد، همانطور که در بخش قبلی توضیح دادیم.
- چرخه تفکر-اقدام-مشاهده، که ما در دستورالعملهای LLM قرار میدهیم.
بیایید یک مثال کوچک بررسی کنیم تا قبل از عمیق شدن در هر مرحله از فرآیند، روند کار را درک کنیم.
آلفرد، Agent هواشناسی
ما آلفرد، Agent هواشناسی را ایجاد کردهایم.
یک کاربر از آلفرد میپرسد: “آب و هوای فعلی نیویورک چگونه است؟”
وظیفه آلفرد پاسخ به این پرسش با استفاده از ابزار API هواشناسی است.
اینگونه چرخه کار پیش میرود:
تفکر
استدلال داخلی:
پس از دریافت پرسش، گفتگوی درونی آلفرد ممکن است چنین باشد:
“کاربر به اطلاعات آب و هوای فعلی نیویورک نیاز دارد. من به ابزاری دسترسی دارم که دادههای آب و هوا را دریافت میکند. ابتدا، باید API هواشناسی را فراخوانی کنم تا جزئیات بهروز را دریافت کنم.”
این مرحله نشان میدهد که Agent مسئله را به مراحلی تقسیم میکند: ابتدا، جمعآوری دادههای ضروری.
اقدام
استفاده از ابزار:
بر اساس استدلال خود و با توجه به اینکه آلفرد از ابزار get_weather
آگاه است، آلفرد یک دستور با فرمت JSON آماده میکند که ابزار API هواشناسی را فراخوانی میکند. برای مثال، اولین اقدام او میتواند این باشد:
تفکر: من باید آب و هوای فعلی نیویورک را بررسی کنم.
{ "action": "get_weather", "action_input": { "location": "New York" } }
در اینجا، اقدام به وضوح مشخص میکند که کدام ابزار باید فراخوانی شود (مثلاً get_weather
) و چه پارامتری باید ارسال شود (“location”: “New York”).
مشاهده
بازخورد از محیط:
پس از فراخوانی ابزار، آلفرد مشاهدهای دریافت میکند. این میتواند دادههای خام آب و هوا از API باشد مانند:
“آب و هوای فعلی در نیویورک: نیمه ابری، 15 درجه سانتیگراد، رطوبت 60%.”
این مشاهده سپس به عنوان زمینه یا context اضافی به پرامپت اضافه میگردد. این به عنوان بازخورد دنیای واقعی عمل کرده و تأیید میکند که آیا اقدام موفقیتآمیز بوده و سپس جزئیات مورد نیاز را ارائه میدهد.
تفکر بهروز شده
تأمل:
با داشتن مشاهده، آلفرد استدلال داخلی خود را بهروز میکند:
“اکنون که دادههای آب و هوای نیویورک را دارم، میتوانم پاسخی برای کاربر تهیه کنم.”
اقدام نهایی
آلفرد سپس یک پاسخ نهایی را به شکلی که به او گفتهایم تولید میکند:
تفکر: اکنون دادههای آب و هوا را دارم. آب و هوای فعلی در نیویورک نیمه ابری با دمای 15 درجه سانتیگراد و رطوبت 60% است.
پاسخ نهایی: آب و هوای فعلی در نیویورک نیمه ابری با دمای 15 درجه سانتیگراد و رطوبت 60% است.
این اقدام نهایی پاسخ را به کاربر برمیگرداند و چرخه را کامل میکند.
آنچه در این مثال میبینیم:
- Agentها تا زمان برآورده شدن هدف، یک حلقه را تکرار میکنند:
فرآیند آلفرد چرخهای است. با یک تفکر شروع میشود، سپس با فراخوانی یک ابزار عمل میکند، و در نهایت نتیجه را مشاهده میکند. اگر مشاهده نشاندهنده خطا یا دادههای ناقص بود، آلفرد میتوانست دوباره وارد چرخه شود تا رویکرد خود را اصلاح کند.
ادغام ابزار(Tool Integration):
توانایی فراخوانی یک ابزار (مانند API هواشناسی) به آلفرد امکان میدهد فراتر از دانش ثابت عمل کرده و دادههای real-time را بازیابی کند، که جنبهای ضروری در بسیاری از Agentهای هوش مصنوعی است.
سازگاری پویا (Dynamic Adaptation):
هر چرخه به Agent اجازه میدهد اطلاعات جدید (مشاهدات) را در استدلال خود (تفکر) وارد کند، تا اطمینان حاصل شود که پاسخ نهایی آگاهانه و دقیق است.
این مثال مفهوم اصلی پشت چرخه ReAct (مفهومی که در پست بعدی به آن خواهیم پرداخت) را نشان میدهد: تعامل بین تفکر، اقدام و مشاهده، Agentهای هوش مصنوعی را قادر میسازد تا وظایف پیچیده را به صورت تکراری حل کنند.
با درک و بهکارگیری این اصول، میتوانید Agentهایی طراحی کنید که نه تنها درباره وظایف خود استدلال میکنند، بلکه به طور مؤثر از ابزارهای خارجی برای تکمیل آنها استفاده میکنند، در حالی که به طور مداوم خروجی خود را بر اساس بازخورد محیطی بهبود میبخشند.
حال بیایید عمیقتر به مراحل فردی فرآیند یعنی تفکر، اقدام و مشاهده بپردازیم. در پست بعدی همراهمان باشید…
دیدگاهتان را بنویسید