Agentic AI: معنی واقعی زمانی که یک هوش مصنوعی می‌تواند در وب جستجو کند، کد اجرا کند و از رایانه شما استفاده کند

در بیشتر عمر تجاری خود، هوش مصنوعی یک ماشین پرسش و پاسخ بود. شما متن وارد می‌کردید؛ متن دریافت می‌کردید. مدل هیچ حافظه‌ای فراتر از مکالمه جاری نداشت، هیچ توانایی برای تأثیرگذاری بر دنیای بیرون نداشت و هیچ راهی برای تأیید صحت گفته‌های خود نداشت. آن دوران به پایان رسیده است.

عبارت «agentic AI» به طور سهل‌انگارانه استفاده می‌شود – گاهی به معنای یک ربات گفتگو با چند ابزار، گاهی به معنای نرم‌افزار کاملاً خودمختار که می‌تواند هفته‌ها کار را بدون نظارت انجام دهد. واقعیت در سال ۲۰۲۶ جایی در میانه این دو قرار دارد و درک دقیق آن نیازمند تفکیک سه مفهوم مجزا است: استفاده از ابزار (Tool Use)، هماهنگ‌سازی (Orchestration) و خودمختاری (Autonomy).

یک هوش مصنوعی با قابلیت استفاده از ابزار چه کاری انجام می‌دهد

تغییر اساسی، دادن توانایی فراخوانی توابع به مدل‌های زبانی بود. به جای تولید تنها متن، یک مدل می‌تواند یک فراخوانی ساختاریافته تولید کند – «در وب برای X جستجو کن»، «این قطعه کد Python را اجرا کن»، «محتوای این URL را دریافت کن» – و نتیجه را قبل از ادامه پاسخ خود دریافت کند. این همان چیزی است که OpenAI در سال ۲۰۲۳ به عنوان «function calling» و Anthropic در Claude به عنوان «tool use» رسمی کرد.

مکانیک کار ساده است: مجموعه‌ای از ابزارهای موجود به مدل نشان داده می‌شود (که در system prompt توصیف شده‌اند)، مدل یک فراخوانی ابزار را به عنوان بخشی از خروجی خود تولید می‌کند، برنامه میزبان آن فراخوانی را اجرا کرده و نتیجه را به context بازمی‌گرداند. سپس مدل با اطلاعات جدید به استدلال ادامه می‌دهد. از بیرون، به نظر می‌رسد که هوش مصنوعی در حال «وبگردی» یا «اجرای کد» است – از درون، همان موتور پیش‌بینی توکن بعدی است، فقط با یک context window غنی‌تر.

اینکه مدل به چه ابزارهایی دسترسی دارد تعیین می‌کند که چه کاری می‌تواند انجام دهد. عوامل تولیدی فعلی معمولاً به موارد زیر دسترسی دارند: جستجوی وب، مفسرهای کد (محیط‌های Python sandbox شده)، خواندن/نوشتن فایل، APIهای تقویم و ایمیل، جستجوهای پایگاه داده، و به طور فزاینده، computer-use – یعنی توانایی کنترل یک برنامه GUI با تولید کلیک‌های ماوس و اقدامات صفحه‌کلید.

هماهنگ‌سازی: وظایف چندمرحله‌ای چگونه کار می‌کنند

یک فراخوانی ابزار به تنهایی یک عامل نیست. یک عامل زمانی ایجاد می‌شود که یک مدل بتواند دنباله‌ای از فراخوانی‌های ابزار را برنامه‌ریزی کند، نتایج را در هر مرحله مشاهده کند و برنامه خود را بر اساس آنچه می‌یابد تنظیم کند. این حلقه ReAct (Reason + Act) نام دارد و الگوی معماری پشت اکثر سیستم‌های عامل تولیدی در سال ۲۰۲۶ است.

در عمل، حلقه به این شکل است: مدل یک هدف سطح بالا دریافت می‌کند («ارزان‌ترین پرواز از لندن به توکیو برای پنجشنبه آینده را رزرو کن»)، یک برنامه تولید می‌کند، اولین مرحله را اجرا می‌کند (جستجوی پروازها)، نتیجه را مشاهده می‌کند، رویکرد خود را اصلاح می‌کند و تا زمانی که هدف محقق شود یا به بن‌بست برسد ادامه می‌دهد. هر تکرار توکن و زمان مصرف می‌کند – یک وظیفه پیچیده ممکن است قبل از تکمیل ۲۰ تا ۵۰ فراخوانی ابزار اجرا کند.

هماهنگ‌سازی چندعاملی این را فراتر می‌برد. به جای اینکه یک مدل همه کارها را انجام دهد، چارچوبی مانند LangGraph، CrewAI یا SDK عامل خود Anthropic زیروظایف را به عامل‌های فرعی تخصصی هدایت می‌کند: یک عامل در وب جستجو می‌کند، دیگری کد می‌نویسد، سومی خروجی را برای خطاها بررسی می‌کند. عامل هماهنگ‌کننده – که اغلب «planner» نامیده می‌شود – تصمیم می‌گیرد کدام عامل فرعی فراخوانی شود، context را منتقل می‌کند و نتیجه نهایی را جمع‌آوری می‌کند.

مزیت عملی، موازی‌سازی و تخصصی‌سازی است. هزینه عملی، پیچیدگی است: خطاها انباشته می‌شوند، context در مرزهای عامل از دست می‌رود، و ردیابی یک ردیابی چندعاملی به طور قابل توجهی سخت‌تر از ردیابی یک فراخوانی API واحد است.

Computer Use: بلندپروازانه‌ترین ابزار

در اواخر سال ۲۰۲۴، Anthropic قابلیت computer use را در Claude منتشر کرد و به دنبال آن ویژگی‌های مشابهی در سایر مدل‌های پیشرو ارائه شد. ایده: به هوش مصنوعی یک اسکرین‌شات از دسکتاپ بدهید، اجازه دهید یک کلیک یا فشردن کلید تولید کند، یک اسکرین‌شات جدید بگیرد، تکرار کند. بدون نیاز به API – مدل با نرم‌افزار همانطور که یک انسان عمل می‌کند تعامل دارد.

این مهم است زیرا بیشتر نرم‌افزارهای تجاری با در نظر گرفتن API طراحی نشده‌اند. توانایی کار با سیستم‌های ERP قدیمی، پیمایش در پورتال‌های پیچیده دولتی، یا تعامل با برنامه‌های دسکتاپی که لایه یکپارچه‌سازی ندارند، فرصت‌های اتوماسیونی را باز می‌کند که قبلاً بدون ابزارهای سفارشی RPA (Robotic Process Automation) غیرممکن بود.

وضعیت فعلی توانمند اما شکننده است. مدل‌ها وظایف معمول GUI را به خوبی انجام می‌دهند – پر کردن فرم‌ها، پیمایش منوها، کپی داده‌ها بین برنامه‌ها. آنها با طرح‌های پویا، CAPTCHA، جریان‌های احراز هویت چندعاملی (MFA) و هر رابطی که به طور غیرمنتظره تغییر می‌کند، مشکل دارند. تأخیر نیز قابل توجه است: وظیفه‌ای که یک انسان ۳۰ ثانیه طول می‌کشد ممکن است برای یک عامل computer use به دلیل حلقه اسکرین‌شات-اقدام-اسکرین‌شات ۳ تا ۵ دقیقه طول بکشد.

خودمختاری کجا از هم می‌پاشد

چالش واقعی سیستم‌های عاملی توانایی فنی نیست – بلکه قابلیت اطمینان در افق‌های زمانی طولانی وظیفه است. مدلی که در هر مرحله از یک وظیفه ۲۰ مرحله‌ای ۹۵٪ دقیق است، تنها ۳۶٪ مواقع وظیفه کامل را به درستی انجام می‌دهد (۰.۹۵ به توان ۲۰). این مشکل «انباشت خطا» دلیل اصلی این است که استقرارهای تولیدی عوامل در سال ۲۰۲۶ هنوز برای هر اقدام مهم به نقاط بازرسی انسانی نیاز دارند.

مشکل سخت دیگر مجوزدهی است. هنگامی که یک عامل هوش مصنوعی به طور همزمان به ایمیل، تقویم، فایل‌ها و APIهای بانکی دسترسی دارد، شعاع انفجار یک اشتباه – یا یک حمله تزریق پرامپت، که در آن محتوای مخرب در یک صفحه وب عامل را به انجام اقدامات ناخواسته فریب می‌دهد – قابل توجه می‌شود. بهترین روش فعلی حداقل مجوزها است: به عامل فقط آنچه برای وظیفه خاص نیاز دارد دسترسی دهید، همه چیز را ثبت کنید، و قبل از اقدامات غیرقابل بازگشت تأیید انسانی بخواهید.

حافظه سومین محدودیت است. اکثر عوامل امروزی در یک context window واحد کار می‌کنند – معمولاً ۱۲۸ هزار تا ۱ میلیون توکن. آنها حافظه پایدار جلسات قبلی ندارند مگر اینکه صریحاً یک سیستم بازیابی بسازید. راه‌حل‌های معماری مانند MemGPT و ویژگی Memory OpenAI این موضوع را در لایه برنامه حل می‌کنند، اما هنوز راه‌حل عمومی وجود ندارد.

آنچه واقعاً عرضه می‌شود

با وجود محدودیت‌ها، عوامل در مقیاس تولیدی در حال استفاده هستند. GitHub Copilot Workspace وظایف کدنویسی چندفایلی را به طور خودمختار تکمیل می‌کند. Salesforce Agentforce تیکت‌های پشتیبانی مشتری را از ابتدا تا انتها مدیریت می‌کند، از جمله جستجوی تاریخچه حساب و پردازش بازپرداخت‌ها. Notion's AI وظایف تحقیقاتی را تکمیل می‌کند – جمع‌آوری منابع، خلاصه‌سازی، پیش‌نویس – بدون اینکه کاربر در هر مرحله در حلقه باقی بماند.

الگویی که در این استقرارها پدیدار می‌شود: عوامل زمانی قابل اعتمادتر هستند که وظیفه به خوبی تعریف شده، حوزه محدود، خطاها قابل بازیابی، و تعداد مراحل مورد نیاز محدود باشد. آنها در وظایف باز و اکتشافی که هدف مبهم است یا محیط غیرقابل پیش‌بینی است، کمترین قابلیت اطمینان را دارند.

مرز بعدی عوامل پایدار و چندجلسه‌ای است – سیستم‌هایی که context را در طول هفته‌ها به خاطر می‌سپارند، برنامه خود را مدیریت می‌کنند و گردش‌های کاری تکراری را بدون نیاز به پرامپت مجدد انجام می‌دهند. شرکت‌هایی مانند Cognition (Devin)، Reflection و چندین استارتاپ در حالت مخفیانه در این زمینه پیشرو هستند. اینکه این امر به کارگران خودمختار قابل اعتماد یا طبقه جدیدی از خرابی‌های نرم‌افزاری سخت‌برای-ردیابی منجر شود، به تصمیمات مهندسی بستگی دارد که همین حالا گرفته می‌شوند.