Agentic AI: معنی واقعی زمانی که یک هوش مصنوعی میتواند در وب جستجو کند، کد اجرا کند و از رایانه شما استفاده کند

در بیشتر عمر تجاری خود، هوش مصنوعی یک ماشین پرسش و پاسخ بود. شما متن وارد میکردید؛ متن دریافت میکردید. مدل هیچ حافظهای فراتر از مکالمه جاری نداشت، هیچ توانایی برای تأثیرگذاری بر دنیای بیرون نداشت و هیچ راهی برای تأیید صحت گفتههای خود نداشت. آن دوران به پایان رسیده است.
عبارت «agentic AI» به طور سهلانگارانه استفاده میشود – گاهی به معنای یک ربات گفتگو با چند ابزار، گاهی به معنای نرمافزار کاملاً خودمختار که میتواند هفتهها کار را بدون نظارت انجام دهد. واقعیت در سال ۲۰۲۶ جایی در میانه این دو قرار دارد و درک دقیق آن نیازمند تفکیک سه مفهوم مجزا است: استفاده از ابزار (Tool Use)، هماهنگسازی (Orchestration) و خودمختاری (Autonomy).
یک هوش مصنوعی با قابلیت استفاده از ابزار چه کاری انجام میدهد
تغییر اساسی، دادن توانایی فراخوانی توابع به مدلهای زبانی بود. به جای تولید تنها متن، یک مدل میتواند یک فراخوانی ساختاریافته تولید کند – «در وب برای X جستجو کن»، «این قطعه کد Python را اجرا کن»، «محتوای این URL را دریافت کن» – و نتیجه را قبل از ادامه پاسخ خود دریافت کند. این همان چیزی است که OpenAI در سال ۲۰۲۳ به عنوان «function calling» و Anthropic در Claude به عنوان «tool use» رسمی کرد.
مکانیک کار ساده است: مجموعهای از ابزارهای موجود به مدل نشان داده میشود (که در system prompt توصیف شدهاند)، مدل یک فراخوانی ابزار را به عنوان بخشی از خروجی خود تولید میکند، برنامه میزبان آن فراخوانی را اجرا کرده و نتیجه را به context بازمیگرداند. سپس مدل با اطلاعات جدید به استدلال ادامه میدهد. از بیرون، به نظر میرسد که هوش مصنوعی در حال «وبگردی» یا «اجرای کد» است – از درون، همان موتور پیشبینی توکن بعدی است، فقط با یک context window غنیتر.
اینکه مدل به چه ابزارهایی دسترسی دارد تعیین میکند که چه کاری میتواند انجام دهد. عوامل تولیدی فعلی معمولاً به موارد زیر دسترسی دارند: جستجوی وب، مفسرهای کد (محیطهای Python sandbox شده)، خواندن/نوشتن فایل، APIهای تقویم و ایمیل، جستجوهای پایگاه داده، و به طور فزاینده، computer-use – یعنی توانایی کنترل یک برنامه GUI با تولید کلیکهای ماوس و اقدامات صفحهکلید.
هماهنگسازی: وظایف چندمرحلهای چگونه کار میکنند
یک فراخوانی ابزار به تنهایی یک عامل نیست. یک عامل زمانی ایجاد میشود که یک مدل بتواند دنبالهای از فراخوانیهای ابزار را برنامهریزی کند، نتایج را در هر مرحله مشاهده کند و برنامه خود را بر اساس آنچه مییابد تنظیم کند. این حلقه ReAct (Reason + Act) نام دارد و الگوی معماری پشت اکثر سیستمهای عامل تولیدی در سال ۲۰۲۶ است.
در عمل، حلقه به این شکل است: مدل یک هدف سطح بالا دریافت میکند («ارزانترین پرواز از لندن به توکیو برای پنجشنبه آینده را رزرو کن»)، یک برنامه تولید میکند، اولین مرحله را اجرا میکند (جستجوی پروازها)، نتیجه را مشاهده میکند، رویکرد خود را اصلاح میکند و تا زمانی که هدف محقق شود یا به بنبست برسد ادامه میدهد. هر تکرار توکن و زمان مصرف میکند – یک وظیفه پیچیده ممکن است قبل از تکمیل ۲۰ تا ۵۰ فراخوانی ابزار اجرا کند.
هماهنگسازی چندعاملی این را فراتر میبرد. به جای اینکه یک مدل همه کارها را انجام دهد، چارچوبی مانند LangGraph، CrewAI یا SDK عامل خود Anthropic زیروظایف را به عاملهای فرعی تخصصی هدایت میکند: یک عامل در وب جستجو میکند، دیگری کد مینویسد، سومی خروجی را برای خطاها بررسی میکند. عامل هماهنگکننده – که اغلب «planner» نامیده میشود – تصمیم میگیرد کدام عامل فرعی فراخوانی شود، context را منتقل میکند و نتیجه نهایی را جمعآوری میکند.
مزیت عملی، موازیسازی و تخصصیسازی است. هزینه عملی، پیچیدگی است: خطاها انباشته میشوند، context در مرزهای عامل از دست میرود، و ردیابی یک ردیابی چندعاملی به طور قابل توجهی سختتر از ردیابی یک فراخوانی API واحد است.
Computer Use: بلندپروازانهترین ابزار
در اواخر سال ۲۰۲۴، Anthropic قابلیت computer use را در Claude منتشر کرد و به دنبال آن ویژگیهای مشابهی در سایر مدلهای پیشرو ارائه شد. ایده: به هوش مصنوعی یک اسکرینشات از دسکتاپ بدهید، اجازه دهید یک کلیک یا فشردن کلید تولید کند، یک اسکرینشات جدید بگیرد، تکرار کند. بدون نیاز به API – مدل با نرمافزار همانطور که یک انسان عمل میکند تعامل دارد.
این مهم است زیرا بیشتر نرمافزارهای تجاری با در نظر گرفتن API طراحی نشدهاند. توانایی کار با سیستمهای ERP قدیمی، پیمایش در پورتالهای پیچیده دولتی، یا تعامل با برنامههای دسکتاپی که لایه یکپارچهسازی ندارند، فرصتهای اتوماسیونی را باز میکند که قبلاً بدون ابزارهای سفارشی RPA (Robotic Process Automation) غیرممکن بود.
وضعیت فعلی توانمند اما شکننده است. مدلها وظایف معمول GUI را به خوبی انجام میدهند – پر کردن فرمها، پیمایش منوها، کپی دادهها بین برنامهها. آنها با طرحهای پویا، CAPTCHA، جریانهای احراز هویت چندعاملی (MFA) و هر رابطی که به طور غیرمنتظره تغییر میکند، مشکل دارند. تأخیر نیز قابل توجه است: وظیفهای که یک انسان ۳۰ ثانیه طول میکشد ممکن است برای یک عامل computer use به دلیل حلقه اسکرینشات-اقدام-اسکرینشات ۳ تا ۵ دقیقه طول بکشد.
خودمختاری کجا از هم میپاشد
چالش واقعی سیستمهای عاملی توانایی فنی نیست – بلکه قابلیت اطمینان در افقهای زمانی طولانی وظیفه است. مدلی که در هر مرحله از یک وظیفه ۲۰ مرحلهای ۹۵٪ دقیق است، تنها ۳۶٪ مواقع وظیفه کامل را به درستی انجام میدهد (۰.۹۵ به توان ۲۰). این مشکل «انباشت خطا» دلیل اصلی این است که استقرارهای تولیدی عوامل در سال ۲۰۲۶ هنوز برای هر اقدام مهم به نقاط بازرسی انسانی نیاز دارند.
مشکل سخت دیگر مجوزدهی است. هنگامی که یک عامل هوش مصنوعی به طور همزمان به ایمیل، تقویم، فایلها و APIهای بانکی دسترسی دارد، شعاع انفجار یک اشتباه – یا یک حمله تزریق پرامپت، که در آن محتوای مخرب در یک صفحه وب عامل را به انجام اقدامات ناخواسته فریب میدهد – قابل توجه میشود. بهترین روش فعلی حداقل مجوزها است: به عامل فقط آنچه برای وظیفه خاص نیاز دارد دسترسی دهید، همه چیز را ثبت کنید، و قبل از اقدامات غیرقابل بازگشت تأیید انسانی بخواهید.
حافظه سومین محدودیت است. اکثر عوامل امروزی در یک context window واحد کار میکنند – معمولاً ۱۲۸ هزار تا ۱ میلیون توکن. آنها حافظه پایدار جلسات قبلی ندارند مگر اینکه صریحاً یک سیستم بازیابی بسازید. راهحلهای معماری مانند MemGPT و ویژگی Memory OpenAI این موضوع را در لایه برنامه حل میکنند، اما هنوز راهحل عمومی وجود ندارد.
آنچه واقعاً عرضه میشود
با وجود محدودیتها، عوامل در مقیاس تولیدی در حال استفاده هستند. GitHub Copilot Workspace وظایف کدنویسی چندفایلی را به طور خودمختار تکمیل میکند. Salesforce Agentforce تیکتهای پشتیبانی مشتری را از ابتدا تا انتها مدیریت میکند، از جمله جستجوی تاریخچه حساب و پردازش بازپرداختها. Notion's AI وظایف تحقیقاتی را تکمیل میکند – جمعآوری منابع، خلاصهسازی، پیشنویس – بدون اینکه کاربر در هر مرحله در حلقه باقی بماند.
الگویی که در این استقرارها پدیدار میشود: عوامل زمانی قابل اعتمادتر هستند که وظیفه به خوبی تعریف شده، حوزه محدود، خطاها قابل بازیابی، و تعداد مراحل مورد نیاز محدود باشد. آنها در وظایف باز و اکتشافی که هدف مبهم است یا محیط غیرقابل پیشبینی است، کمترین قابلیت اطمینان را دارند.
مرز بعدی عوامل پایدار و چندجلسهای است – سیستمهایی که context را در طول هفتهها به خاطر میسپارند، برنامه خود را مدیریت میکنند و گردشهای کاری تکراری را بدون نیاز به پرامپت مجدد انجام میدهند. شرکتهایی مانند Cognition (Devin)، Reflection و چندین استارتاپ در حالت مخفیانه در این زمینه پیشرو هستند. اینکه این امر به کارگران خودمختار قابل اعتماد یا طبقه جدیدی از خرابیهای نرمافزاری سختبرای-ردیابی منجر شود، به تصمیمات مهندسی بستگی دارد که همین حالا گرفته میشوند.