الذكاء الاصطناعي الفاعل: ما يعنيه حقًا عندما يتمكن AI من تصفح الويب وتشغيل الشفرة واستخدام كمبيوترك

طوال معظم حياته التجارية، كان الذكاء الاصطناعي آلة أسئلة وأجوبة. كنت تُدخل نصًا؛ فتحصل على نص. لم يكن للنموذج ذاكرة تتجاوز المحادثة الحالية، ولا قدرة على العمل في العالم، ولا وسيلة للتحقق من صحة ما يقوله. لقد انتهى ذلك العصر.
تُستخدم عبارة "Agentic AI" بشكل فضفاض — أحيانًا للدلالة على برنامج محادثة مزود ببعض الأدوات، وأحيانًا للدلالة على برمجيات مستقلة بالكامل قادرة على إكمال أسابيع من العمل دون إشراف. الواقع في عام 2026 يقع في مكان ما بينهما، وفهم أين تحديدًا يتطلب تفكيك ثلاثة مفاهيم متميزة: استخدام الأدوات، والتنسيق، والاستقلالية.
ما يفعله AI الذي يستخدم الأدوات فعليًا
كان التحول الأساسي هو منح نماذج اللغة القدرة على استدعاء الدوال. بدلاً من توليد النص فقط، يمكن للنموذج إصدار استدعاء منظم — "ابحث في الويب عن X"، "شغّل مقطع Python هذا"، "اجلب محتويات هذا الرابط" — واستلام النتيجة قبل مواصلة رده. هذا ما أضفته OpenAI رسميًا تحت اسم "function calling" في عام 2023، وما تسميه Anthropic "tool use" في Claude.
الآليات بسيطة: يُعرض على النموذج مجموعة من الأدوات المتاحة (موصوفة في System Prompt الخاص به)، ويُولّد استدعاء أداة كجزء من مخرجاته، ثم ينفذ التطبيق المضيف ذلك الاستدعاء ويغذي النتيجة مرة أخرى في السياق. بعد ذلك، يواصل النموذج الاستدلال بالمعلومات الجديدة. من الخارج، يبدو الأمر وكأن AI "يتصفح" أو "يشغّل شفرة" — ومن الداخل، هو نفس محرك التنبؤ بالرمز التالي، لكن مع نافذة سياق أكثر ثراءً.
تحدد الأدوات التي يمكن للنموذج الوصول إليها ما يمكنه التأثير فيه. الوكلاء الإنتاجيون الحاليون يمتلكون عادةً إمكانية الوصول إلى: بحث الويب، مفسرات الشفرة (بيئات Python معزولة)، قراءة/كتابة الملفات، تقويم وAPI البريد الإلكتروني، استعلامات قواعد البيانات، وبشكل متزايد استخدام الكمبيوتر — القدرة على التحكم في تطبيق واجهة المستخدم الرسومية عبر توليد نقرات الماوس وإجراءات لوحة المفاتيح.
التنسيق: كيف تعمل المهام متعددة الخطوات
استدعاء أداة واحدة ليس Agent. الAgent هو ما يحدث عندما يتمكن النموذج من تخطيط سلسلة من استدعاءات الأدوات، ومراقبة النتائج في كل خطوة، وتعديل خطته بناءً على ما يجده. هذا يُسمى حلقة ReAct (Reason + Act)، وهي النمط المعماري وراء معظم أنظمة الوكلاء الإنتاجية في عام 2026.
عمليًا، تبدو الحلقة كالتالي: يتلقى النموذج هدفًا عالي المستوى ("احجز أرخص رحلة من لندن إلى طوكيو ليوم الخميس القادم")، ويولّد خطة، وينفذ الخطوة الأولى (ابحث عن رحلات)، ويراقب النتيجة، ويُحسّن أسلوبه، ويستمر حتى يتحقق الهدف أو يصطدم بطريق مسدود. كل تكرار يستهلك Tokens ووقتًا — المهمة المعقدة قد تتطلب 20–50 استدعاء أداة قبل الاكتمال.
التنسيق متعدد الوكلاء يذهب أبعد من ذلك. بدلاً من نموذج واحد يقوم بكل شيء، يقوم إطار عمل مثل LangGraph أو CrewAI أو Anthropic Agent SDK بتوجيه المهام الفرعية إلى وكلاء فرعيين متخصصين: Agent واحد يبحث في الويب، وآخر يكتب شفرة، وثالث يراجع المخرجات بحثًا عن الأخطاء. Agent المنظم — الذي يُسمى غالبًا "المخطط" — يقرر أي وكيل فرعي يستدعي، ويمرر السياق، ويُجمّع النتيجة النهائية.
الفائدة العملية هي التوازي والتخصص. التكلفة العملية هي التعقيد: الأخطاء تتراكم، ويضيع السياق عبر حدود الوكلاء، وتصحيح أثر Multi-Agent أصعب بكثير من تصحيح استدعاء API واحد.
استخدام الكمبيوتر: الأداة الأكثر طموحًا
في أواخر عام 2024، أصدرت Anthropic قدرة استخدام الكمبيوتر في Claude، تبعتها ميزات مماثلة في نماذج رائدة أخرى. الفكرة: إعطاء AI لقطة شاشة لسطح المكتب، والسماح له بتوليد نقرة أو ضغطة مفتاح، والتقاط لقطة شاشة جديدة، والتكرار. لا حاجة لـ API — يتفاعل النموذج مع البرمجيات كما يفعل الإنسان.
هذا مهم لأن معظم برمجيات الأعمال لم تُصمم مع مراعاة APIs. القدرة على تشغيل أنظمة ERP القديمة، والتنقل عبر بوابات حكومية معقدة، أو التفاعل مع تطبيقات سطح المكتب التي لا تحتوي على طبقة تكامل تفتح فرص أتمتة كانت مستحيلة سابقًا دون أدوات RPA مخصصة.
الوضع الحالي قادر لكنه هش. النماذج تؤدي مهام GUI الروتينية بشكل جيد — ملء النماذج، التنقل في القوائم، نسخ البيانات بين التطبيقات. لكنها تواجه صعوبة مع التخطيطات الديناميكية، CAPTCHA، تدفقات المصادقة متعددة العوامل، وأي واجهة تتغير بشكل غير متوقع. زمن الاستجابة كبير أيضًا: مهمة تستغرق 30 ثانية من إنسان قد تستغرق 3–5 دقائق من Agent استخدام الكمبيوتر بسبب حلقة لقطة الشاشة-الإجراء-لقطة الشاشة.
أين ينهار الاستقلال
التحدي الحقيقي مع أنظمة Agentic ليس القدرة التقنية — بل الموثوقية خلال آفاق زمنية طويلة للمهام. النموذج الذي تبلغ دقته 95% في كل خطوة من مهمة مكونة من 20 خطوة سيكمل المهمة بأكملها بشكل صحيح بنسبة 36% فقط من الوقت (0.95²⁰). مشكلة "تراكم الأخطاء" هذه هي السبب الرئيسي وراء أن نشر الوكلاء في عام 2026 لا يزال يتطلب نقاط تفتيش بشرية لأي شيء ذي عواقب.
المشكلة الصعبة الأخرى هي التفويض. عندما يكون لدى Agent AI وصول متزامن إلى البريد الإلكتروني والتقويم والملفات وAPIs البنكية، يصبح نصف قطر الانفجار لخطأ — أو هجوم حقن التعليمات، حيث يخدع محتوى ضار في صفحة ويب Agent لاتخاذ إجراءات غير مقصودة — كبيرًا. أفضل الممارسات الحالية هي الحد الأدنى من الأذونات: إعطاء Agent الوصول فقط إلى ما يحتاجه للمهمة المحددة، وتسجيل كل شيء، وطلب تأكيد بشري قبل الإجراءات غير القابلة للعكس.
الذاكرة هي قيد ثالث. معظم الوكلاء اليوم يعملون ضمن نافذة سياق واحدة — عادةً 128K إلى 1M Token. ليس لديهم ذاكرة دائمة للجلسات السابقة ما لم تقم ببناء نظام استرجاع صراحةً. حلول معمارية مثل MemGPT وميزة Memory من OpenAI تعالج هذا على طبقة التطبيق، لكن لا يوجد حل عام حتى الآن.
ما يتم شحنه فعليًا
رغم القيود، الوكلاء في الإنتاج على نطاق واسع. يقوم GitHub Copilot Workspace بإكمال مهام الشفرة متعددة الملفات بشكل مستقل. يتولى Salesforce Agentforce تذاكر خدمة العملاء من البداية إلى النهاية، بما في ذلك البحث في تاريخ الحساب ومعالجة المبالغ المستردة. يكمل Notion’s AI مهام البحث — جمع المصادر، التلخيص، الصياغة — دون بقاء المستخدم في الحلقة في كل خطوة.
النمط الناشئ عبر هذه النشرات: الوكلاء هم الأكثر موثوقية عندما تكون المهمة محددة جيدًا، والمجال ضيق، والأخطاء قابلة للاسترداد، وعدد الخطوات المطلوبة محدود. هم الأقل موثوقية في المهام المفتوحة والاستكشافية حيث يكون الهدف غامضًا أو البيئة غير متوقعة.
الحدود التالية هي الوكلاء الدائمون ومتعددو الجلسات — أنظمة تتذكر السياق عبر أسابيع، وتُدير جداولها الخاصة، وتتعامل مع سير العمل المتكرر دون إعادة تعليمات (re-prompting). شركات مثل Cognition (Devin) وReflection والعديد من الشركات الناشئة في وضع التخفي هي الأكثر تقدمًا هنا. ما إذا كان ذلك سينتج عمالًا مستقلين موثوقين أم فئة جديدة من إخفاقات البرمجيات التي يصعب تصحيحها يعتمد على قرارات هندسية تُتخذ الآن.