IA Agentica: Lo Que Realmente Significa Cuando una IA Puede Navegar por la Web, Ejecutar Código y Usar tu Computadora

Durante la mayor parte de su vida comercial, la IA fue una máquina de preguntas y respuestas. Ingresabas texto y obtenías texto. El modelo no tenía memoria más allá de la conversación actual, ninguna capacidad de actuar sobre el mundo y ninguna forma de verificar si lo que decía era cierto. Esa era terminó.

La frase "IA agentica" se usa de forma imprecisa — a veces para referirse a un chatbot con algunas herramientas, a veces para aludir a software completamente autónomo capaz de completar semanas de trabajo sin supervisión. La realidad en 2026 se sitúa en un punto intermedio, y entender exactamente dónde requiere desglosar tres conceptos distintos: uso de herramientas, orquestación y autonomía.

Qué Hace Realmente una IA que Usa Herramientas

El cambio fundamental fue darle a los modelos de lenguaje la capacidad de llamar funciones. En lugar de generar solo texto, un modelo puede emitir una llamada estructurada — "busca en la web X", "ejecuta este fragmento de Python", "obtén el contenido de esta URL" — y recibir el resultado antes de continuar con su respuesta. Esto es lo que OpenAI formalizó como "function calling" en 2023 y lo que Anthropic llama "tool use" en Claude.

La mecánica es sencilla: al modelo se le muestra un conjunto de herramientas disponibles (descritas en su system prompt), genera una llamada a herramienta como parte de su salida, y la aplicación anfitriona ejecuta esa llamada e introduce el resultado de nuevo en el contexto. El modelo continúa razonando con la nueva información. Desde fuera, parece que la IA está "navegando" o "ejecutando código" — desde dentro, es el mismo motor de predicción del siguiente token, solo que con una ventana de contexto más rica.

Las herramientas a las que un modelo tiene acceso determinan lo que puede afectar. Los agentes de producción actuales suelen tener acceso a: búsqueda web, intérpretes de código (entornos Python en sandbox), lectura/escritura de archivos, APIs de calendario y correo electrónico, consultas a bases de datos y, cada vez más, "computer use" — la capacidad de controlar una aplicación GUI generando clics de ratón y acciones de teclado.

Orquestación: Cómo Funcionan las Tareas de Múltiples Pasos

Una única llamada a herramienta no es un agente. Un agente es lo que ocurre cuando un modelo puede planificar una secuencia de llamadas a herramientas, observar los resultados en cada paso y ajustar su plan en función de lo que encuentra. Esto se denomina el bucle ReAct (Reason + Act), y es el patrón arquitectónico detrás de la mayoría de los sistemas de agente en producción en 2026.

En la práctica, el bucle se ve así: el modelo recibe un objetivo de alto nivel ("reserva el vuelo más barato de Londres a Tokio para el próximo jueves"), genera un plan, ejecuta el primer paso (buscar vuelos), observa el resultado, refina su enfoque y continúa hasta que se cumple el objetivo o se topa con un callejón sin salida. Cada iteración consume tokens y tiempo — una tarea compleja puede requerir de 20 a 50 llamadas a herramientas antes de completarse.

La orquestación multi-agente va un paso más allá. En lugar de que un solo modelo haga todo, un framework como LangGraph, CrewAI o el propio SDK de agente de Anthropic dirige subtareas a subagentes especializados: un agente busca en la web, otro escribe código, un tercero revisa la salida en busca de errores. El agente orquestador — a menudo llamado "planificador" — decide qué subagente invocar, pasa el contexto y ensambla el resultado final.

El beneficio práctico es el paralelismo y la especialización. El costo práctico es la complejidad: los errores se acumulan, el contexto se pierde entre los límites de los agentes y depurar un rastro multi-agente es significativamente más difícil que depurar una única llamada API.

"Computer Use": La Herramienta Más Ambiciosa

A finales de 2024, Anthropic lanzó la capacidad de "computer use" en Claude, seguida de funciones similares en otros modelos de frontera. La idea: darle a la IA una captura de pantalla de un escritorio, permitirle generar un clic o una pulsación de tecla, tomar una nueva captura de pantalla y repetir. Sin necesidad de API — el modelo interactúa con el software como lo haría un humano.

Esto importa porque la mayoría del software empresarial no se diseñó con APIs en mente. La capacidad de operar sistemas ERP heredados, navegar por portales gubernamentales complejos o interactuar con aplicaciones de escritorio que no tienen una capa de integración abre oportunidades de automatización que antes eran imposibles sin herramientas de RPA (Robotic Process Automation) personalizadas.

El estado actual es capaz pero frágil. Los modelos manejan bien las tareas rutinarias de GUI — rellenar formularios, navegar por menús, copiar datos entre aplicaciones. Tienen dificultades con diseños dinámicos, CAPTCHA, flujos de autenticación multifactor y cualquier interfaz que cambie inesperadamente. La latencia también es significativa: una tarea que a un humano le lleva 30 segundos puede llevarle a un agente de "computer use" de 3 a 5 minutos debido al bucle captura-acción-captura.

Dónde se Rompe la Autonomía

El verdadero desafío con los sistemas agenticos no es la capacidad técnica — es la fiabilidad en horizontes de tareas largos. Un modelo que es 95% preciso en cada paso de una tarea de 20 pasos completará la tarea completa correctamente solo el 36% de las veces (0.95²⁰). Este problema de "acumulación de errores" es la razón principal por la que los despliegues de agentes en producción en 2026 aún requieren puntos de control humanos para cualquier cosa de relevancia.

El otro problema difícil es la autorización. Cuando un agente de IA tiene acceso simultáneo a correo electrónico, calendario, archivos y APIs bancarias, el radio de explosión de un error — o de un ataque de inyección de prompt, donde contenido malicioso en una página web engaña al agente para que realice acciones no deseadas — se vuelve sustancial. La mejor práctica actual son los permisos mínimos: dar al agente acceso solo a lo que necesita para la tarea específica, registrar todo y requerir confirmación humana antes de acciones irreversibles.

La memoria es una tercera limitación. La mayoría de los agentes hoy operan dentro de una única ventana de contexto — típicamente de 128K a 1M de tokens. No tienen memoria persistente de sesiones anteriores a menos que construyas explícitamente un sistema de recuperación. Soluciones arquitectónicas como MemGPT y la función Memory de OpenAI abordan esto a nivel de aplicación, pero aún no existe una solución general.

Lo Que Realmente se Está Implementando

A pesar de las limitaciones, los agentes están en producción a gran escala. GitHub Copilot Workspace completa tareas de codificación de múltiples archivos de forma autónoma. Salesforce Agentforce gestiona tickets de atención al cliente de principio a fin, incluyendo la consulta del historial de la cuenta y el procesamiento de reembolsos. El AI de Notion completa tareas de investigación — recopilar fuentes, resumir, redactar — sin que el usuario tenga que intervenir en cada paso.

El patrón que emerge en estos despliegues: los agentes son más fiables cuando la tarea está bien definida, el dominio es estrecho, los errores son recuperables y el número de pasos necesarios está acotado. Son menos fiables en tareas abiertas y exploratorias donde el objetivo es ambiguo o el entorno impredecible.

La próxima frontera son los agentes persistentes de múltiples sesiones — sistemas que recuerdan el contexto durante semanas, gestionan sus propios horarios y manejan flujos de trabajo recurrentes sin necesidad de ser re-prompted. Empresas como Cognition (Devin), Reflection y varias startups en modo sigiloso son las que más avanzadas están en este aspecto. Si eso produce trabajadores autónomos fiables o una nueva clase de fallos de software difíciles de depurar depende de las decisiones de ingeniería que se están tomando ahora mismo.