Agentic AI: Was es wirklich bedeutet, wenn eine KI das Web durchsuchen, Code ausführen und Ihren Computer bedienen kann

Für den Großteil seiner kommerziellen Lebensdauer war KI eine Frage-und-Antwort-Maschine. Man gab Text ein und erhielt Text zurück. Das Modell hatte kein Gedächtnis über die aktuelle Unterhaltung hinaus, keine Fähigkeit, in der Welt zu handeln, und keine Möglichkeit zu überprüfen, ob das Gesagte wahr war. Diese Ära ist vorbei.

Der Begriff "Agentic AI" wird locker verwendet – manchmal für einen Chatbot mit ein paar Tools, manchmal für vollautonome Software, die wochenlange Arbeit unüberwacht erledigen kann. Die Realität im Jahr 2026 liegt irgendwo dazwischen, und um zu verstehen, wo genau, muss man drei verschiedene Konzepte auseinandernehmen: Tool Use, Orchestrierung und Autonomie.

Was eine Tool-Use-KI tatsächlich tut

Der grundlegende Wandel bestand darin, Sprachmodellen die Fähigkeit zu geben, Funktionen aufzurufen. Anstatt nur Text zu generieren, kann ein Modell einen strukturierten Aufruf ausgeben – "suche im Web nach X", "führe dieses Python-Snippet aus", "hole den Inhalt dieser URL" – und erhält das Ergebnis, bevor es seine Antwort fortsetzt. Dies ist, was OpenAI 2023 als "function calling" formalisierte und was Anthropic bei Claude als "tool use" bezeichnet.

Die Mechanik ist einfach: Das Modell erhält eine Reihe verfügbarer Tools (im System Prompt beschrieben), generiert einen Tool-Aufruf als Teil seiner Ausgabe, die Host-Anwendung führt diesen Aufruf aus und speist das Ergebnis zurück in den Kontext. Das Modell setzt dann die Analyse mit den neuen Informationen fort. Von außen sieht es aus, als würde die KI "suchen" oder "Code ausführen" – von innen ist es die gleiche Next-Token-Prediction-Engine, nur mit einem reichhaltigeren Kontextfenster.

Welche Tools ein Modell zur Verfügung hat, bestimmt, was es bewirken kann. Aktuelle Produktionsagenten haben üblicherweise Zugriff auf: Websuche, Code-Interpreter (gesandboxte Python-Umgebungen), Datei-Lesen/Schreiben, Kalender- und E-Mail-APIs, Datenbankabfragen und zunehmend Computer-Use – die Fähigkeit, eine GUI-Anwendung durch Generieren von Mausklicks und Tastaturaktionen zu steuern.

Orchestrierung: Wie mehrstufige Aufgaben funktionieren

Ein einzelner Tool-Aufruf ist kein Agent. Ein Agent entsteht, wenn ein Modell eine Sequenz von Tool-Aufrufen planen, Ergebnisse bei jedem Schritt beobachten und seinen Plan basierend auf dem, was es findet, anpassen kann. Dies wird als ReAct-Loop (Reason + Act) bezeichnet und ist das Architekturmuster hinter den meisten Produktionsagentensystemen im Jahr 2026.

In der Praxis sieht die Schleife so aus: Das Modell erhält ein übergeordnetes Ziel ("Buche den billigsten Flug von London nach Tokio für nächsten Donnerstag"), erstellt einen Plan, führt den ersten Schritt aus (Flüge suchen), beobachtet das Ergebnis, verfeinert seinen Ansatz und fährt fort, bis das Ziel erreicht ist oder es auf eine Sackgasse stößt. Jede Iteration verbraucht Token und Zeit – eine komplexe Aufgabe kann 20–50 Tool-Aufrufe umfassen, bevor sie abgeschlossen ist.

Die Multi-Agent-Orchestrierung geht noch weiter. Anstatt dass ein Modell alles macht, leitet ein Framework wie LangGraph, CrewAI oder Anthropics eigenes Agent SDK Teilaufgaben an spezialisierte Unteragenten weiter: Ein Agent durchsucht das Web, ein anderer schreibt Code, ein dritter prüft die Ausgabe auf Fehler. Der orchestrierende Agent – oft "Planner" genannt – entscheidet, welcher Unteragent aufgerufen wird, übergibt den Kontext und setzt das endgültige Ergebnis zusammen.

Der praktische Nutzen liegt in Parallelisierung und Spezialisierung. Die praktischen Kosten sind Komplexität: Fehler häufen sich, Kontext geht über Agentengrenzen hinweg verloren, und das Debuggen einer Multi-Agent-Trace ist erheblich schwieriger als das Debuggen eines einzelnen API-Aufrufs.

Computer Use: Das ambitionierteste Tool

Ende 2024 veröffentlichte Anthropic die Computer-Use-Fähigkeit in Claude, gefolgt von ähnlichen Funktionen in anderen Frontier-Modellen. Die Idee: Der KI einen Screenshot eines Desktops geben, sie einen Klick oder Tastendruck generieren lassen, einen neuen Screenshot machen, wiederholen. Keine API erforderlich – das Modell interagiert mit Software wie ein Mensch.

Dies ist wichtig, weil die meisten Unternehmenssoftware nicht mit APIs im Hinterkopf entwickelt wurde. Die Fähigkeit, Legacy-ERP-Systeme zu bedienen, komplexe Regierungsportale zu navigieren oder mit Desktop-Anwendungen zu interagieren, die keine Integrationsschicht haben, eröffnet Automatisierungsmöglichkeiten, die zuvor ohne benutzerdefinierte RPA(Robotic Process Automation)-Tools unmöglich waren.

Der aktuelle Stand ist leistungsfähig, aber fragil. Modelle bewältigen routinemäßige GUI-Aufgaben gut – Formulare ausfüllen, Menüs navigieren, Daten zwischen Anwendungen kopieren. Sie haben Schwierigkeiten mit dynamischen Layouts, CAPTCHA, Multi-Faktor-Authentifizierungsabläufen und jeder Oberfläche, die sich unerwartet ändert. Auch die Latenz ist erheblich: Eine Aufgabe, die ein Mensch in 30 Sekunden erledigt, kann aufgrund der Screenshot-Aktion-Screenshot-Schleife 3–5 Minuten dauern.

Wo Autonomie scheitert

Die echte Herausforderung bei agentischen Systemen ist nicht die technische Fähigkeit – es ist die Zuverlässigkeit über lange Aufgabenhorizonte. Ein Modell, das bei jedem Schritt einer 20-stufigen Aufgabe zu 95 % genau ist, wird die gesamte Aufgabe nur zu 36 % korrekt abschließen (0,95²⁰). Dieses "Error Compounding"-Problem ist der Hauptgrund, warum Produktionsdeployments von Agenten im Jahr 2026 immer noch menschliche Checkpoints für alles Folgenreiche benötigen.

Das andere schwierige Problem ist die Autorisierung. Wenn ein KI-Agent gleichzeitig Zugriff auf E-Mail, Kalender, Dateien und Banking-APIs hat, wird die Schadensradius eines Fehlers – oder eines Prompt-Injection-Angriffs, bei dem bösartiger Inhalt in einer Webseite den Agenten zu unbeabsichtigten Aktionen verleitet – erheblich. Aktuelle Best Practice sind minimale Berechtigungen: Geben Sie dem Agenten nur Zugriff auf das, was er für die spezifische Aufgabe benötigt, protokollieren Sie alles und verlangen Sie eine menschliche Bestätigung vor irreversiblen Aktionen.

Memory ist eine dritte Einschränkung. Die meisten Agenten arbeiten heute innerhalb eines einzigen Context Window – typischerweise 128K bis 1M Token. Sie haben kein persistentes Gedächtnis früherer Sitzungen, es sei denn, Sie bauen explizit ein Retrieval-System. Architekturansätze wie MemGPT und OpenAIs Memory-Funktion adressieren dies auf der Anwendungsschicht, aber es gibt noch keine allgemeine Lösung.

Was tatsächlich ausgeliefert wird

Trotz der Einschränkungen sind Agenten in großem Maßstab in Produktion. GitHub Copilot Workspace erledigt mehrdateiige Programmieraufgaben autonom. Salesforce Agentforce bearbeitet Kundenservice-Tickets von Anfang bis Ende, einschließlich des Nachschlagens des Kontoverlaufs und der Bearbeitung von Rückerstattungen. Notions KI erledigt Rechercheaufgaben – Quellen sammeln, zusammenfassen, entwerfen – ohne dass der Nutzer bei jedem Schritt eingebunden bleibt.

Das Muster, das sich bei diesen Deployments abzeichnet: Agenten sind am zuverlässigsten, wenn die Aufgabe klar definiert ist, die Domäne eng ist, Fehler behebbar sind und die Anzahl der erforderlichen Schritte begrenzt ist. Sie sind am unzuverlässigsten bei offenen, explorativen Aufgaben, bei denen das Ziel mehrdeutig oder die Umgebung unvorhersehbar ist.

Die nächste Grenze sind persistente, Multi-Session-Agenten – Systeme, die sich über Wochen hinweg Kontext merken, ihre eigenen Zeitpläne verwalten und wiederkehrende Arbeitsabläufe ohne erneute Prompting erledigen. Unternehmen wie Cognition (Devin), Reflection und mehrere Startups im Stealth-Modus sind hier am weitesten. Ob daraus zuverlässige autonome Arbeiter oder eine neue Klasse schwer zu debuggender Softwarefehler entstehen, hängt von Engineering-Entscheidungen ab, die gerade jetzt getroffen werden.