On-Device AI verändert leise, was Smartphones können – ohne Internetverbindung

Die AI-Demos, die Aufmerksamkeit erregen, nutzen Cloud-Server, Milliarden von Parametern und eine schnelle Internetverbindung. Die AI, die tatsächlich verändert, wie Hunderte Millionen Menschen ihre Geräte nutzen, ist kleiner, schneller und läuft vollständig auf dem Chip in ihrer Tasche.
Jedes seit 2024 veröffentlichte Flaggschiff-Smartphone enthält eine Neural Processing Unit – einen dedizierten Hardwareblock, der speziell dafür entwickelt wurde, Matrixoperationen und neuronale Netzwerkinferenz mit hoher Geschwindigkeit und niedrigem Stromverbrauch auszuführen. Der Apple A18 Pro in der iPhone-16-Serie, der Qualcomm Snapdragon 8 Elite und Samsungs Exynos 2500 sind alle mit NPUs ausgestattet, die 10–38 Billionen Operationen pro Sekunde ausführen können. Dies sind keine general-purpose Prozessoren, die für AI umfunktioniert wurden – es sind maßgeschneiderte Siliziumchips, die von Grund auf für die spezifischen Rechenmuster neuronaler Netze entwickelt wurden.
Was NPUs tatsächlich leisten
Neural Processing Units sind optimiert für die Matrixmultiplikation und Convolution-Operationen, die in neuronalen Netzwerk-Workloads dominieren. Eine CPU kann diese Operationen zwar ausführen, aber ineffizient – sie muss Daten aus dem Speicher laden, Operationen sequenziell durchführen und Ergebnisse zurückschreiben, wobei oft ein Großteil ihrer Rechenkapazität ungenutzt bleibt. Eine GPU parallelisiert besser, verbraucht aber weit mehr Strom, als auf einem batteriebetriebenen Gerät nachhaltig ist. Eine NPU ist speziell gebaut: Sie hat lokale Speicher-Arrays direkt neben den Multiply-Accumulate-Einheiten, verarbeitet Daten in Tiles, die die Wiederverwendung maximieren, und arbeitet mit einem Bruchteil des Energiebudgets einer GPU.
Das Apple Neural Engine im A18 Pro verarbeitet 38 Billionen Operationen pro Sekunde bei einem Stromverbrauch, der anhaltende Inferenz ohne Throttling ermöglicht. Qualcomms Hexagon NPU im Snapdragon 8 Elite erreicht 45 TOPS (Trillion Operations Per Second) – der höchste Wert in einem mobilen Chip (Stand 2026). Samsungs Exynos 2500 NPU schafft 34,4 TOPS. Diese Zahlen bedeuten eine 3- bis 4-fache Verbesserung gegenüber der gleichen Generation zwei Jahre zuvor und folgen einer Entwicklung, nach der sich die mobile NPU-Leistung etwa alle 18 Monate verdoppelt.
Was 2026 auf dem Gerät läuft
Die praktischen Anwendungen, die 2026 lokal auf Flaggschiff-Smartphones laufen, gehen weit über die einfache Spracherkennung und Fotokategorisierung früherer Generationen hinaus. Live-Übersetzung funktioniert jetzt vollständig auf dem Gerät: Der Interpreter-Modus des Pixel 9 Pro übersetzt gesprochene Konversation in Echtzeit zwischen 48 Sprachpaaren ohne Netzwerkverbindung – Verarbeitung von Audio, Umwandlung in Text, Übersetzung und Synthese von Sprache in unter 400 Millisekunden. Googles On-Device-Übersetzungsmodell ist ein destilliertes Modell mit 1,5 Milliarden Parametern, das in 600 MB Speicher passt und vollständig auf der NPU des Tensor G4 läuft.
Samsungs Galaxy AI Suite, die auf dem Snapdragon 8 Elite läuft, umfasst eine On-Device-Fotobearbeitung, die Objekte entfernen, Hintergründe erweitern und Bilder mit einem Diffusionsmodell neu komponieren kann, das so komprimiert ist, dass es in den Speichergrenzen der NPU läuft. Die Fotobearbeitungsmodelle sind deutlich kleiner als Cloud-Äquivalente – rund 500 Millionen Parameter gegenüber 3–8 Milliarden bei Cloud-Fototools – liefern aber für die meisten Anwendungsfälle nicht unterscheidbare Ergebnisse.
Apple Intelligence, eingeführt mit iOS 18 und verfeinert im Laufe von 2025 und 2026, führt eine Sammlung von Modellen auf dem Gerät aus: einen Schreibassistenten, ein Bildgenerierungssystem namens Image Playground, eine Zusammenfassungs-Engine und die verbesserte Siri, die mehrstufige Aufgaben über Apps hinweg ausführen kann. Die On-Device-Modelle haben maximal etwa 3 Milliarden Parameter und laufen auf dem Neural Engine; Aufgaben, die größere Modellfähigkeiten erfordern, werden an Apple Private Cloud Compute weitergeleitet, das Anfragen auf Apple-Silicon-Servern verarbeitet und kryptografisch garantiert, dass Daten nicht gespeichert oder protokolliert werden.
Der Datenschutzvorteil
Die lokale Verarbeitung von Daten verändert die Datenschutzgleichung in einer Weise, die Marketing-Sprache oft verschleiert, aber die technischen Implikationen sind real. Wenn Ihr Telefon eine Sprachnotiz auf dem Gerät transkribiert, verlässt dieses Audio nie das Gerät. Wenn ein On-Device-Modell eine E-Mail zusammenfasst, durchläuft der E-Mail-Inhalt nie ein Netzwerk. Wenn die Fotobearbeitung lokal läuft, werden die Fotos nicht zur Verarbeitung an einen Drittanbieter-Server hochgeladen.
Dies ist in Kontexten relevant, in denen Cloud-Verarbeitung rechtliche oder praktische Risiken schafft: medizinisches Fachpersonal, das Notizen diktiert, Anwälte, die Mandantensachen besprechen, Journalisten, die Quellen schützen, und jeder in einer Rechtsordnung mit aggressiven Datenspeichergesetzen. Der praktische Vorteil ist, dass die On-Device-Verarbeitung die Datenschutzrichtlinienfragen vollständig umgeht – es gibt keine Daten zu sammeln, da nichts das Gerät verlässt.
Die Einschränkung ist die Leistungsfähigkeit: On-Device-Modelle sind zwangsläufig kleiner und weniger leistungsfähig als ihre Cloud-Pendants. Ein On-Device-Modell mit 3 Milliarden Parametern schreibt einen schlechteren Aufsatz als ein Cloud-Modell mit 70 Milliarden Parametern. Die Lücke hat sich verringert – Destillations- und Quantisierungstechniken haben sich deutlich verbessert – aber sie ist nicht geschlossen, und für komplexe Denkaufgaben bleiben Cloud-Modelle erheblich besser.
Der Fall für Offline-Zuverlässigkeit
On-Device AI adressiert auch ein Zuverlässigkeitsproblem, das leicht zu unterschätzen ist: Cloud-Abhängigkeit. Eine AI-Funktion, die eine Serververbindung benötigt, ist im Flugzeug nicht verfügbar, in einem Gebäude mit schlechtem Empfang, in einem Land, in dem die Server des Anbieters blockiert sind, und bei jedem Ausfall der Infrastruktur des Anbieters.
Google hat diese Lektion mit der Messaging-App Allo 2016 gelernt: AI-Funktionen, die Cloud-Verarbeitung erforderten, waren einfach nicht verfügbar, wenn Nutzer offline waren, was die Akzeptanz einschränkte. Der Übergang zur On-Device-Verarbeitung für die meisten üblichen Funktionen war eine bewusste strategische Verschiebung auf allen drei großen Smartphone-Plattformen. Das Ziel ist, dass AI-Funktionen wie Funktionen des Geräts wirken, nicht wie Funktionen eines Dienstes – vorhersagbar verfügbar, unabhängig von der Konnektivität.
Das Rennen um Modellkomprimierung
Die Leistungslücke zwischen On-Device und Cloud AI schließt sich durch eine Kombination von Hardware-Verbesserungen und Forschung zur Modellkomprimierung. Quantisierung – Reduzierung der Präzision von Modellgewichten von 32-Bit- oder 16-Bit-Gleitkommazahlen auf 8-Bit- oder 4-Bit-Ganzzahlen – reduziert den Speicherbedarf eines Modells um das 4- bis 8-Fache bei geringen Genauigkeitseinbußen. Knowledge Distillation trainiert kleinere Modelle, das Verhalten größerer Modelle nachzuahmen. Strukturiertes Pruning entfernt Neuronen und Schichten, die am wenigsten zur Modellausgabe beitragen.
Das Ergebnis ist, dass Modelle, die speziell für den On-Device-Einsatz im Jahr 2026 entwickelt wurden, Fähigkeiten erreichen, die 2023 noch Cloud-Verarbeitung erfordert hätten. Qualcomms AI Model Efficiency Toolkit und Apples Core ML Framework enthalten beide Werkzeuge, um Standardmodellarchitekturen zu nehmen und für den On-Device-Einsatz zu optimieren. Meta hat seine MobileVision- und MobileNLP-Forschung speziell für On-Device-Inferenz als Open Source veröffentlicht.
Die Entwicklung deutet auf eine nahe Zukunft hin, in der die Latenz-, Datenschutz- und Zuverlässigkeitsvorteile von On-Device AI – kombiniert mit kontinuierlichen Hardware-Verbesserungen – es zum Standard für die meisten alltäglichen Aufgaben machen, während Cloud-Verarbeitung den anspruchsvollen Fällen vorbehalten bleibt, die sie wirklich benötigen. Für Nutzer bedeutet dies AI-Funktionen, die sich sofort anfühlen und überall funktionieren. Der zugrunde liegende Wandel ist, dass Intelligenz zu einer Eigenschaft des Geräts wird, nicht zu einem Dienst, auf den von ihm zugegriffen wird.