KI-PCs mit dedizierten NPUs sind endlich in den Händen der Verbraucher — was die Chips tatsächlich leisten | IRCNF - Intelligent Reliable Custom Next-gen Frameworks

Der Begriff ‚AI PC‘ wurde erstmals auf der CES 2024 geflüstert und dann prompt aus jeder Laptop-Ankündigung herausgeschrien. Bis Ende des Jahres hatte er sich zu ‚4K-Display‘ und ‚Akku für den ganzen Tag‘ gesellt – Marketingfloskeln, die so allgegenwärtig waren, dass sie ihre Bedeutung verloren hatten. Jedes Notebook mit einem Copilot-Button wurde zum AI PC. Chips mit neuronalen Verarbeitungseinheiten – dedizierte Siliziumblöcke zur Beschleunigung von Machine-Learning-Inferenz – wurden zum Kreuzchen, das die Bezeichnung rechtfertigte.

Zwei Jahre später lohnt es sich, einen Schritt zurückzutreten und sich zu fragen, was diese NPUs eigentlich tun, ob die dedizierte Hardware wichtig ist und ob der Wendepunkt für den AI PC tatsächlich gekommen ist oder nur ausgerufen wurde.

Apple gab die Vorlage

Bevor es die Kategorie ‚AI PC‘ gab, war da Apple Silicon. Der M1-Chip, der im November 2020 auf den Markt kam, enthielt eine 16-Kern-Neural Engine neben CPU und GPU. Apple verbaut Neural Engines in iPhones seit dem A11 Bionic von 2017 – der iPhone-X-Generation – und machte On-Device-Machine-Learning-Inferenz Jahre vor Windows zum nativen iOS-Feature.

Die Neural Engine in Apple Silicon übernimmt Face ID, Computerfotografie (Nachtmodus, Porträtmodus, Photonic Engine), Echtzeit-Transkription in der Notizen-App und – seit Neuestem – Apple-Intelligence-Funktionen wie Schreibwerkzeuge und Bildgenerierung in Image Playground. All das läuft lokal, ohne Cloud-Anruf, mit niedriger Latenz und ohne Preisgabe der Privatsphäre. Die 38 TOPS (Trillionen Operationen pro Sekunde) der Neural Engine im M4 sorgen dafür, dass sich diese Funktionen sofortig anfühlen, nicht träge.

Das ist der Benchmark, an dem Windows-PC-NPUs gemessen werden, und ein nützlicher: Apple hat die Neural-Engine-Hardware nicht ausgeliefert und dann überlegt, was man damit anfangen soll. Die Funktionen und das Silizium kamen gemeinsam auf den Markt.

Qualcomms Snapdragon-X-Moment

Die bedeutendste Windows-seitige Entwicklung 2024 war der Qualcomm Snapdragon X Elite – der erste Windows-on-Arm-Prozessor, der mit x86-Leistung ernsthaft mithalten kann und gleichzeitig Apples Akkulaufzeit erreicht. Entscheidend: Er enthält eine 45-TOPS-NPU und übertrifft damit Microsofts 40-TOPS-Anforderung für die ‚Copilot+ PC‘-Zertifizierung.

Die NPU des Snapdragon X Elite betreibt die Windows Studio Effects – die Suite aus Hintergrundunschärfe, Blickkontaktkorrektur und Rauschunterdrückung in Windows 11. Sie verarbeitet Echtzeit-Transkription in der Live Captions-Funktion von Windows mit Offline-Spracherkennung, die auf jedes Audio in jeder App angewendet werden kann, ohne Audio in die Cloud zu senden. Cocreator in Microsoft Paint generiert Bilder lokal mit einem komprimierten SDXL-Modell. Das sind echte Funktionen in Echtzeit auf dem dedizierten Neural-Silizium.

Die x86-Seite zog schnell nach. Intels Core Ultra Meteor-Lake-Chips (Ende 2023) enthielten erstmals in der Intel-Geschichte eine NPU mit 10 bis 34 TOPS je nach Variante. Arrow Lake (Ende 2024) verbesserte das. AMDs Ryzen AI-Serie brachte NPUs in AMDs Mobil-Lineup. Die Copilot+-Zertifizierungsanforderung hat praktisch NPU-Hardware in der gesamten Branche zur Pflicht gemacht.

Was heute funktioniert

Die ehrliche Bilanz dessen, welche NPU-beschleunigten Funktionen in der Praxis tatsächlich funktionieren, ist kürzer als das Marketing suggeriert, aber dennoch echt nützlich. Windows Studio Effects – Hintergrundunschärfe, automatische Bildausschnitt-Anpassung, Blickkontaktkorrektur in Videoanrufen – laufen flüssig auf der NPU-Hardware, ohne CPU oder GPU zu belasten. Für Remote-Arbeiter, die den ganzen Tag in Videoanrufen stecken, ist das relevant.

Live Captions bietet Echtzeit-Transkription des gesamten System-Audios – jedes Video, jedes Meeting, jede Anwendung – mit angemessener Genauigkeit für Englisch und wachsender Unterstützung für andere Sprachen. Es ist das universell nützlichste AI-PC-Feature für breite Nutzergruppen und funktioniert spürbar besser, wenn es auf eine NPU ausgelagert wird.

Lokale LLM-Inferenz über Tools wie Ollama und llama.cpp läuft auf NPU-Hardware, sofern das Framework sie unterstützt. Modelle wie Phi-3 Mini, Llama 3.2 3B und Gemma 2 2B arbeiten auf modernen NPUs brauchbar schnell – nicht so schnell wie auf einer diskreten GPU, aber ohne den Stromverbrauch und ohne Cloud-Bedarf. Für Entwickler, die lokale KI-Inferenz aus Datenschutz- oder Offline-Gründen benötigen, sind NPU-Klasse-Chips eine spürbare Verbesserung gegenüber CPU-only-Inferenz.

Das Fragmentierungsproblem

Das größte praktische Hindernis für die NPU-Adoption ist die API-Fragmentierung. Qualcomms NPU nutzt das QNN (Qualcomm Neural Network) SDK. Intels NPU setzt auf OpenVINO und DirectML. AMDs auf ROCm und DirectML. Apples Neural Engine verwendet Core ML. Keine dieser Schnittstellen ist interoperabel.

Microsofts DirectML ist die derzeit beste Annäherung an eine vereinheitlichte Windows-API für neuronale Beschleunigung, aber die Hardware-Anbieter zögern, ihre vollen NPU-Fähigkeiten darüber zu exponieren. Anwendungsentwickler müssen entscheiden, ob sie NPU-spezifischen Code für jeden Hardware-Hersteller schreiben, auf DirectML setzen (das auf manchen Plattformen die NPU gar nicht nutzt) oder einfach auf der GPU rechnen und die NPU ignorieren. Die meisten Drittanbieter-Apps wählen die letzte Option.

Die Folge: Die NPU-Auslastung, die man im Windows Task-Manager sieht, stammt fast ausschließlich von Microsofts eigenen Funktionen. Öffnet man eine Drittanbieter-Videokonferenz-App statt Teams oder nativer Windows-Apps, bleibt die NPU untätig, während GPU oder CPU die Hintergrundunschärfe berechnen.

Microsoft Recall und das Privacy-Erwachen

Die umstrittenste vorgeschlagene AI-PC-Funktion – Microsoft Recall, das in regelmäßigen Abständen Screenshots von allem macht, was man auf dem PC tut, und diese per natürlicher Sprache durchsuchbar macht – setzte NPU-Klasse-Hardware voraus und war zunächst ein Copilot+-Exklusiv. Nach erheblicher Privacy-Kritik verzögerte und überarbeitete Microsoft die Funktion, führte Opt-in-Pflicht, lokale Verschlüsselung sowie Windows Hello-Authentifizierung vor dem Zugriff ein.

Recalls turbulenter Start illustrierte eine grundlegende Spannung im AI-PC-Marketing: Die ambitioniertesten ‚KI-Funktionen‘ verarbeiten kontinuierlich sensible Daten. Das Versprechen der On-Device-Verarbeitung aus Datenschutzgründen ist real, aber nur, wenn die Nutzer darauf vertrauen, dass die lokal verarbeiteten Daten auch lokal bleiben – das erfordert nachprüfbare Designentscheidungen, keine Marketingbehauptungen.

Ist es tatsächlich eine neue Ära?

IDC prognostiziert, dass 60 Prozent der 2025 ausgelieferten PCs die AI-PC-Spezifikation erfüllen. Das ist eine reale Hardware-Sättigung. Ob das Software-Ökosystem nachzieht, ist die offene Frage. Die von Microsoft kontrollierten Funktionen funktionieren. Das Ökosystem jenseits von Microsoft findet noch heraus, wie es das Silizium nutzen kann.

Der Vergleich mit Apple Silicon ist auch hier lehrreich: Die Neural-Engine-Funktionen von Apple sind eng integriert, weil Apple Chip-Design, Betriebssystem und die primären Anwendungen kontrolliert. Die Fragmentierung des Windows-Ökosystems – zwischen Microsoft, OEM-Hardware-Varianten und Drittanbieterentwicklern – macht eine äquivalente Integration strukturell schwieriger. NPU-Hardware ist notwendig, aber nicht hinreichend für einen AI PC, der sich so kohärent anfühlt wie ein M4-MacBook. Die Software-Ebene ist die verbleibende Aufgabe.