L'IA sur l'appareil change discrètement ce que les smartphones peuvent faire — sans connexion Internet requise | IRCNF - Intelligent Reliable Custom Next-gen Frameworks

Les démonstrations d'IA qui attirent l'attention impliquent des serveurs cloud, des milliards de paramètres et une connexion Internet rapide. L'IA qui change réellement la façon dont des centaines de millions de personnes utilisent leurs appareils est plus petite, plus rapide et fonctionne entièrement sur le silicium dans leurs poches.

Chaque smartphone phare lancé depuis 2024 contient une unité de traitement neuronal (Neural Processing Unit) — un bloc matériel dédié conçu spécifiquement pour exécuter des opérations matricielles et l'inférence de réseaux de neurones à grande vitesse et faible consommation. L'Apple A18 Pro dans la série iPhone 16, le Qualcomm Snapdragon 8 Elite et le Samsung Exynos 2500 sont tous équipés de NPU capables d'effectuer 10 à 38 billions d'opérations par seconde. Ce ne sont pas des processeurs généralistes réutilisés pour l'IA — ce sont des siliciums sur mesure conçus de zéro pour les motifs de calcul spécifiques que nécessitent les réseaux de neurones.

Ce que font réellement les NPU

Les unités de traitement neuronal sont optimisées pour les opérations de multiplication matricielle et de convolution qui dominent les charges de travail des réseaux de neurones. Un CPU peut exécuter ces opérations, mais inefficacement — il doit charger les données de la mémoire, effectuer les opérations séquentiellement et réécrire les résultats, laissant souvent la majeure partie de sa capacité de calcul inactif. Un GPU parallélise mieux mais consomme beaucoup plus d'énergie que ce qui est durable sur un appareil alimenté par batterie. Une NPU est conçue sur mesure : elle dispose de tableaux de mémoire locale positionnés à côté d'unités de multiplication-accumulation, traite les données en tuiles qui maximisent la réutilisation et fonctionne avec une fraction du budget énergétique d'un GPU.

L'Apple Neural Engine dans l'A18 Pro traite 38 billions d'opérations par seconde avec une consommation d'énergie qui permet une inférence soutenue sans throttling. Le Hexagon NPU de Qualcomm dans le Snapdragon 8 Elite atteint 45 TOPS (billions d'opérations par seconde) — le plus élevé de toutes les puces mobiles à partir de 2026. Le NPU du Samsung Exynos 2500 atteint 34.4 TOPS. Ces chiffres représentent une amélioration de 3 à 4 fois par rapport à la même génération deux ans plus tôt, suivant une trajectoire qui suggère que les performances des NPU mobiles doublent environ tous les 18 mois.

Ce qui s'exécute sur l'appareil en 2026

Les applications pratiques qui fonctionnent localement sur les smartphones phares en 2026 vont bien au-delà de la simple reconnaissance vocale et de la catégorisation de photos des générations précédentes. La traduction en direct fonctionne désormais entièrement sur l'appareil : le mode interprète du Pixel 9 Pro traduit une conversation parlée en temps réel entre 48 paires de langues sans aucune connexion réseau, traitement audio, conversion en texte, traduction et synthèse vocale en moins de 400 millisecondes. Le modèle de traduction sur l'appareil de Google est un modèle distillé de 1,5 milliard de paramètres qui tient dans 600 Mo de mémoire et fonctionne entièrement sur le NPU du Tensor G4.

La suite Galaxy AI de Samsung, fonctionnant sur le Snapdragon 8 Elite, comprend l'édition de photos sur l'appareil qui peut supprimer des objets, étendre des arrière-plans et recomposer des images à l'aide d'un modèle de diffusion compressé pour s'exécuter dans les contraintes mémoire du NPU. Les modèles d'édition de photos sont considérablement plus petits que leurs équivalents cloud — environ 500 millions de paramètres contre 3 à 8 milliards dans les outils photo cloud — mais produisent des résultats indiscernables pour la majorité des cas d'utilisation.

Apple Intelligence, introduit dans iOS 18 et affiné au cours de 2025 et 2026, exécute un ensemble de modèles sur l'appareil : un assistant d'écriture, un système de génération d'images appelé Image Playground, un moteur de résumé et le Siri amélioré capable d'effectuer des tâches multi-étapes entre les applications. Les modèles sur l'appareil culminent à environ 3 milliards de paramètres et fonctionnent sur le Neural Engine ; les tâches nécessitant des capacités de modèle plus importantes sont orientées vers Private Cloud Compute d'Apple, qui traite les requêtes sur des serveurs Apple Silicon et garantit cryptographiquement que les données ne sont pas conservées ni enregistrées.

L'avantage de la vie privée

Le traitement local des données modifie l'équation de la vie privée d'une manière que le langage marketing obscurcit souvent mais les implications techniques sont réelles. Lorsque votre téléphone retranscrit une note vocale sur l'appareil, cet audio ne quitte jamais l'appareil. Lorsqu'un modèle sur l'appareil résume un e-mail, le contenu de l'e-mail ne traverse jamais un réseau. Lorsque l'édition photo s'exécute localement, les photos ne sont pas téléchargées sur un serveur tiers pour traitement.

Cela compte dans des contextes où le traitement cloud crée une exposition juridique ou pratique : des professionnels de la santé dictant des notes, des avocats discutant d'affaires clients, des journalistes protégeant leurs sources, et toute personne dans une juridiction avec des lois agressives de conservation des données. L'avantage pratique est que le traitement sur l'appareil contourne complètement les questions de politique de confidentialité — il n'y a pas de données à collecter car rien ne quitte l'appareil.

La limitation est la capacité : les modèles sur l'appareil sont nécessairement plus petits et moins capables que leurs homologues cloud. Un modèle sur l'appareil de 3 milliards de paramètres écrira un essai moins bon qu'un modèle cloud de 70 milliards de paramètres. L'écart s'est réduit — les techniques de distillation et de quantification se sont considérablement améliorées — mais il ne s'est pas refermé, et pour les tâches de raisonnement complexes, les modèles cloud restent nettement meilleurs.

Le cas de la fiabilité hors ligne

L'IA sur l'appareil répond également à un problème de fiabilité facile à sous-estimer : la dépendance au cloud. Une fonctionnalité d'IA qui nécessite une connexion serveur est indisponible dans un avion, dans un bâtiment avec une mauvaise réception, dans un pays où les serveurs du fournisseur sont bloqués, et lors de toute panne de l'infrastructure du fournisseur.

Google a appris cette leçon avec l'application de messagerie Allo en 2016 : les fonctionnalités d'IA nécessitant un traitement cloud étaient simplement absentes lorsque les utilisateurs étaient hors ligne, ce qui a limité l'adoption. La transition vers le traitement sur l'appareil pour la plupart des fonctionnalités courantes a été une évolution stratégique délibérée sur les trois principales plateformes téléphoniques. L'objectif est que les fonctionnalités d'IA donnent l'impression d'être des fonctionnalités de l'appareil, et non des fonctionnalités d'un service — disponibles de manière prévisible, quelle que soit la connectivité.

La course à la compression de modèles

L'écart de capacité entre l'IA sur l'appareil et l'IA cloud se réduit grâce à une combinaison d'améliorations matérielles et de recherche sur la compression de modèles. La quantification — réduire la précision des poids du modèle de virgule flottante 32 bits ou 16 bits à des entiers 8 bits ou 4 bits — réduit les besoins en mémoire du modèle de 4 à 8 fois avec des pénalités de précision modestes. La distillation de connaissances entraîne des modèles plus petits à imiter le comportement des plus grands. L'élagage structuré supprime les neurones et les couches qui contribuent le moins à la sortie du modèle.

Le résultat est que les modèles spécifiquement conçus pour le déploiement sur l'appareil en 2026 atteignent des capacités qui auraient nécessité un traitement cloud en 2023. Le Qualcomm AI Model Efficiency Toolkit et le framework Core ML d'Apple incluent tous deux des outils pour prendre des architectures de modèles standard et les optimiser pour un déploiement sur l'appareil. Meta a ouvert en Open Source ses recherches MobileVision et MobileNLP ciblant spécifiquement l'inférence sur l'appareil.

La trajectoire pointe vers un futur proche où les avantages de latence, de confidentialité et de fiabilité de l'IA sur l'appareil — combinés à des améliorations matérielles continues — en font la solution par défaut pour la plupart des tâches courantes, le traitement cloud étant réservé aux cas exigeants qui en ont réellement besoin. Pour les utilisateurs, cela signifie des fonctionnalités d'IA qui donnent l'impression d'être instantanées et fonctionnent partout. Le changement sous-jacent est que l'intelligence devient une propriété de l'appareil, et non un service auquel on accède depuis celui-ci.