La IA en el dispositivo está cambiando silenciosamente lo que los smartphones pueden hacer — sin necesidad de internet | IRCNF - Intelligent Reliable Custom Next-gen Frameworks

Las demostraciones de IA que llaman la atención involucran servidores en la nube, miles de millones de parámetros y una conexión rápida a internet. La IA que realmente está cambiando la forma en que cientos de millones de personas usan sus dispositivos es más pequeña, más rápida y funciona completamente en el silicio dentro de sus bolsillos.

Cada teléfono inteligente insignia lanzado desde 2024 contiene una Unidad de Procesamiento Neuronal (Neural Processing Unit) — un bloque de hardware dedicado diseñado específicamente para ejecutar operaciones matriciales e inferencia de redes neuronales a alta velocidad y bajo consumo. El Apple A18 Pro en la serie iPhone 16, el Qualcomm Snapdragon 8 Elite y el Samsung Exynos 2500 incorporan NPU capaces de realizar entre 10 y 38 billones de operaciones por segundo. No son procesadores de propósito general reutilizados para IA — son silicio personalizado diseñado desde cero para los patrones computacionales específicos que requieren las redes neuronales.

Qué hacen realmente las NPU

Las unidades de procesamiento neuronal están optimizadas para las operaciones de multiplicación de matrices y convolución que dominan las cargas de trabajo de las redes neuronales. Una CPU puede ejecutar estas operaciones, pero de manera ineficiente: tiene que cargar datos de la memoria, realizar operaciones secuencialmente y escribir los resultados, dejando a menudo la mayor parte de su capacidad computacional inactiva. Una GPU paraleliza mejor pero consume mucha más energía de la que es sostenible en un dispositivo con batería. Una NPU está hecha a medida: tiene matrices de memoria local colocadas junto a unidades de multiplicación-acumulación, procesa datos en teselas que maximizan la reutilización y opera con una fracción del presupuesto de energía de una GPU.

El Apple Neural Engine en el A18 Pro procesa 38 billones de operaciones por segundo con un consumo de energía que permite una inferencia sostenida sin estrangulamiento térmico. El Hexagon NPU de Qualcomm en el Snapdragon 8 Elite alcanza 45 TOPS (billones de operaciones por segundo) — el más alto en cualquier chip móvil a partir de 2026. El NPU del Exynos 2500 de Samsung alcanza 34.4 TOPS. Estas cifras representan una mejora de 3 a 4 veces respecto a la misma generación dos años antes, siguiendo una trayectoria que sugiere que el rendimiento de la NPU móvil se duplica aproximadamente cada 18 meses.

Qué se ejecuta en el dispositivo en 2026

Las aplicaciones prácticas que funcionan localmente en los teléfonos insignia en 2026 van mucho más allá del simple reconocimiento de voz y la categorización de fotos de generaciones anteriores. La traducción en vivo ahora funciona completamente en el dispositivo: el modo intérprete del Pixel 9 Pro traduce conversaciones habladas en tiempo real entre 48 pares de idiomas sin conexión a la red, procesando audio, convirtiendo a texto, traduciendo y sintetizando el habla en menos de 400 milisegundos. El modelo de traducción en el dispositivo de Google es un modelo destilado de 1.5 mil millones de parámetros que cabe en 600 MB de memoria y se ejecuta completamente en la NPU del Tensor G4.

La suite Galaxy AI de Samsung, que funciona en el Snapdragon 8 Elite, incluye edición de fotos en el dispositivo que puede eliminar objetos, extender fondos y recomponer imágenes usando un modelo de difusión comprimido para ejecutarse dentro de las limitaciones de memoria de la NPU. Los modelos de edición de fotos son sustancialmente más pequeños que los equivalentes en la nube — alrededor de 500 millones de parámetros frente a 3–8 mil millones en las herramientas de fotos en la nube — pero producen resultados indistinguibles para la mayoría de los casos de uso.

Apple Intelligence, introducido en iOS 18 y refinado durante 2025 y 2026, ejecuta un conjunto de modelos en el dispositivo: un asistente de escritura, un sistema de generación de imágenes llamado Image Playground, un motor de resumen y la Siri mejorada que puede realizar tareas de múltiples pasos entre aplicaciones. Los modelos en el dispositivo alcanzan un máximo de alrededor de 3 mil millones de parámetros y se ejecutan en el Neural Engine; las tareas que requieren capacidades de modelo más grandes se enrutan a Private Cloud Compute de Apple, que procesa solicitudes en servidores Apple Silicon y garantiza criptográficamente que los datos no se retienen ni registran.

La ventaja de privacidad

Procesar datos localmente cambia la ecuación de privacidad de maneras que el lenguaje de marketing a menudo oscurece, pero las implicaciones técnicas son reales. Cuando tu teléfono transcribe una nota de voz en el dispositivo, ese audio nunca sale del dispositivo. Cuando un modelo en el dispositivo resume un correo electrónico, el contenido del correo nunca atraviesa una red. Cuando la edición de fotos se ejecuta localmente, las fotos no se cargan a un servidor de terceros para su procesamiento.

Esto importa en contextos donde el procesamiento en la nube crea exposición legal o práctica: profesionales médicos dictando notas, abogados discutiendo asuntos de clientes, periodistas protegiendo fuentes y cualquier persona en una jurisdicción con leyes agresivas de retención de datos. El beneficio práctico es que el procesamiento en el dispositivo evita por completo las preguntas de política de privacidad — no hay datos que recopilar porque nada sale del dispositivo.

La limitación es la capacidad: los modelos en el dispositivo son necesariamente más pequeños y menos capaces que sus contrapartes en la nube. Un modelo en el dispositivo de 3 mil millones de parámetros escribirá un ensayo peor que un modelo en la nube de 70 mil millones de parámetros. La brecha se ha estado reduciendo — las técnicas de destilación y cuantización han mejorado significativamente — pero no se ha cerrado, y para tareas de razonamiento complejas, los modelos en la nube siguen siendo sustancialmente mejores.

El caso de la confiabilidad sin conexión

La IA en el dispositivo también aborda un problema de confiabilidad que es fácil de subestimar: la dependencia de la nube. Una característica de IA que requiere una conexión al servidor no está disponible en un avión, en un edificio con mala recepción, en un país donde los servidores del proveedor están bloqueados, y durante cualquier interrupción de la infraestructura del proveedor.

Google aprendió esta lección con la aplicación de mensajería Allo en 2016: las funciones de IA que requerían procesamiento en la nube simplemente no estaban disponibles cuando los usuarios estaban sin conexión, lo que limitó la adopción. La transición al procesamiento en el dispositivo para la mayoría de las funciones comunes ha sido un cambio estratégico deliberado en las tres plataformas de teléfonos principales. El objetivo es que las funciones de IA se sientan como funciones del dispositivo, no como funciones de un servicio — disponibles de manera predecible independientemente de la conectividad.

La carrera de compresión de modelos

La brecha de capacidad entre la IA en el dispositivo y la nube se está cerrando mediante una combinación de mejoras de hardware e investigación en compresión de modelos. La cuantización — reducir la precisión de los pesos del modelo de punto flotante de 32 o 16 bits a enteros de 8 o 4 bits — reduce los requisitos de memoria del modelo entre 4 y 8 veces con penalizaciones de precisión modestas. La destilación de conocimiento entrena modelos más pequeños para imitar el comportamiento de modelos más grandes. La poda estructurada elimina neuronas y capas que contribuyen menos a la salida del modelo.

El resultado es que los modelos diseñados específicamente para la implementación en el dispositivo en 2026 logran capacidades que habrían requerido procesamiento en la nube en 2023. El Qualcomm AI Model Efficiency Toolkit y el framework Core ML de Apple incluyen herramientas para tomar arquitecturas de modelo estándar y optimizarlas para su implementación en el dispositivo. Meta ha publicado como Open Source su investigación MobileVision y MobileNLP dirigida específicamente a la inferencia en el dispositivo.

La trayectoria apunta hacia un futuro cercano donde los beneficios de latencia, privacidad y confiabilidad de la IA en el dispositivo — combinados con mejoras continuas de hardware — la conviertan en la opción predeterminada para la mayoría de las tareas comunes, reservando el procesamiento en la nube para los casos exigentes que realmente lo requieran. Para los usuarios, esto significa funciones de IA que se sienten instantáneas y funcionan en todas partes. El cambio subyacente es que la inteligencia se está convirtiendo en una propiedad del dispositivo, no en un servicio al que se accede desde él.