PCs com IA e NPUs dedicados finalmente chegam às mãos dos consumidores — entenda o que esses chips realmente fazem | IRCNF - Intelligent Reliable Custom Next-gen Frameworks

O termo "AI PC" foi sussurrado pela primeira vez na CES 2024 e rapidamente gritado em todos os anúncios de laptops que se seguiram. No final daquele ano, ele havia se juntado a "tela 4K" e "bateria para o dia todo" como jargão de marketing tão onipresente que havia perdido a maior parte do seu significado. Todo laptop com um botão Copilot se tornou um AI PC. Chips com unidades de processamento neural — silício dedicado para acelerar inferência de Machine Learning — se tornaram a caixa de seleção que justificava o rótulo.

Dois anos depois, vale a pena dar um passo para trás no marketing e perguntar o que esses NPUs realmente fazem, se o hardware dedicado importa, e se o ponto de inflexão do AI PC realmente chegou ou foi apenas declarado.

Apple definiu o modelo

Antes de existir uma categoria "AI PC", existia o Apple Silicon. O chip M1, lançado em novembro de 2020, incluía um Neural Engine de 16 núcleos ao lado de sua CPU e GPU. A Apple já enviava Neural Engines em iPhones desde o A11 Bionic em 2017 — a geração do iPhone X — tornando a inferência de Machine Learning no dispositivo uma capacidade nativa do iOS anos antes de se tornar um tópico de discussão no Windows.

O Neural Engine do Apple Silicon lida com Face ID, fotografia computacional (modo noturno, modo retrato, photonic engine), transcrição em tempo real no Notes e — mais recentemente — recursos do Apple Intelligence, como ferramentas de escrita e geração de imagens no Image Playground. Tudo isso roda localmente, sem chamada para a nuvem, com baixa latência e sem exposição de privacidade. Os 38 TOPS (trilhões de operações por segundo) do Neural Engine no M4 são o que fazem esses recursos parecerem instantâneos em vez de lentos.

Este é o benchmark contra o qual os NPUs de PCs Windows são medidos, e é útil: a Apple não enviou hardware Neural Engine e depois descobriu o que fazer com ele. Os recursos e o silício foram enviados juntos.

O momento Snapdragon X da Qualcomm

O desenvolvimento mais significativo no lado Windows em 2024 foi o Qualcomm Snapdragon X Elite — o primeiro processador Windows on Arm a competir seriamente com x86 em desempenho enquanto iguala o Apple Silicon em vida útil da bateria. Criticamente, ele inclui um NPU de 45 TOPS, excedendo o requisito de 40 TOPS da Microsoft para certificação "Copilot+ PC".

O NPU do Snapdragon X Elite executa o Windows Studio Effects — o conjunto de recursos de desfoque de fundo, correção de contato visual e supressão de ruído integrado ao Windows 11. Ele lida com transcrição em tempo real no recurso Live Captions do Windows, com fala para texto offline que funciona em qualquer áudio, qualquer aplicativo, sem enviar áudio para a nuvem. O Cocreator no Microsoft Paint gera imagens localmente usando um modelo SDXL compactado. Esses são recursos reais, rodando em tempo real, no silício neural dedicado.

O lado x86 alcançou rapidamente. Os chips Intel Core Ultra Meteor Lake (final de 2023) incluíram um NPU pela primeira vez na história da Intel, com classificação de 10 a 34 TOPS dependendo da variante. Arrow Lake (final de 2024) melhorou isso. A série Ryzen AI da AMD trouxe NPUs para a linha móvel da AMD. O requisito de certificação Copilot+ PC efetivamente obrigou o hardware NPU em toda a indústria.

O que funciona hoje

O balanço honesto dos recursos acelerados por NPU que funcionam na prática é mais curto do que o marketing sugere, mas genuinamente útil. Windows Studio Effects — desfoque de fundo, enquadramento automático, correção de contato visual durante chamadas de vídeo — rodam suavemente no hardware NPU sem sobrecarregar a CPU ou GPU. Para trabalhadores remotos em chamadas de vídeo o dia todo, isso importa.

Live Captions fornece transcrição em tempo real em todo o áudio do sistema — qualquer vídeo, qualquer reunião, qualquer aplicativo — com precisão razoável para inglês e suporte crescente para outros idiomas. É o recurso AI PC mais universalmente útil para uma ampla gama de usuários, e é genuinamente melhor quando descarregado em um NPU.

Inferência local de LLM via ferramentas como Ollama e llama.cpp roda em hardware NPU quando o framework suporta. Modelos como Phi-3 Mini, Llama 3.2 3B e Gemma 2 2B rodam em velocidade utilizável em NPUs modernos — não tão rápido quanto em uma GPU dedicada, mas sem o consumo de energia e sem precisar da nuvem. Para desenvolvedores que desejam inferência de IA local por motivos de privacidade ou offline, chips classe NPU são uma melhoria significativa em relação à inferência apenas com CPU.

O problema da fragmentação

O maior obstáculo prático para a adoção de NPUs é a fragmentação de APIs. O NPU da Qualcomm usa seu SDK QNN (Qualcomm Neural Network). O NPU da Intel usa OpenVINO e DirectML. O da AMD usa ROCm e DirectML. O Neural Engine da Apple usa Core ML. Nenhum deles é interoperável.

O DirectML da Microsoft é a coisa mais próxima de uma API unificada do Windows para aceleração neural, mas os fornecedores de hardware têm sido lentos em expor todas as capacidades de seus NPUs através dela. Os desenvolvedores de aplicativos precisam decidir se escrevem código específico para NPU de cada fornecedor, confiam no DirectML (que pode não usar o NPU em algumas plataformas), ou simplesmente rodam na GPU e ignoram o NPU completamente. A maioria dos aplicativos de terceiros escolhe a última opção.

O resultado é que o uso do NPU que você vê no Gerenciador de Tarefas do Windows é quase inteiramente dos próprios recursos da Microsoft. Abra um aplicativo de videoconferência de terceiros em vez do Teams ou dos aplicativos nativos do Windows, e aquele NPU fica ocioso enquanto a GPU ou CPU cuida do desfoque de fundo.

Microsoft Recall e o acerto de contas com a privacidade

O recurso AI PC proposto mais controverso — Microsoft Recall, que tira capturas de tela periódicas de tudo que você faz no seu PC e as torna pesquisáveis por linguagem natural — exigia hardware classe NPU e era inicialmente exclusivo do Copilot+. Após críticas significativas de privacidade, a Microsoft atrasou e redesenhou o recurso, adicionando requisitos de aceitação, criptografia local e autenticação via Windows Hello antes do acesso.

O lançamento conturbado do Recall ilustrou uma tensão fundamental no marketing de AI PC: os "recursos de IA" mais ambiciosos envolvem processar dados sensíveis continuamente. A promessa de processamento no dispositivo para privacidade é real, mas apenas se os usuários confiarem que os dados processados localmente permanecem locais — o que exige escolhas de design verificáveis, não afirmações de marketing.

É realmente uma nova era?

A IDC projeta que 60% dos PCs enviados em 2025 atendem à especificação AI PC. Isso é saturação real de hardware. A questão em aberto é se o ecossistema de software vai acompanhar. Os recursos controlados pela Microsoft funcionam. O ecossistema além da Microsoft ainda está descobrindo como usar o silício.

A comparação com o Apple Silicon também é instrutiva aqui: os recursos do Neural Engine da Apple são fortemente integrados porque a Apple controla tanto o design do chip quanto o sistema operacional e os principais aplicativos. A fragmentação do ecossistema Windows — entre Microsoft, variação de hardware OEM e desenvolvedores terceiros — torna a integração equivalente estruturalmente mais difícil. O hardware NPU é necessário, mas não suficiente, para um AI PC que pareça tão coerente quanto um MacBook M4. A camada de software é o trabalho restante.