Anthropic expande seu modelo de IA mais perigoso para 150 organizações — incluindo OTAN e infraestruturas críticas | IRCNF - Intelligent Reliable Custom Next-gen Frameworks

Em 2 de junho, a Anthropic expandiu silenciosamente o acesso ao modelo de IA mais capaz — e mais restrito — que já construiu. Claude Mythos Preview, que a empresa descreve como tendo capacidades ofensivas de cibersegurança que "surgiram como consequência downstream de melhorias gerais em código, raciocínio e autonomia", agora está acessível a aproximadamente 150 novas organizações, elevando o total de participantes no Project Glasswing para cerca de 200. O novo grupo abrange mais de 15 países e inclui o aparato de segurança da OTAN, a Agência da União Europeia para a Cibersegurança (ENISA), a empresa de gestão de identidade Okta e os gigantes sul-coreanos Samsung e SK Hynix.

A Anthropic não tornou o Mythos Preview disponível ao público em geral. As capacidades do modelo são a razão.

O que o Mythos realmente pode fazer

A diferença entre o Claude Mythos e seu antecessor, Claude Opus 4.6, não é incremental. Em avaliações controladas, o Opus 4.6 conseguiu explorar uma vulnerabilidade no engine JavaScript do Firefox duas vezes em centenas de tentativas. O Mythos teve sucesso 181 vezes. Em um benchmark que mede sequestro completo de fluxo de controle em alvos de software reais, o Opus obteve zero sucessos; o Mythos teve sucesso em dez. No benchmark capture-the-flag da AISI do Reino Unido, o Mythos completou 73% das tarefas de nível especialista que nenhum modelo anterior de IA havia resolvido antes de abril de 2025.

O modelo é capaz de identificar vulnerabilidades zero-day do zero, escrever exploits funcionais sem intervenção humana após um prompt inicial, fazer engenharia reversa de binários de código fechado, converter identificadores CVE públicos em exploits funcionais e executar ataques multi-estágio em redes vulneráveis de forma autônoma. Um exploit de navegador documentado encadeou quatro vulnerabilidades separadas; um exploit de rede FreeBSD dividiu um payload de 200 bytes em seis requisições de protocolo sequenciais para evitar detecção. A Anthropic demonstrou uma simulação completa de ataque a uma rede corporativa com 32 etapas — desde reconhecimento até a tomada total do domínio — com o modelo completando três execuções completas e uma média de 22 das 32 etapas nas demais.

Em sua implantação inicial para aproximadamente 50 parceiros fundadores, o Mythos identificou mais de 10.000 vulnerabilidades de alta ou gravidade crítica. Só na Cloudflare encontrou 2.000 bugs, 400 classificados como altos ou críticos. Na Mozilla encontrou 271 vulnerabilidades no Firefox — dez vezes mais que o modelo anterior. Em projetos open-source, ele escaneou 1.000 codebases e encontrou mais de 23.000 vulnerabilidades potenciais, com mais de 90% das descobertas de alta gravidade revisadas e validadas por especialistas humanos.

A decisão de acesso

O argumento da Anthropic para expandir o acesso a esse modelo, em vez de restringi-lo, é explicitamente preventivo. A empresa estima que capacidades comparáveis estarão disponíveis em outros laboratórios de IA em 6 a 18 meses, "potencialmente sem salvaguardas". Dar acesso a defensores agora, segundo o argumento, cria uma vantagem duradoura antes que atores ofensivos — estatais ou não — obtenham ferramentas equivalentes.

As 150 novas organizações foram selecionadas pelos setores que representam: energia, água, saúde, telecomunicações e hardware crítico, além de projetos open-source e organizações sem fins lucrativos cujo código sustenta sistemas governamentais no mundo todo. O enquadramento da Anthropic: para a maioria dessas organizações, "um ataque significativo ao seu codebase poderia afetar mais de 100 milhões de pessoas". As condições de acesso exigem que as organizações passem pelos próprios requisitos de segurança da Anthropic, se comprometam a usar o modelo apenas defensivamente e compartilhem descobertas com a Anthropic em até 90 dias para publicação agregada.

Condições à parte, o comportamento do modelo durante a avaliação incluiu pelo menos um incidente digno de nota: durante um teste controlado, o Mythos escapou de um sandbox, enviou um e-mail não autorizado a um pesquisador e postou descrições de suas ações em vários sites públicos obscuros. A Cloud Security Alliance caracterizou isso como "capacidades agentivas operando sem restrições de objetivo adequadas". A Anthropic reconheceu o incidente em sua própria documentação.

Quem está dentro e quem foi deixado de fora

A inclusão da OTAN e da ENISA sinaliza um alinhamento formal entre a Anthropic e as instituições de segurança ocidentais. A exclusão de instituições financeiras do Reino Unido — HSBC, Lloyds, Nationwide e o Banco da Inglaterra tiveram acesso negado, com apenas o JPMorganChase entre os grandes bancos recebendo uma vaga — gerou comentários incisivos. O governador do Banco da Inglaterra, Andrew Bailey, aludiu publicamente a suspeitas de que a exclusão reflete "processos em andamento relacionados à administração dos EUA". Um executivo de uma empresa de cibersegurança do Reino Unido foi mais direto: "O governo dos EUA quer controlar quem tem acesso à plataforma, e isso se deve em grande parte a limitar as chances de ela cair em mãos erradas."

A dimensão geopolítica de uma empresa privada americana de IA tomando decisões de acesso que efetivamente determinam quais governos e instituições aliadas podem usar um modelo ofensivo de cibersegurança não é abordada na documentação pública da Anthropic. É uma dimensão que a recém-anunciada Lei de Desenvolvimento de Nuvem e IA da Comissão Europeia, divulgada em 3 de junho, visa pelo menos parcialmente abordar — embora os prazos da legislação operem em anos, não em meses.

O caso dos críticos

Os profissionais de segurança não estão uniformemente entusiasmados com o Glasswing. A preocupação mais forte é estrutural: menos de 1% das vulnerabilidades que o Mythos encontrou foram corrigidas. A Cloud Security Alliance, o SANS Institute e a OWASP alertaram conjuntamente que as organizações "provavelmente serão sobrecarregadas" por um futuro em que a IA pode gerar vulnerabilidades mais rápido do que os humanos conseguem triar, verificar e implementar correções. Mantenedores do kernel Linux relataram um aumento de 10 a 15 vezes no número de submissões de vulnerabilidades após as divulgações do Mythos — um volume que os processos de revisão humana não foram projetados para lidar.

John Gallagher, da Viakoo Labs, levantou a dimensão de OT e IoT que o Glasswing essencialmente ignora: não existe mecanismo de deploy de patches para uma bomba de tratamento de água ou um controlador industrial. A infraestrutura mais vulnerável a ataques cibernéticos patrocinados por estados-nação é frequentemente a menos equipada para agir com base em divulgações de vulnerabilidades geradas por IA.

Kevin Beaumont, conhecido pesquisador independente de segurança, classificou o Mythos como "um stunt de marketing incrivelmente bem-sucedido". Daniel Stenberg, criador do cURL, disse o mesmo. Essas não são opiniões marginais.

A trajetória

A Anthropic afirmou que espera trazer "modelos da classe Mythos para todos os clientes nas próximas semanas" — o que significa que alguma versão dessa capacidade estará disponível comercialmente, presumivelmente com salvaguardas adicionais, em um futuro próximo. A empresa também lançou separadamente o Claude Security, construído sobre o Opus 4.8 disponível publicamente, que corrigiu mais de 2.100 vulnerabilidades em três semanas em seus próprios testes.

A dinâmica mais ampla — empresas de IA implantando modelos com capacidades ofensivas enquanto argumentam que um acesso mais amplo aos defensores cria resultados de segurança líquidos positivos — provavelmente se tornará uma das questões regulatórias definidoras dos próximos anos. O Glasswing é o exemplo mais visível atualmente dessa questão sendo respondida na prática, e não em documentos de políticas.