Um programador identificado como Manjeet Singh publicou esta semana um projeto de código aberto que representa uma descoberta técnica assinalável. Recorrendo a engenharia reversa, este descobriu como treinar redes neuronais diretamente no Apple Neural Engine (ANE) dos chips Apple Silicon, incluindo a retropropagação, o mecanismo central do treino de modelos de inteligência artificial (IA), sem recorrer ao CoreML, ao Metal ou à GPU.

Não perca nenhuma notícia importante da atualidade de tecnologia e acompanhe tudo em tek.sapo.pt

O projeto está disponível no GitHub sob o nome maderix/ANE e foi desenvolvido em colaboração com o modelo Claude Opus 4.6 da Anthropic, numa abordagem que o próprio autor descreve como uma investigação colaborativa. O ANE é um acelerador de inferência presente nos chips desenhados pela Apple usados em todos os equipamentos, desde os iPhones aos Mac, e que a marca nunca expôs para treino de modelos, reservando esse papel à GPU via Metal, a sua API gráfica de computação de baixo nível.

Apple M4 NPU
Apple M4 NPU créditos: Apple

Para contornar esta limitação, o programador mapeou todo o software disponível, desde o CoreML até ao driver de kernel IOKit. Isto permitiu descobrir mais de 40 classes privadas no framework AppleNeuralEngine, incluindo as APIs privadas _ANEClient e _ANECompiler, que permitem acesso directo ao hardware sem passar pelas barreiras impostas pelo CoreML. O formato MIL (Machine Learning Intermediate Language), que o CoreML usa internamente para compilar redes para o ANE, também foi decifrado.

Os resultados obtidos num Mac Mini M4 são tecnicamente interessantes. Usando uma só camada transformadora com dimensão 768 e numa sequência de 512 tokens, esta corre em 9,3 milissegundos por ciclo, garantindo 1,78 TFLOPS sustentados e apenas 11,2% de utilização do ANE. O investigador apurou ainda que o valor de "38 TOPS" publicitado pela Apple é, na realidade, enganador, embora tenha boas notícias. Segundo benchmarks realizados diretamente no chip, sem as barreiras impostas pelo CoreML, o ANE do Apple M4 atinge os 6,6 TFLOPS por watt, o que aponta para uma eficiência energética superior à anunciada.

A descoberta gerou um entusiasmo considerável online. Brian Roemmele, investigador e divulgador tecnológico que popularizou o projeto no X, afirmou os valores anunciados tornam o NPU do Apple M4 numa solução 80 vezes mais eficiente que uma solução dedicada de topo, como uma Nvidia A100. Não existem, contudo, dados técnicos independentes que confirmem esta comparação direta, que mistura arquiteturas, casos de uso e condições de medição substancialmente diferentes.

Ainda assim, esta descoberta prova que o software é o maior fator limitativo no treino de IA, e não o próprio hardware. O projeto, ainda assim, tem limitações claras e assumidas, como o facto de treinar apenas uma camada de transformação de cada vez e de usar dados sintéticos em vez de dados reais. Existe ainda o limite imposto pelo próprio compilador do ANE, de 119 compilações por processo. Para contornar este, é essencial reiniciar o complicador com o comando "exec()".

Do ponto de vista legal, e como forma de evitar problemas judiciais com a Apple, o autor invoca disposições de interoperabilidade para justificar a engenharia reversa realizada às APIs privadas da Apple. Este citou precedentes como o caso judicial entre a Sega v. Accolade de 1992, bem como a secção 1201(f) do DMCA norte-americano. O projeto não inclui código ou binários proprietários e é apresentado como sendo uma investigação independente para fins educativos.

Assine a newsletter do TEK Notícias e receba todos os dias as principais notícias de tecnologia na sua caixa de correio.