Apesar da popularidade do ChatGPT como um dos principais modelos de inteligência artificial generativa, a Apple continua a aprofundar formas alternativas de tornar o seu assistente Siri mais inteligente e produtivo. Num documento publicado por investigadores da gigante tecnológica, registado com o nome “ReALM: Reference Resolution As Language Modeling”, foi explicada a sua abordagem à inteligência artificial.

O modelo da Apple pretende considerar tanto o conteúdo que aparece no ecrã dos equipamentos, como as tarefas que o utilizador está no momento a realizar, seja de forma ativa ou em fundo. Estes são utilizados para responder às questões do utilizador.

Na prática é ajudar o assistente de IA o contexto dos pedidos dos utilizadores, sabendo qual a imagem que está no ecrã, qual a música que está a ser tocada em fundo ou mesmo que tipo de alarme do iPhone tocou, por exemplo. Os investigadores afirmam que uma vez compreendido o contexto, a sua IA consegue oferecer maior performance.

Apple em negociações com a Google para usar a IA generativa do Gemini no iPhone
Apple em negociações com a Google para usar a IA generativa do Gemini no iPhone
Ver artigo

O estudo refere que ao permitir ao utilizador colocar questões sobre o que vê no seu ecrã, este torna-se um passo crucial para garantir uma verdadeira experiência mãos livres com os assistentes de voz. Dando um exemplo de como pode ser aplicado, o utilizador pede ao assistente para mostrar farmácias perto de si. A IA apresenta a lista no ecrã. Com essa informação, o utilizador pode optar por pedir a ligação de uma farmácia em concreto, referindo o local, ou dizer “liga à de baixo” ou para ligar ao número presente no ecrã. Ou seja, é como se a IA estivesse a olhar de igual forma para o ecrã, recebendo comandos dados de forma mais intuitiva para o utilizador, em vez de ter de soletrar cada morada ou número de telefone para a IA entender.

Com estas experiências, os investigadores da Apple acreditam que conseguem ultrapassar a experiência do GPT-4, atualmente o modelo de linguagem (LLM) mais avançado da OpenAI. Apesar disso, o estudo traça conclusões do trabalho que ainda tem pela frente. Destacam que apesar da sua abordagem ser efetiva na codificação da posição das entidades no ecrã, descobriram que existe perdas de informação que podem não resolver pedidos complexos do utilizador, que estejam assentes em nuances de compreensão posicional.

Acreditamos que explorar abordagens mais complexas, tais como dividir o ecrã numa grelha e codificar essas posições espaciais relativas em texto, embora desafiantes, é um caminho promissor para exploração futura”, conclui o estudo.

De recordar que a Apple ainda não decidiu qual a abordagem à IA a curto prazo. E enquanto não materializa as suas investigações num modelo próprio, acredita-se que possa utilizar o sistema da Google nos próximos modelos de iPhone. A empresa liderada por Tim Cook terá entrado em negociações para adotar o modelo Gemini, embora também tenha abordado a OpenAI para utilização do ChatGPT.