GPT e Gemini já interpretam o mundo, conversam entre si e cantam. Quais são as novidades da IA da Google e OpenAI?

Rui Parreira

14 mai 2024 12:27

Este artigo tem mais de um ano

A nova geração de inteligência artificial da Google e da OpenAI já consegue olhar para o mundo e interpretar o contexto, acrescentando informação na conversa. E também já fazem perguntas ao utilizador.

Ontem a OpenAI apresentou o seu novo modelo de inteligência artificial generativa, o GPT-4o, que vai chegar gratuitamente a todos os utilizadores nas próximas semanas. Nesta batalha pela liderança da IA, a empresa de Sam Altman procurou antecipar-se ao grande evento anual Google I/O, que se realiza hoje às 18h00 (hora de Lisboa).

O certo é que a Google em resposta, deixou um teasing da nova versão do Gemini, um pequeno vídeo que deixa antecipar o que vai acontecer logo no Shoreline Amphitheatre em Mountain View, a sede da empresa na Califórnia. Durante a montagem do palco, foi pedido ao modelo de IA que analisasse o que estava a acontecer. O modelo respondeu que se estava a montar um palco, “para um grande evento, talvez uma conferência ou apresentação.

Mas o interessante é que o Gemini não acabou a conversa com a descrição, mas sim com uma pergunta: “Alguma coisa que te tenha chamado a atenção?” A IA devolveu ao utilizador a palavra, o que de forma natural respondeu que tinha notado nas grandes letras no ecrã, que formavam o logotipo do evento e perguntou o que significavam. Nesta interação o modelo não apenas explicou o que era o Google I/O, como perguntou ao utilizador se alguma vez tinha assistido ao evento.

Este pormenor de interação tornou a conversa entre o utilizador e o modelo bem mais natural, como se duas pessoas estivessem a falar. Esta capacidade de interpretar o meio ambiente ficou também patente na demonstração do GPT-4o, que mesmo com algumas “gafes”, parecia muito natural, por vezes, exageradamente natural.

Ainda não se sabem os planos da Google, mas do lado da OpenAI, o seu novo modelo flagship de IA utiliza um sistema omnimodelo nativo entre voz, texto e visão. Neste caso, o "o" é a abreviação de Omni. Isso significa que o utilizador pode combinar diferentes formas de input de informação, seja por texto, por áudio/voz e imagens. E a possibilidade de ambos os modelos da Google e OpenAI utilizarem a câmara do smartphone para ver aquilo que o utilizador quiser mostrar e ter a capacidade da respetiva interpretação.

Entrando em detalhes, a OpenAI diz que o seu modelo consegue responder até 232 milissegundos, registando uma média de 320 milissegundos, que é semelhante à capacidade de resposta de um humano durante uma conversa. A empresa promete oferecer uma maior compreensão de visão e áudio que os modelos existentes no seu novo GPT-4o.

O novo modelo foi treinado de ponta-a-ponta com texto, visão e áudio, com todos os inputs e outputs processados pela mesma rede neural. A OpenAI diz que este é o seu primeiro modelo a combinar todos estes formatos e por isso, diz que está apenas a “arranhar a superfície” na exploração do que o modelo consegue fazer e as suas limitações.

As demonstrações da OpenAI, que pode ver nos vídeos, assim como o teasing da Google salientam outra coisa: depois destas interações, dificilmente iremos olhar para os atuais assistentes virtuais da mesma forma. Google Assistant, Alexa ou Siri são monocórdicos, robóticos e limitados quando comparado com as conversações naturais que estes novos modelos apresentam. Será que finalmente os assistentes vão ser substituídos pela IA generativa?

Até porque entre outras capacidades demonstradas, o GPT-4o mostrou-se ser capaz de contar histórias, mudando o tom dramático consoante era pedido e até a cantar. Uma demonstração que não apenas mostra as suas capacidades, como abre portas ao seu potencial quando integrado em outros produtos, como brinquedos ou jogos, por exemplo.

Outro aspeto interessante na demonstração realizada ontem pela equipa de Muri Murati, CTO da OpenAI, é que a IA pode ser interrompida a meio, receber novos inputs do utilizador e continuar a partir daí. Exatamente como uma conversa natural entre duas pessoas.

Noutro vídeo partilhado de demonstração do GPT-4o colocou-se dois modelos, em smartphones diferentes, a conversarem entre si com uma particularidade: um tinha a câmara ligada para ver o mundo em redor a outra apenas ouvia. O resultado foi um sistema a fazer perguntas ao outro, que descria aquilo que via em redor. Na segunda parte foi pedido à IA para transformar as descrições do que tinha visto na sala do teste em música, acabando os dois modelos a cantar alternadamente.

Esta nova geração de modelos de IA parece mais natural, mesmo com os respetivos enganos mostrados nos testes. Mas parece ser mais fácil e útil, seja para ajudas de traduções em tempo real, como nas conversas fluidas com a informação disponível. A partir daqui é possível tentar adivinhar as utilizações práticas que podem ter.

A “bola” agora está do lado da Google, com aquilo que vai mostrar durante o evento I/O sobre as novidades do Gemini, esta tarde.

Pergunta do Dia

Em destaque

Últimas

Casa dos Bits · Internet · 2 jun 2025 15:28

Serviços de TV e futebol pirateados à escala industrial. Big Tech criticadas por falharem no combate

por Rui Parreira
Casa dos Bits · Negócios · 2 jun 2025 14:15

Google antecipa-se à decisão do megaprocesso nos Estados Unidos e avisa que vai recorrer
Casa dos Bits · Apps · 2 jun 2025 13:09

Estados do WhatsApp vão ter mais opções de personalização com fotos, música e "autocolantes"

por Francisca Andrade
Tek / Lusa · Negócios · 2 jun 2025 12:33

Glovo e Delivery Hero multadas em 329 milhões de euros por violarem as regras da concorrência na UE
Casa dos Bits · Ciência · 2 jun 2025 12:24

Hubble “espreita” uma galáxia espiral com um coração de estrelas a 46 milhões de anos-luz

por Francisca Andrade
Casa dos Bits · Computadores · 2 jun 2025 12:16

NOS investe em nova área de cibersegurança e lança plataforma CyberInspect

Comentários

Entre com a sua conta do Facebook ou registe-se para ver e comentar

Relacionados Playlist

Autoplay

GPT e Gemini já interpretam o mundo, conversam entre si e cantam. Quais são as novidades da IA da Google e OpenAI?

Pergunta do Dia

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Últimas

Comentários

Relacionados Playlist

GPT e Gemini já interpretam o mundo, conversam entre si e cantam. Quais são as novidades da IA da Google e OpenAI?

ChatGPT chega ao desktop com novo design. GPT-4o é o próximo passo da IA generativa da OpenAI

Pergunta do Dia

Veja também

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Comentários

Veja também