Google I/O: Gemini 1.5 Pro é mais inteligente e capaz de observar o que se passa em redor

Rui Parreira

14 mai 2024 18:05

Este artigo tem mais de um ano

O evento dedicado a developers voltou a centrar-se na inteligência artificial e o Gemini 1.5 está mais inteligente, capaz de analisar o ambiente em redor.

Os modelos de inteligência artificial generativa continuam a evoluir e esta semana promete novidades refrescantes em torno desta tecnologia. Primeiro com a apresentação do GPT4-o da OpenAI, um sistema omnimodal capaz de combinar diferentes formas de input de informação, seja por texto, por áudio/voz e imagens.

Agora é a vez da Google apresentar os avanços do Gemini, que pelo teasing apresentado esta manhã promete ir pelo mesmo caminho de evolução. Pelo menos também interpreta o que se passa em redor do utilizador, através da observação pela câmara. E acaba as suas frases com uma pergunta, passando a bola ao utilizador, mantendo a fluidez realística da conversa. Nesta interação o modelo não apenas explicou o que era o Google I/O, como perguntou ao utilizador se alguma vez tinha assistido ao evento.

Na descrição do evento, a Google refere as novas ferramentas para developer para ajudar a alimentar a inovação e aumentar a produtividade. O tema está relacionado com a inteligência artificial, com as novas capacidades do modelo Gemini. O evento começou com a apresentação de um vídeo com um resumo da evolução do Gemini, as versões que foram acrescentando funcionalidades para os utilizadores. "E apenas estamos a começar", é referido para terminar.

Sundar Pichai surgiu em palco a referir que trabalha em IA há mais de uma década, mas considera que ainda se está no início e que muito há pela frente para produtores e utilizadores em geral. O Gemini já consegue transformar qualquer input em qualquer output, destaca, salientando que também consegue gerir texto, imagem e som. O Gemini 1.5 Pro consegue gerar 1 milhão de tokens, destacando que tem mais de 1,5 milhões de developers a trabsearalhar com o Gemini atualmente, a construir produtos para Android, YouTube e outras aplicações da Google. Esta versão está disponível para todos os developers a nível global, com um aumento para 2 milhões de tokens. O Gemini Advance já está disponível como aplicação para iOS e Android.

O Gemini revolucionou o Google Search, facilitando a experiência pesquisa, aumentando a produtividade e satisfação, refere o líder da Google. As pessoas têm introduzido mais de 6 mil milhões de fotografias por dia no serviço. O Gemini ajuda a encontrar uma foto específica na biblioteca de imagens. A IA analisa o contexto, as pessoas e outros elementos, criando uma indexação que os utilizadores podem rapidamente ser listados. Esta é uma nova funcionalidade chamada Ask Photos que chega no verão.

A compatibilidade multimoldar e contextual longo permite elevar as possibilidades do Gemini. No Workspace, por exemplo, como pai, queremos estar informados sobre o progresso do nosso filho na escola. Pode-se pedir ao Gmail para reunir todos os mails da escola, ou fazer um resumo da última reunião de encarregados de educação. O Gemini 1.5 Pro passa a estar disponível para o Workspace a partir de hoje.

A Google falou nos Agents, capaz de pensar múltiplos passos à frente, com memória e capacidade de memorizar. O objetivo é reunir e organizar a informação disponível no mundo e disponibilizar a todas as pessoas.

Demis Sassabis da DeepMind salienta como a empresa está a trabalhar desde 2010 em IA, construída de forma responsável. A capacidade de transformar visão e linguagem em ações dos robots, por exemplo. O seu modelo AlphaFold 3 permite interagir com moléculas e DNA para compreender melhor as doenças e descobrir novos medicamentos. O Gemini foi construído nativamente, com um modelo multimodal, com a versão 1,5 Flash a ser apresentada. É mais leve, mais leve e eficientes, capaz de identificar multimodal. Está disponível a partir de hoje, com 1 milhão de tokens para todos.

O Project Astra é um novo agente de IA, capaz de memorizar o que vê e por isso conseguir dar mais contexto, sem atrasos, durante as conversas. O modelo permite obter frames de um vídeo e som numa timeline capaz de ser processada, debitando respostas de forma natural. Foi mostrado um vídeo, gravado em tempo real. Neste foi perguntado para encontrar no ambiente que estava a ser filmado um objeto que produzisse som, o que o Gemini apontou para uma coluna que estava ao lado de um computador. Foi também apontado a um monitor com código, que também identificou. Ao apontar para o exterior da janela, a IA conseguiu identificar o local onde estava. E para demonstrar a memória, pediu-lhe para encontrar os seus óculos, que o sistema apontou o local, ajudando a encontrar. Foi uma demonstração semelhante à capacidade multimodal mostrada pela OpenAI.

Veja no vídeo a demonstração do Google Astra:

Ainda relacionado com o Project Astra, a Google diz que além de aguentar a qualidade do modelo, também a sua segurança foi considerada. Os artistas parecem alinhar com o uso da IA nas composições, os loops criados, as misturas criadas com a ajuda do Gemini. O YouTube já tem um espaço para demos criados com IA. A ferramenta VEO permite gerar vídeos através de prompts de forma mais realística. A ferramenta vai estar disponível em breve para criadores selecionados.

A Google apresentou o chip Trillium, o novo chip TPU, disponível no final do ano para os clientes de cloud. Os processadores Axion baseado em Arm, assim como o supercomputador da Nvidia Blackwell também estará disponível a partir de 2025 para os seus clientes. Os centros de dados da Google estão equipados com sistemas de refrigeração líquida, com mais 70X mais capacidade que outros fornecedores de supercomputação. Pichai falou nos investimentos nos cabos submarinos a ligar o mundo, com mais de 2 milhões de milhas para levar a sua cloud a todos os continentes.

O Circle to Search passa a estar disponível para Android em todos os equipamentos até ao final do ano. A Google está a introduzir novas possibilidades, incluindo a possibilidade de realizar mais tarefas ao sistema.

O Google Search também conta com novidades de IA generativa. A empresa desafia os utilizadores a dizerem o que lhes passa na cabeça, que o sistema irá pesquisar por eles. A informação em tempo real, um sistema de ranking e sistemas de qualidade, assim como um novo agente ligado ao Gemini. Estes três elementos compõem o Search numa era do Gemini. O sistema AI Overviews foi lançado hoje nos Estados Unidos e mais países até ao final do ano. O sistema permite colocar 10 perguntas em simultâneo, que será respondido de imediato. Ou seja, uma autêntica descrição do utilizador, a IA vai talhar essa informação e oferecer com apenas uma pesquisa os resultados pretendidos. O sistema vai raciocinar e afinar as respostas para o que interessa ao utilizador. Outro exemplo do Search é a capacidade do Gemini organizar um plano alimentar, pegar nos ingredientes que sabe que o utilizador tem e listar refeições diferentes ao longo dos dias.

O sistema Ask with Video permite apontar a camara do smartphone e filmar o que pretende pesquisar. É um sistema semelhante ao Google Lens, mas para vídeo, que identifica o elemento, o som e os movimentos. O Gemini pesquisa frame a frame para obter a informação detalhada, desde a marca do aparelho que foi filmado, dando uma descrição do que se trata.

O painel lateral do Gemini for Workspace vai estar disponível a todos a partir do próximo mês. No Meet, o Gemini 1.5 Pro vai ser expandido a 68 línguas. No Gmail, vai estar disponível um novo botão no topo do email para pedir um resumo da troca de mails entre os utilizadores, evitando que se faça pesquisas ou que se leia toda a informação. A janela de prompt permite refinar a pesquisa nas mensagens recebidas. O Smart Reply terá agora um contexto nas sugestões que deixa, oferecendo uma antevisão do texto antes de o colocar. A nova ferramenta chega este mês em teste para developers.

A Google atualizou a aplicação Gemini App, para ser o mais útil para os utilizadores. É multimodal nativamente, permitindo aos utilizadores expressarem-se como entenderem. Agora pode ser utilizado com voz ao vivo, sendo possível interromper ou alterar o tom do discurso. Mais uma vez, semelhante ao GPT-4o. Nos próximos meses vai ser lançado o Gems, pequenas cápsulas temáticas, com informações sobre um assunto, como culinária, personal trainer, etc. Na ferramenta de viagens, o Gemini organiza toda a informação a planear uma viagem com apenas uma prompt de texto daquilo que os utilizadores necessitam. Uma funcionalidade que chega no verão.

Os subscritores do modelo Advanced passam a ter a partir de hoje acesso ao Gemini 1.5 Pro com 1 milhão de tokens. O sistema Gemini Nano multimodal chega primeiro aos smartphones Pixel no final do ano. Entre as funcionalidades há um novo sistema que deteta chamadas de scam, analisando a conversa da pessoa do outro lado da linha. Amanhã será lançado o Android 15 beta 2, que utiliza o Gemini na sua estrutura.

Nota de redação: notícia atualizada com mais informações. Última atualização 19h42.