"As nossas equipas continuam a explorar as fronteiras dos nossos modelos [..] estão a fazer progressos rápidos", afirma o CEO da Google e da Alphabet, a casa mãe. A nova geração do seu modelo de Inteligência Artificial multimodal, o Gemini, foi hoje apresentada e tem "melhorias dramáticas em várias dimensões", com a versão Pro do Gemini 1.5 a atingir a mesma qualidade do Gemini 1.0 Ultra com menos capacidade de computação.
Ainda na semana passada a Google tinha disponibilizado publicamente o Gemini 1.0 Ultra, dando acesso às funcionalidades avançadas de Inteligência Artificial no Gemini Advanced, que substitui o Bard. A ferramenta ficou pronta para integração em API de developers com o AI Studio e Vertex AI.
Numa corrida para ganhar a liderança na Inteligência Artificial, a Google teve algum azar hoje na escolha da data do anúncio porque a OpenAI acabou por ganhar os principais destaques com o anúncio do seu gerador de vídeo a partir de texto. A Sora tem já uma série de exemplos impressionantes do que se pode fazer com uma simples prompt, e embora não esteja ainda acessível publicamente já está a ser testada.
Num longo post publicado no blog da Google, Sundar Pichai partilha detalhes sobre a arquitetura do Gemini 1.5, as suas capacidades e desempenho, mas também as questões de segurança e ética, cada vez mais importante à medida que várias personalidades partilham os receios sobre o impacto da IA na humanidade. Mais detalhes foram partilhados num documento técnico.
Gemini 1.5 Pro disponível para testes de developers e empresas
A nova versão do modelo de IA da Google já pode ser testada por developers no AI Studio, e pelas empresas através das suas contas Vertex AI, na versão Gemini 1.5 Pro. Tal como na organização revelada para o Gemini, há três opções em cada versão do Gemini, com a mais pequena Nano, a média Pro e a avançada Ultra.
Neste caso o Gemini 1.5 Pro tem um nível de desempenho semelhante ao 1.0 Ultra, e foi optimizado para a arquitetura Mixture-of-Experts (MoE). É um modelo multimodal, que pode realizar uma série de tarefas, e traz ganhos significativos naquilo que se entende como percepção longa de contexto.
A janela de contexto "normal" é de 128 mil tokens, mas já pode ser esticada a um milhão, pelo menos em testes de alguns developers e clientes empresariais. A Google diz que está a melhorar as questões de latência, evitando a demora nas respostas que tem afetados alguns modelos mais avançados como o GPT 4 da OpenAI.
Para mostrar como é aplicada a melhoria de análise de contexto, a Google partilhou dois vídeos, um dos quais baseado na análise da transcrição das 402 páginas da missão Apollo 11 à Lua.
Veja o vídeo
Aqui é possível perceber que o Gemini entende as conversas, acontecimentos e detalhes identificados nos documentos da missão.
Um outro exemplo parte da análise de um vídeo do comediante Buster Keaton, em que o modelo avalia os momentos importantes do guião e entende alguns pequenos detalhes.
Veja o vídeo
Também há exemplos de análise de código, num programa com mais de 100 mil linhas, sugerindo alterações e fazendo anotações sobre a forma como diferentes partes do código funcionam.
Em termos de segurança e ética a Google deixa a salvaguarda que o novo modelo é baseado nos mesmos princípios que apresentou em dezembro e que foram feitas várias avaliações antes de avançar com a versão final do Gemini 1.5.
Pergunta do Dia
Em destaque
-
Multimédia
Missão Ariel da ESA quer explorar 1.000 exoplanetas e Portugal ajuda com engenharia e ciência -
App do dia
Wayther: uma nova app de previsões meteorológicas detalhadas para otimizar viagens -
Site do dia
Tetr.io é uma versão competitiva de Tetris e os adversários não dão tréguas -
How to TEK
Farto de reagir no WhatsApp com emojis? Crie os seus próprios stickers
Comentários