A DeepMind continua a fazer progresso no treino de robots através de inteligência artificial. Agora, a empresa, que faz parte da Google desde 2014, avança com dois novos modelos de IA, baseados no Gemini 2.0, que querem servir como base para a próxima geração de ajudantes robóticos.

A tecnológica começa por explicar que os modelos de IA para robótica necessitam de cumprir três requisitos de modo a que sejam, de facto, úteis. Os modelos precisam de ser capazes de se adaptarem a diferentes situações, de serem interativos e de terem destreza suficiente para interagir com objetos.

A primeira das novidades, chamada Gemini Robotics, "representa um passo substancial no desempenho nestas três áreas”, afirma a empresa. O modelo usa as capacidades de entendimento do mundo do Gemini para generalizar situações específicas e realizar uma variedade de tarefas, mesmo que não tenha sido treinado para elas.

Veja o vídeo

O Gemini Robotics está preparado para ajudar robots a lidarem com novos objetos e ambientes, assim como com diversos tipos de instruções. Segundo a empresa, o modelo é capaz de compreender e de dar resposta a um conjunto ainda mais vasto de instruções em linguagem natural, adaptando o seu comportamento ao input recebido, mas também a mudanças no ambiente à sua volta.

Clique nas imagens para ver com mais detalhe

A realização de tarefas complexas, com múltiplos passos ou que requeiram uma capacidade de manipulação precisa de objetos, é outra das áreas em que o Gemini Robotics promete melhorias.

O modelo foi treinado a partir de dados da plataforma robótica ALOHA 2, sendo possível demonstrar o seu funcionamento em outros robots equipados com dois braços. A Google DeepMind afirma que a solução pode ser adaptada para outros tipos de autómatos mais complexos, como o Apollo, desenvolvido pela Apptronik.

Robots aprendem a amarrar atacadores e pendurar roupa com Inteligência Artificial
Robots aprendem a amarrar atacadores e pendurar roupa com Inteligência Artificial
Ver artigo

A tecnológica revela também outro modelo chamado Gemini Robotics-ER. O modelo avançado de visão e linguagem foca-se especialmente nas capacidades de "embodied reasoning", melhorando a compreensão espacial dos robots e ajudando-os a interagir de uma melhor forma com o mundo.

Por exemplo, ao apresentar uma chávena de café a um robot equipado com modelo, ele será capaz de interpretar o objeto e deduzir qual é a melhor forma de interagir com ele sem causar um "desastre". De acordo com a empresa, o Gemini Robotics-ER consegue realizar todos os passos necessários para controlar um robot sem necessidade de configurações adicionais, contando com uma taxa de sucesso que é entre duas a três vezes superior à do Gemini 2.0.