A ficção científica diz há décadas que, algures no futuro os robots vão tomar conta dos afazeres domésticos. A Google está a trabalhar num novo sistema de IA que promete um dia criar uma Rosey, o famoso robot-governanta da série animada Jetsons. A fabricante refere mesmo que durante décadas os robots apenas se mantiveram na imaginação da ficção científica, mas os seus novos avanços em robótica pretendem diminuir essa distância para o futuro dos robots utilitários.

A fabricante apresentou o modelo Robotics Transformer 2 (RT-2), considerado pioneiro na interpretação visão-linguagem-ação (VLA na sigla inglesa). Este modelo foi treinado com texto e imagens da internet que são transformados diretamente em outputs de ação do robot. Ou seja, todas as aprendizagens são transferidas de dados da internet para informar o comportamento do robot. “Em outras palavras, o RT-2 pode falar robot”, disse a tecnológica no seu blog.

A Google diz que ao contrário dos chatbots, os robots necessitam de uma ligação com o mundo real e as suas habilidades. E por isso, o seu treino não passa apenas por aprender, por exemplo, tudo sobre uma maçã, como cresce, as suas propriedades físicas ou mesmo a sua contribuição para as ideias de Sir Isaac Newton. Neste caso, o robot precisa de reconhecer a maçã num contexto, conseguir distingui-la de uma simples bola vermelha, compreender é o seu aspeto, “mas mais importante, saber como pegar nela”.

Esse treino requer milhares de milhões de pontos de dados, utilizados entre cada objeto, ambiente, tarefa e situação no mundo físico, o que segundo a Google consome muito tempo e o custo associado torna a inovação impraticável.

Com o modelo RT-2, a Google revela uma nova abordagem e numa investigação recente houve melhorias na forma como os robots conseguem raciocinar, permitindo-os utilizar prompts numa cadeia de pensamentos, referido como uma forma de eliminar múltiplos passos nos problemas. E que a introdução de modelos de visão como o PaLM-E têm ajudado dos robots a terem um melhor sentido das suas áreas em redor. Já o recente RT-1 mostrou que era possível aos robots aprenderem entre si, gerando informações entre sistemas.

Este novo modelo atalha a necessidade de dizer ao robot o que fazer e como as ações são interpretadas para o resto do seu corpo, dando início ao pretendido. O RT-2 remove essa complexidade, utilizando um único modelo para pensar e dar o output necessário às ações do robot. E com isso, os robots passam a conseguir fazer ações que nunca tinham sido treinados para fazer.

Dando como exemplo a forma como os antigos sistemas poderiam deitar fora um pedaço de lixo, estes teriam de explicitamente treinar o robot para identificar o lixo, apanhá-lo e deitá-lo fora. Como o RT-2 consegue obter conhecimento dos dados da internet, este já tem uma ideia do que é o lixo, conseguindo identificá-lo sem treino explícito.

E até já tem uma ideia de como despejar o lixo, mais uma vez, sem treino prévio. Mais ao detalhe, o RT-2 consegue destinguir a natureza abstrata do lixo, seja um pacote vazio de batatas fritas ou uma casca de banana. Tudo isso passa a fazer sentido devido ao seu treino de dados anterior de visão-linguagem, refere a Google.

Foram testados modelos RT-2 em mais de 6.000 testes robóticos e a equipa descobriu que funcionou tão bem como o anterior RT-1 em tarefas de treino de dados. Mas quase duplicou a sua performance em cenários novos e nunca antes vistos para 62%, em relação aos 32% do anterior modelo.

A Google espera que estes avanços de IA mostrados pelo RT-2 não apenas escalem rapidamente em robótica, como prometem maior utilidade para robots de utilização geral. Mas considera que ainda existe um grande trabalho para tornar os robots úteis num ambiente criado para humanos.