O mundo nunca mais foi o mesmo desde que a OpenAI deu a conhecer ao mundo o ChatGPT, colocando a inteligência artificial generativa diretamente nas mãos de qualquer utilizador. Inicialmente limitado, numa versão beta, sem respostas geradas em tempo real, o sistema obteve um milhão de utilizadores em menos de uma semana, no seu lançamento em dezembro de 2022. Começou assim um novo fenómeno tecnológico que tem marcado 2023, transformando a vida das pessoas, empresas e governos.
A IA generativa tem demonstrado a sua capacidade de transformação na forma como se trabalha. Muitos empregos podem ser substituídos pela IA, mas outros serão criados. E as grandes empresas já começaram o processo de substituição de certos cargos por IA. A tecnologia tem ajudado a melhorar as imagens, fotografias, vídeos, na análise de código e muitas outras funções.
Com o lançamento do GPT-4, a OpenAI deu o passo seguinte na tecnologia, mas o destaque principal é a possibilidade da IA responder às conversas com dados recolhidos em tempo real da Internet, assim como a possibilidade de interpretar imagens. Embora tenha menos capacidades do que os humanos em muitos cenários da vida real, o GPT-4 apresenta um nível de desempenho quase humano em múltiplos benchmarks, referiu a OpenAI.
É preciso recuar vários anos até 2019, muito antes da explosão do fenómeno, para finalmente perceber as palavras do CEO da OpenAI, Sam Altman, quando dizia que a criação deste tipo de IA iria constituir o “desenvolvimento tecnológico mais importante da história da humanidade, com o potencial de moldar a sua trajetória”. E de mãos dadas, praticamente desde início, a Microsoft continua a injetar investimento de dezenas de milhares de milhões de dólares na empresa, suportando-a também com a supercomputação do Azure AI. E a promessa da democratização da IA parece finalmente cumprida na atualidade.
A OpenAI, que foi fundada em 2015 como uma organização sem fins lucrativos, mas passando a operar como empresa em março de 2019, teve alguns nomes sonantes entre os seus fundadores: Elon Musk, o patrão da Tesla, SpaceX e X (Twitter), Peter Thiel cofundador da PayPal e Palantir e Reid Hoffman cofundador da PayPal e LinkedIn.
Outras ferramentas baseadas em IA generativa
A parceria com a Microsoft deu origem à nova geração do seu motor de busca Bing e do browser Edge, que passaram a oferecer o acesso direto ao GPT-4, transformando as simples pesquisas em conversas detalhadas, sobre os assuntos que os utilizadores desejem. Seguiram-se o Windows 11 e outras aplicações da Microsoft a receberem a IA generativa baseada no GPT-4, criando o chamado Copilot do sistema operativo.
Veja na galeria imagens do Bing Copilot:
A Google também está na corrida com o concorrente da tecnologia da OpenAI, com o seu sistema Bard, cuja última versão chegou recentemente a Portugal. Baseado na mesma premissa de IA generativa, o Bard pretende ajudar o utilizador a explorar as suas curiosidades e dar asas à imaginação. O sistema da Google permite maior personalização da experiência além de poder ter acesso a respostas em áudio.
O Bard trabalha em sintonia com o Google Lens, o que significa que pode também adicionar imagens nas conversas de interação com a IA. O objetivo é obter respostas mais detalhadas sobre locais ou pessoas, com as imagens interpretadas pelo Lens a ajudar a dar contexto ao Bard. Infelizmente, para já, apenas funciona em língua inglesa.
Provavelmente estará a perguntar se a tecnologia de IA generativa vai passar ao lado da Apple. A marca da maçã tem vindo a demonstrar preocupações em relação aos sistemas que estão a chegar ao mercado e inclusivamente já proibiu os seus funcionários de utilizarem a tecnologia de IA generativa, a propósito da chegada do ChatGPT em aplicação para iOS.
O medo da empresa liderada por Tim Cook é que haja fugas de informação dos seus empregados que utilizam programas de IA. Mesmo o sistema GitHub Copilot da Microsoft, utilizado na automatização da escrita de código de software foi altamente desaconselhado pela direção.
Mas isso não significa que a Apple esteja de fora da corrida do negócio da IA generativa. Segundo o jornalista da Bloomberg, Mark Gurman, conhecido por ter fontes próximas ligadas a novos produtos da Apple, existe o projeto Ajax, que está a ser desenvolvido a partir do framework para machine learning da Google, Jax e que corre sobre o Google Cloud. O projeto está a ser utilizado internamente como apoio a tarefas de prototipagem, não se sabendo ao certo os planos da Apple, uma vez que a sua abordagem à IA tem sido muito cautelosa.
Além do ChatGPT e do GPT-4, a OpenAI disponibiliza ainda o serviço Dall-E 2, nome inspirado no pintor Salvador Dali em conjugação com a personagem robótica inteligente da Pixar, Wall-E. Na prática, trata-se de um sistema de inteligência artificial que consegue criar imagens realísticas ou arte, utilizando para isso apenas um texto de descrição baseado em linguagem natural. O sistema pode criar imagens originais e realísticas ou artísticas a partir de texto, podendo combinar conceitos, atributos e estilos. No site oficial é dado o exemplo de uma imagem fotorealística de um astronauta a montar a cavalo.
Durante o período experimental do Dall-E 2, um engenheiro de software criou todo o elenco de personagens de Harry Potter a partir das descrições diretas dos livros. As imagens podem ser comparadas com as fotografias dos atores caracterizados para os filmes da saga. E as diferenças são muitas.
Veja como a IA imagina as personagens de Harry Potter a partir dos livros:
São milhões de utilizadores a gerarem milhões de imagens diariamente, desde que a OpenAI abriu o acesso aberto à ferramenta, mesmo que seja necessária uma subscrição para utilizar a ferramenta. A introdução do Dall-E deu origem a outros modelos de texto-para-imagem no mercado.
A Meta e a Google também já tinham apresentado ferramentas com a mesma finalidade de criar imagens e até vídeo a partir de texto. No caso da meta foi apresentada a ferramenta Make-A-Scene, prometendo novas oportunidades a artistas; e a Google tem uma tecnologia baseada em Imagen, que dá vida a imagens a partir de texto. Recentemente, a Meta revelou a tecnologia CM3leon, um sistema de IA generativa que promete ser um camaleão artístico, capaz de utilizar cinco vezes menos computação de treino na conversão de texto para imagem.
A Adobe também já utiliza a IA generativa para alimentar a ferramenta Generative Fill no Photoshop. Sempre que se seleciona uma área com o lasso ou outra ferramenta de seleção é possível apagar e deixar em branco esse espaço. Mas com a Generative Fill é a ferramenta que “manda” nesse espaço, preenchendo-o com objetos que façam sentido na imagem. Alguns artistas já começaram a brincar com essa ferramenta, imaginando o contexto de imagem onde se poderiam inserir capas de discos icónicos de bandas conhecidas.
Veja como a IA expande a arte das capas dos discos de música:
E também é possível criar GIFs baseados em descrições textuais, através da aplicação Picsart. Basta descrever num parágrafo o GIF que quer obter e deixar que a inteligência artificial faça o resto. Atualmente existem outras plataformas para criar imagens a partir de prompts de texto, nomeadamente o CrAIyon e o NightCafe que já reúnem comunidades consideráveis de “artistas de IA”.
Mas há outras startups rivais à OpenAI que procuram também oferecer soluções de imagem a partir do texto, como o Stable Diffusion, que oferece imagens com maior qualidade, mantendo a privacidade dos utilizadores, sem recolher informações pessoais ou guardar imagens nos seus servidores.
Uma das alternativas mais conhecidas ao Dall-E é o Midjourney, criado por um laboratório de investigação independente, que diz estar focada no design, infraestrutura humana e IA. A ferramenta ganhou notoriedade depois da controvérsia de ter sido utilizada para criar uma pintura que acabou por ganhar uma competição de arte, nos Estados Unidos, como reporta o The Washington Post. O quadro "Théâtre D'opéra Spatial" foi submetido a concurso por Jason Allen, colocando o seu nome, acrescentando "via Midjourney", mas sem explicar do que se tratava. O seu objetivo era marcar uma posição sobre a aceitação de arte criada por IA utilizando a imagem, que lhe levou semanas a afinar as prompts para obter o resultado final.
Entre o “momento histórico que estamos a viver no uso da inteligência artificial” e os riscos e oportunidades do ChatGPT, nem todos veem com bons olhos esta tecnologia. A Getty Images baniu o carregamento e a venda de imagens geradas por inteligência artificial. A decisão segue-se a tomadas de posição semelhantes por parte de plataformas como a Newgrounds, a PurplePort e a FurAffinity. Os motivos prendem-se com preocupações relacionadas com a legalidade do conteúdo gerado automaticamente por inteligência artificial, assim como por um desejo de proteger os utilizadores do site. O Shutterstock, um dos sites que concorre com a Getty, ainda não introduziu uma política do género, mas já limita as pesquisas por conteúdo gerado por IA.
O potencial do ChatGPT é alcançado com a ajuda dos plugins
Com o lançamento das ferramentas de inteligência artificial foram também disponibilizados plugins. Estes acabam por ser as ferramentas que moldam o ChatGPT para uma grande variedade de aplicações e soluções das empresas. Sejam modelos de chatbots, sistemas de tradução de idiomas ou simplesmente a capacidade de gerar conteúdos.
A OpenAI suporta diversos plugins para o ChatGPT, que são ferramentas desenhadas especificamente para modelos de linguagem seguros. Os plugins permitem ao ChatGPT aceder a informação mais atualizada, a correr computações ou melhor que tudo, ser enquadrado em serviços de terceiros.
A lista de plugins não pára de crescer, moldados às ofertas dos serviços das empresas, que começam a dar os primeiros passos na utilização de IA generativa. Estes são integrados através do acesso à sua API. E muitos serviços que vão ganhando nome são plugins específicos alimentados pelo ChatGPT. A Salesforce foi uma das primeiras a criar um plugin em parceria com a OpenAI para o Slack, com o objetivo de aumentar a produtividade dos seus utilizadores.
No website oficial dos plugins da OpenAI há toda uma vasta documentação dedicada à construção destas ferramentas e como estas dão instruções ao modelo do ChatGPT. Os primeiros parceiros a utilizar os plugins foram a Klarna, que utiliza a IA nos pagamentos online e comparadores de preços; a Shopify para assistir na sua plataforma de vendas; a Expedia e KAYAK que ajudam a planear viagens através de IA, pesquisando voos e automóveis de aluguer; a Instacart para quem deseja fazer compras nas mercearias locais; a OpenTable dedica-se a recomendações de restaurantes. Existem várias outras.
A própria tecnológica está a hospedar dois plugins: o Web Browser que permite aos modelos de linguagem ler informação da internet para expandir a quantidade de conteúdo que podem conversar, indo além dos treinos de laboratório; e o Code Interpreter, que trabalha como interprete do Python em formato sandbox. O código gerado pelo plugin é válido durante a conversação, pelo que dá proteção como uma firewall. Existem programadores a criar pequenas experiências de gaming em poucos segundos, tais como versões rudimentares do Pong.
Outros plugins do ChatGPT, como o Whimsical, ajuda a gerar diagramas ou o mapeamento daquilo que descrever ao sistema. É um plugin de organização, oferecendo uma ideia visual dos passos a dar. O Zapier permite ligar múltiplos serviços entre si. Com as permissões dadas, pode dizer ao ChatGPT para gerar mensagens para o Gmail ou Slack, lançar conteúdos no Google Spreadsheet, entre outros. O Clay é um plugin que ajuda a gerir os contactos, consultas mais fáceis ou redigir textos personalizados para cada um.
O Listennotes ajuda a procurar conteúdos específicos em podcasts, seja a menção de alguém, produto ou tema, em diversas línguas. O Likewise encontra recomendações de filmes ou séries de televisão da sua preferência. E o Bookworm faz o mesmo para livros.
Sejam ferramentas de IA criadas de raiz ou plugins dos sistemas mais utilizados, estas podem ajudar em diversas tarefas, em diferentes áreas, facilitando o trabalho quando o utilizador consegue aproveitar o seu potencial. Mas são raros os que oferecem serviços gratuitos, sendo necessário um pagamento para abraçar as ferramentas.
O Jasper e o CopyAI, prometem maior eficiência na escrita, reduzindo o tempo a escrever um rascunho em 80%. Muitas agências de marketing utilizam a ferramenta para descrever os seus produtos, mas também entradas de blogues, emails ou recomendações. E para criadores de vídeo, o Fliki, o Runway ou o SuperCreator aceleram o processo de criação de vídeo, transformando ideias em conteúdos. A narração pode ser feita através de IA, gerando vozes usando ferramentas de texto para vídeo. Como é referido na página do Runway, as ferramentas “sintetizam novos vídeos sem mais nada que texto. É como filmar algo novo, sem filmar nada”. E caso necessite de sumário dos conteúdos dos vídeos do YouTube, o Glasp serve para isso.
Mas além dos textos e vídeos, também a imagem e o áudio ganham novo potencial através das novas ferramentas e plugins. O RocketAI promete transformar o computador num verdadeiro estúdio fotográfico. Os utilizadores só precisam de adicionar algumas fotos dos produtos para resultar em sessões fotográficas de marketing dos mesmos. O BRIA funciona como o Midjourney, texto-para-imagem, com a possibilidade de exportar imagens diretamente para PSD e fazer upscaling da resolução através de IA.
O Krisp promete usar a IA para aumentar a qualidade da voz durante os meetings online, usando cancelamento de ruído e até pode fazer transcrições das conversas. E caso não goste da sua voz ou deseja “encarnar” diferentes personagens, pode experimentar o Altered ou o Voicemod, ferramentas que alteram o som dentro de uma lista de predefinições disponível. Pode brincar com os seguidores numa live stream ou simplesmente não ser reconhecido no chat de voz de um videojogo.
Muitas questões do nosso dia a dia podem ser resolvidas com simples ferramentas de IA. A plataforma DreamGift é um chatbot que ajuda a encontrar a prenda ideal. Apenas tem de responder a algumas perguntas sobre quem deseja oferecer. O PatternAI ajuda a criar padrões e texturas através de inteligência artificial. E o MyHeritage promete ser uma solução eficaz para gerar imagens de avatar baseado em fotografias, entre figuras históricas ou diferentes estereótipos. A inworld.ai e a Didimo criam personagens para videojogos baseados em IA, os chamados NPCs, que ajudam a popular os mundos no gaming.
Certamente que o mundo dos plugins e inteligência baseada em inteligência artificial vai continuar a aumentar. E espera-se que a Google ofereça compatibilidade com muitos dos plugins existentes para o rival ChatGPT, além de introduzir os seus próprios para interagir com ferramentas como o Drive, Maps, Docs, Gmail, etc. Ferramentas que permitem aos developers e startups adicionar mais inteligência artificial às suas soluções. E como declarou ao SAPO TEK, Luís Gonçalves, Data Analytics & AI Director na Noesis, "ninguém, neste momento, consegue imaginar um futuro sem IA nas empresas”.
Pergunta do Dia
Em destaque
-
Multimédia
20 anos de Halo 2 trazem mapas clássicos e a mítica Demo E3 de volta -
App do dia
Proteja a galáxia dos invasores com o Space shooter: Galaxy attack -
Site do dia
Google Earth reforça ferramenta Timelapse com imagens que remontam à Segunda Guerra Mundial -
How to TEK
Pesquisa no Google Fotos vai ficar mais fácil. É só usar linguagem “normal”
Comentários