
A empresa liderada por Sam Altman explica que, ao longo dos últimos meses, tem trabalhado para avançar a inteligência e as capacidades dos seus agentes à base de texto. “No entanto, para que os agentes sejam verdadeiramente úteis, as pessoas precisam de ter interações mais profundas e intuitivas que vão além do texto, usando linguagem natural para comunicar de maneira eficaz”, defende a tecnológica.
Os novos modelos vão permitir o desenvolvimento de agentes de voz mais “poderosos, personalizáveis e inteligentes”, afirma a OpenAI, realçando o seu desempenho em cenários mais desafiantes, como sotaques, ambientes barulhentos e diferentes velocidades de fala, e na transcrição.
De acordo com a empresa, os novos modelos gpt-4o-transcribe e gpt-4o-mini-transcribe chegam com melhorias na taxa de erros, assim como no reconhecimento de linguagem, em comparação com os modelos Whisper.
A tecnológica detalha que o gpt-4o-mini-tts chega com capacidades que permitem aos programadores “instruir” o modelo sobre o que deve dizer, mas também como o deve dizer, algo que se traduz em experiências de interação mais personalizadas.
Entre as inovações integradas, a OpenAI destaca o pré-treino com recurso a datasets de áudio para melhorar a precisão, assim como o uso de métodos que permitem a transferência de conhecimento entre modelos e de técnicas de aprendizagem por reforço.
Pergunta do Dia
Em destaque
-
Multimédia
Peugeot renova o 308: novo rosto, mais tecnologia e autonomia elétrica reforçada -
App do dia
Tiny Reaper: Reborn desafia a “ceifar” os inimigos, desde bebé até se tornar um forte guerreiro -
Site do dia
IAedu: projeto quer democratizar o acesso a tecnologias de Inteligência Artificial no ensino superior -
How to TEK
Explore o seu passado digital: 5 truques eficazes do Google Fotos para “viajar no tempo”
Comentários