
A empresa liderada por Sam Altman explica que, ao longo dos últimos meses, tem trabalhado para avançar a inteligência e as capacidades dos seus agentes à base de texto. “No entanto, para que os agentes sejam verdadeiramente úteis, as pessoas precisam de ter interações mais profundas e intuitivas que vão além do texto, usando linguagem natural para comunicar de maneira eficaz”, defende a tecnológica.
Os novos modelos vão permitir o desenvolvimento de agentes de voz mais “poderosos, personalizáveis e inteligentes”, afirma a OpenAI, realçando o seu desempenho em cenários mais desafiantes, como sotaques, ambientes barulhentos e diferentes velocidades de fala, e na transcrição.
De acordo com a empresa, os novos modelos gpt-4o-transcribe e gpt-4o-mini-transcribe chegam com melhorias na taxa de erros, assim como no reconhecimento de linguagem, em comparação com os modelos Whisper.
A tecnológica detalha que o gpt-4o-mini-tts chega com capacidades que permitem aos programadores “instruir” o modelo sobre o que deve dizer, mas também como o deve dizer, algo que se traduz em experiências de interação mais personalizadas.
Entre as inovações integradas, a OpenAI destaca o pré-treino com recurso a datasets de áudio para melhorar a precisão, assim como o uso de métodos que permitem a transferência de conhecimento entre modelos e de técnicas de aprendizagem por reforço.
Pergunta do Dia
Em destaque
-
Multimédia
Drones integrados em automóveis elétricos? DJI e BYD já testam tecnologia na China -
App do dia
Tapestry é uma app para ter tudo o que gosta num só lugar -
Site do dia
Jogo online ensina como pequenas escolhas podem impactar saúde e ambiente até 2050 -
How to TEK
Tem o Instagram inundado de posts de contas que não segue? Ponha as sugestões em pausa
Comentários