GPT-Realtime-2: OpenAI revela modelo de voz para tradução e transcrição em tempo real

OpenAI lançou o GPT-Realtime-2 com janela de 128K tokens e tradução para 70 idiomas. Confira os preços e a integração com o iOS 27 e CarPlay.

A OpenAI lançou o GPT-Realtime-2, o primeiro modelo de voz da empresa com capacidade de raciocínio da classe GPT-5. A tecnologia permite que aplicativos lidem com interrupções e mudanças de assunto em tempo real durante conversas ao vivo. O sistema expandiu a janela de contexto de 32 mil para 128 mil tokens, garantindo que o software mantenha a coerência em diálogos longos. Desenvolvedores podem ajustar o nível de processamento entre o mínimo e o “muito alto” (xhigh), dependendo da necessidade de velocidade ou da complexidade da tarefa. Um usuário pode interromper a explicação da IA no meio da frase e o sistema reorganiza a resposta sem perder o fio da meada.

US$ 32 por milhão de tokens de entrada e US$ 64 por milhão de tokens de saída é o custo para utilizar o modelo principal. Junto a ele, a empresa introduziu o GPT-Realtime-Translate, que traduz fala de mais de 70 idiomas para 13 saídas diferentes sem pausas. Para transcrição contínua, o GPT-Realtime-Whisper entrega texto em tempo real para legendas e notas de reuniões. A cobrança para tradução é de US$ 0,034 por minuto, enquanto a transcrição custa US$ 0,017. Ninguém paga esses valores por curiosidade técnica, mas para viabilizar fluxos de trabalho onde a voz substitui o teclado em ambientes profissionais.

O anúncio atinge diretamente o ecossistema da Apple em 2026. Com o iOS 27 preparando um sistema de extensão para assistentes de terceiros, desenvolvedores já utilizam permissões para rodar IAs conversacionais no painel do CarPlay. A integração ocorre através do aplicativo Codex para Mac, que agora opera o desktop em segundo plano em conjunto com o Xcode 26.3. Para o motorista que precisa ditar comandos complexos enquanto navega no trânsito, a latência reduzida significa que a IA entende o contexto antes mesmo da frase terminar.

A capacidade de o modelo realizar tarefas em segundo plano enquanto emite avisos verbais curtos — como “deixe-me verificar isso” — resolve o silêncio desconfortável do processamento. Os três modelos estão disponíveis imediatamente para integração. O mercado de interfaces de voz deixa de ser uma promessa de suporte básico para se tornar uma camada de computação invisível que exige hardware capaz de sustentar conexões constantes e baixa latência.

Postado por
Editor-chefe no Hardware.com.br/GameVicio Aficionado por tecnologias que realmente funcionam. Segue lá no Insta: @plazawilliam Elogios, críticas e sugestões de pauta: william@hardware.com.br
Siga em:
Compartilhe
Deixe seu comentário
Assine nossa Newsletter
Assine nossa newsletter e receba nossa seleção de conteúdo sobre tecnologia, games, IA e internet em seu email.
Veja também
Publicações Relacionadas
Img de rastreio
Localize algo no site!