OpenAI mostra IA capaz de reproduzir vozes com amostras de apenas 15 segundos

OpenAI mostra IA capaz de reproduzir vozes com amostras de apenas 15 segundos

A OpenAI, empresa por trás do ChatGPT, está determinada a trazer soluções cada vez mais avançadas no campo da Inteligência Artificial (IA), e dessa vez ela apresentou uma nova tecnologia chamada de Voice Engine, focada na interação com vozes sintéticas.

O Voice Engine é um modelo de IA que usa amostras de áudio de apenas 15 segundos para reproduzir vozes de forma natural e convincente. De acordo com a empresa, a nova tecnologia é o resultado de anos de pesquisa e desenvolvimento na área de síntese de voz, e representa um avanço significativo no campo da IA.

Leia também:

OpenAI quer fornecer Sora para diretores e estúdios de Hollywood
Apple poderá adicionar Gemini e OpenAI em seus iPhones

Voice Engine cria vozes realistas

OpenAI

A tecnologia por trás do Voice Engine é bastante interessante. Usando técnicas avançadas de aprendizado de máquina, o modelo é capaz de analisar uma amostra de áudio curta e gerar um discurso que se assemelha ao máximo ao do falante original. O resultado é uma voz sintética que soa de forma bastante realista, com nuances e inflexões que tornam difícil distinguir entre o original e o artificial.

Um dos aspectos mais interessantes do Voice Engine é a sua capacidade de criar vozes emotivas e realistas, mesmo com amostras de áudio extremamente curtas. Isso significa que o modelo pode capturar não apenas o tom e o timbre da voz, mas também a emoção e o estilo do falante original.

O potencial para aplicações práticas é imenso, com possibilidades que vão desde assistência de leitura para não leitores até terapias para pessoas com condições que afetam a fala.

Algumas aplicações práticas

OpenAI

Desde o seu lançamento inicial em 2022, o Voice Engine tem sido utilizado em uma variedade de contextos e indústrias. A própria OpenAI listou algumas dessas aplicações que estão sendo colocadas em práticas por algumas delas.

Empresas de tecnologia educacional estão usando a tecnologia para criar conteúdo de voz sobre pré-roteirizado para ajudar com que crianças e até indivíduos que não são alfabetizados possam melhorar sua leitura. Nesse caso eles citaram a Age of Learning, uma empresa de tecnologia educacional, que tem empregado a tecnologia para produzir conteúdo de voz predefinido. Além disso, eles utilizam o Voice Engine e o GPT-4 para criar respostas personalizadas em tempo real, interagindo com os alunos.

Plataformas de narração visual estão aproveitando o Voice Engine para traduzir vídeos e alcançar audiências globais. Isso ajuda com que criadores e empresas possam ter uma comunicação mais ampla, que engloba o público de diversos países de uma forma mais autêntica e fluida, como se fossem os próprios criadores falando em idiomas diferentes. Nesse caso o exemplo foi a HeyGen, uma plataforma de narrativa visual de inteligência artificial que colabora com clientes corporativos para desenvolver avatares personalizados e humanizados para uma diversidade de conteúdos, desde campanhas de marketing até apresentações de vendas. Eles utilizam o Voice Engine para a tradução de vídeos, possibilitando a transcrição da voz de um orador para diversos idiomas e atingindo um público global. Ao ser utilizado para tradução, o Voice Engine mantém o sotaque nativo do falante original intacto, por exemplo, gerar discurso em inglês a partir de uma amostra de áudio de um falante francês resultaria em uma fala com sotaque francês.

Além disso, organizações de saúde estão explorando o potencial terapêutico da tecnologia, ajudando pacientes a recuperar a voz após condições súbitas ou degenerativas de fala. O Instituto de Neurociências Norman Prince na Lifespan, uma instituição de saúde sem fins lucrativos que serve como principal afiliada de ensino da Escola de Medicina da Universidade Brown, têm testado um programa que oferece o Voice Engine a indivíduos com origens oncológicas ou neurológicas para distúrbios de fala. Dado que o Voice Engine requer uma amostra de áudio tão breve, os médicos Fatima Mirza, Rohaid Ali e Konstantina Svokos conseguiram restabelecer a voz de uma jovem paciente que perdeu sua capacidade de fala fluente devido a um tumor cerebral vascular, utilizando áudio extraído de um vídeo gravado para um projeto escolar.

Pessoas não verbais ou que precisam passar por terapia de fala também podem se beneficiar da nova tecnologia. O Livox, um aplicativo de comunicação alternativa baseado em inteligência artificial, alimenta dispositivos de Comunicação Aumentativa e Alternativa (CAA) que possibilitam que pessoas com deficiências se expressem. Ao fazer uso do Voice Engine, eles conseguem proporcionar vozes únicas e não mecânicas em diversos idiomas para indivíduos não verbais. Seus usuários têm a opção de selecionar a fala que melhor os representa e, para aqueles que são multilíngues, manter uma voz uniforme em cada idioma falado.

Por fim, o Voice Engine também pode ser usado para melhorar a prestação de serviços essenciais em locais remotos. A Dimagi está desenvolvendo ferramentas para agentes de saúde comunitários oferecerem uma variedade de serviços essenciais, como aconselhamento para mães em período de amamentação. Para auxiliar esses profissionais a desenvolver suas competências, a Dimagi emprega o Voice Engine e o GPT-4 para fornecer feedback interativo na língua materna de cada agente, incluindo o suaíli ou línguas mais informais, como o Sheng, uma língua híbrida popular no Quênia.

OpenAI diz estar ciente dos riscos e trabalha com segurança

Esse assunto ainda é alvo de muitas críticas e têm um grande potencial para discussões, e por isso a empresa revelou estar fazendo o máximo para que ele não caia em mãos erradas. A OpenAI está ciente dos riscos associados à criação de vozes sintéticas que se assemelham às de pessoas reais.

Em resposta a essas preocupações, a empresa implementou uma série de medidas de segurança. Primeiramente, a nova tecnologia só está disponível para os parceiros, e eles precisam concordar com uma série de termos, incluindo políticas de uso que proíbem a impersonação de indivíduos ou organizações sem consentimento, divulgação clara para o público que aquelas vozes que eles estão ouvindo foram criadas por IA, e técnicas de marcação d’água para rastrear a origem de áudio gerado pelo Voice Engine.

“Acreditamos que qualquer implantação ampla de tecnologia de voz sintética deve ser acompanhada por experiências de autenticação de voz que verifiquem se o falante original está adicionando conscientemente sua voz ao serviço e uma lista de vozes proibidas que detecta e impede a criação de vozes muito semelhantes a figuras proeminentes.”

À medida que o Voice Engine continua a evoluir, é importante que a sociedade esteja preparada para lidar com os desafios éticos e práticos que surgem com o avanço da tecnologia de síntese de voz. A OpenAI revelou que está comprometida em liderar essa conversa, colaborando com parceiros governamentais, acadêmicos e da indústria para garantir que o desenvolvimento e o uso do Voice Engine sejam feitos de maneira responsável e ética.

Fonte: OpenAI

Sobre o Autor

Avatar de Larissa Ximenes
Redes Sociais:

Deixe seu comentário

X