Já temos sistemas de inteligência artificial que são capazes de quase qualquer coisa. Sistemas como o Midjourney e Dall-E criam lindas imagens a partir de textos. O ChatGPT cria textos sobre basicamente qualquer assunto. E não podemos nos esquecer dos perigosos deepfakes, que manipulam vídeos de forma a inserir rostos de pessoas que não estão no vídeo original.
E em breve será possível imitar a voz de qualquer pessoa. A Microsoft desenvolveu uma IA chamada Vall-E. Com uma simples amostra de apenas 3 segundos de áudio, ela é capaz de imitar a voz da pessoa. Como toda tecnologia, ela poderá ser usada para fins legítimos. Mas o potencial para o mal é enorme.
Leia também
O que é deepfake e por que é tão perigoso?
Como descobrir se um vídeo é deepfake?
Como funciona a tecnologia?
No paper descrevendo a tecnologia, a Microsoft a classifica como um “modelo de linguagem de codec neural”. Ela foi desenvolvida em cima do EnCodec, tecnologia da Meta (Facebook) que comprime áudios sem perda de qualidade através de inteligência artificial. E isso é crucial para o bom funcionamento da ferramenta.
A Vall-E é diferente de todas as outras ferramentas disponíveis que se propõem a fazer algo parecido. As outras soluções apenas sintetizam a fala manipulando as formas de onda. O resultado são vozes pouco naturais, mais robóticas. É fácil perceber quando uma voz é sintetizada. Mas a Vall-E gera tokens acústicos a partir da amostra e áudio.
Em outras palavras, ela pega a amostra de áudio (pode ser de até 3 segundos) e divide o arquivo em alguns componentes. São os chamados tokens. Para isso ela usa o EnCodec, da Meta.
Em seguida ela pega esses tokens e compara com todos os outros dados usados em seu treinamento. A partir disso a inteligência artificial consegue saber como a voz soa expressando outras palavras. A ideia é usar a Vall-E para “ler” textos com a voz de outra pessoa.
Treinamento da IA usou mais de 60 mil horas de gravações
Para treinar a inteligência artificial a Microsoft usou outra plataforma da Meta. Estou falando da Libri-light. Trata-se de uma biblioteca com mais de 60 mil horas de gravações de pessoas falando em inglês. Ela contém vozes de mais de 7 mil pessoas.
A Microsoft liberou uma página de demonstração da Vall-E, onde ela explica como a ferramenta funciona e traz algumas amostras. Nos exemplos, a voz original é destacada como Speaker Prompt. E ao lado temos os áudios gerados pela inteligência artificial.
O mais impressionante é que a Vall-E imita não apenas o timbre de voz da pessoa. Mas ele consegue replicar até mesmo o tom emocional do discurso e os sons ambientes. Se a pessoa estiver falando através de uma ligação ou de um ambiente com vento, por exemplo, a ferramenta consegue reproduzir esses cenários.
Tecnologia extremamente perigosa
Como toda tecnologia e ferramenta, ela pode ser usada tanto para o bem quanto para o mal. Dentro dos fins legítimos, podemos imaginar essa IA trabalhando em dublagens que mantém intacta a voz original do ator. Ou então mensagens corporativas transmitidas em vários idiomas e com a voz do CEO.
Porém, é muito mais fácil pensarmos em usos ruins. Usar a voz de alguém para tentar provar coisas que ela realmente não disse. Causar “cancelamentos” em celebridades e pessoas públicas. E até mesmo espalhar fake news sobre qualquer tipo de assunto.
Esse é justamente um dos motivos pelos quais a Microsoft ainda não liberou a Vall-E para testes públicos. Nem o código-fonte da ferramenta foi disponibilizado. Os pesquisadores do projeto estão trabalhando para desenvolver uma ferramenta que identifique quando um áudio foi gerado pelo Vall-E. Além disso, a ferramenta deve seguir os princípios de inteligência artificial da Microsoft.
Fonte: Ars Technica