Pesquisadores envolvidos no projeto da Microsoft para o lançamento de uma ferramenta de inteligência artificial capaz de clonar a voz de pessoas não será lançado para o público. Esse modelo generativa, batizado de VALL-E 2, ficará exclusivo apenas para ser usado por pesquisadores. O motivo foi claro: a tecnologia foi considerada perigosa demais.
“Atualmente, não temos planos de incorporar o VALL-E 2 em um produto ou expandir seu acesso ao público. Isso pode acarretar riscos potenciais no uso indevido do modelo, como falsificação de identificação de voz ou personificação de um locutor específico”, disse a Microsoft em seu site.
Como o VALL-E 2 funciona?
Como explica a Microsoft, o Vall-E 2 é um codificador neural. Essa tecnologia é capaz de usar um conjunto de técnicas para codificar e decodificar informações linguísticas, capaz inclusive de sintetizar vozes que não foram apresentadas durante o treinamento da base de dados. A empresa destaca que essa tecnologia poderia ser utilizada para áreas como educação, entretenimento, jornalismo, conteúdo autoral ou acessibilidade.
“Embora o VALL-E 2 possa falar com uma voz semelhante à do talento vocal, a semelhança e a naturalidade dependem da duração e da qualidade do prompt de fala, do ruído de fundo, bem como outros fatores”, destaca” a Microsoft. Os pesquisadores envolvidos no projeto também afirmam que essa é a primeira tecnologia de sua categoria a alcançar paridade com a voz humana, baseado em ferramentas de benchmark como LibriSpeech e VCTK.