O avanço das pesquisas e desenvolvimentos de ferramentas baseadas em IA permite que as empresas comecem a divulgar ferramentas cada vez mais inovadoras. É o caso da Meta, que segue ativa nesse mercado e agora anunciou a Voicebox.
Ela é uma ferramenta que permite a geração de falas humanas, com diversidade ilimitada de voz, permitindo que o usuário possa gravar sua própria voz para ser recriada pelo serviço. A partir daí, o Voicebox consegue criar novos áudios através de textos escritos.
Leia também:
MusicGen é a nova plataforma IA da Meta que transforma texto em música
Meta pretende te pagar para postar no Facebook; entenda os planos de revitalização da rede social
Voicebox requer amostra de apenas 2 segundos
A nova ferramenta foi divulgada pela empresa e já conta com exemplos de como ela vai funcionar. De acordo com eles, basta apenas 2 segundos de amostra de áudio para que a IA consiga entender o timbre da voz e replicar em novas falas.
Esse tipo de tecnologia pode ser usado com diversas finalidades. Uma delas, por exemplo, para que pessoas com deficiência visual possam ouvir mensagens dos amigos no tom de voz deles, melhorando a experiência nesse sentido. Outro exemplo dado foi para que os NPCs do metaverso tenham voz.
Outro uso bem interessante pode ser visto em uma das capacidades da ferramenta, que consegue “limpar” um áudio. Durante a demonstração, eles mostram uma fala gravada de uma mulher, e durante essa fala um cachorro late no fundo. A ferramenta consegue “apagar” a parte que o cachorro latiu, substituindo a voz original da pessoa pela recriação virtual dela, fazendo com que todo o áudio fique limpo.
Entre as tarefas possíveis para o Voicebox, eles destacaram:
- Síntese de texto para fala em contexto: Usando uma amostra de áudio de apenas dois segundos, o Voicebox pode combinar o estilo do áudio e usá-lo para a geração de texto para fala.
- Edição de fala e redução de ruído: O Voicebox pode recriar uma parte da fala que foi interrompida por ruído ou substituir palavras mal pronunciadas, sem precisar regravar uma fala inteira. Por exemplo, você pode identificar um trecho de um discurso que foi interrompido pelo latido de um cachorro, cortá-lo e instruir o Voicebox a gerar novamente esse trecho – como uma borracha para edição de áudio.
- Transferência de estilo entre idiomas: Ao receber uma amostra da fala de alguém e o trecho de um texto em inglês, francês, alemão, espanhol, polonês ou português, o Voicebox pode produzir uma leitura do texto em qualquer um desses idiomas, mesmo que a amostra da fala e o texto estejam em idiomas diferentes. Esse recurso poderá ser usado no futuro para ajudar as pessoas a se comunicarem de forma natural e autêntica, mesmo que não falem os mesmos idiomas.
- Amostragem de fala diversificada: Tendo aprendido com dados diversos, o Voicebox pode gerar uma fala mais representativa de como as pessoas falam no mundo real e nos seis idiomas listados acima.
Não é pioneira
Apesar da novidade no uso da IA, a Meta não é a pioneira nesse tipo de ferramenta, então terá que correr contra o tempo se quiser se destacar. No começo do ano, a Microsoft revelou o Vall-E, um sistema que consegue, através de áudios curtos, recriar a voz dos usuários.
A Apple também já apresentou sua solução nesse segmento durante a WWDC 2023 que aconteceu há poucos dias. Ela já estará presente no iOS e permite que usuários possam ler em voz alta um script de frases para que o sistema possa recriar a voz deles de forma sintetizada. A diferença é que na ferramenta da Apple é preciso ter cerca de 15 minutos de gravação original e não apenas 2 segundos.
Fonte: Meta
Deixe seu comentário