Essa é a nova IA do Google que gera sons para videos

Por William R. Plaza
, em 18 junho de 2024 às 20:06

Hard News Tecnologia

A DeepMind, empresa que faz parte da holding Alphabet, dona do Google, revelou nesta terça-feira (18) uma nova ferramenta de IA capaz de gerar trilhas sonoras, efeitos sonoros e até mesmo diálogos para vídeos com base no conteúdo do vídeo.

Sonorizando vídeos

O projeto é enquadrado como V2A (video-to-audio, ou vídeo para áudio, em tradução livre). Assim como a aguardada Sora, tecnologia da OpenAI capaz de criar vídeos realistas, a nova ferramenta do Google por enquanto não está disponível para o público. O projeto está restrito a testes privados.

A ideia do Google é ter uma solução que pode ser integrada a modelos de geração de vídeos, que costumam não sonorizar os materiais gerados. A própria DeepMind tem a sua solução de IA generativa para criação de vídeos, a Veo.

“Nossa tecnologia V2A é combinada com modelos de geração de vídeo como o Veo para criar takes com uma trilha sonora dramática, efeitos sonoros realistas ou diálogos que combinam com os personagens e o tom de um vídeo”, explica o Google na página oficial do projeto.

Confira abaixo um exemplo divulgado pelo Google da sua nova solução em IA de sonorização em ação. O vídeo abaixo foi gerado com o seguinte prompt: “uma nave espacial atravessa a vastidão do espaço, estrelas passando por ela, alta velocidade, ficção científica”.

O modelo também pode gerar trilhas sonoras para uma variedade de imagens tradicionais, incluindo material de arquivo, filmes mudos e muito mais – abrindo uma gama mais ampla de oportunidades criativas, explica a empresa.

Também é possível remover sons de um vídeo

Além da adição de trilhas, o modelo generativo do Google também faz o inverso, consegue remover sons indesejados de vídeos.

A empresa explica que o processo começa com o vídeo sendo encodado em uma representação compactada. Em seguida, o modelo de difusão refina o áudio continuamente para isolá-lo de ruídos aleatórios, processo acompanhado pelo vídeo. O áudio é então transformado em waveform e combinado com os dados do vídeo, garantindo sua sincronia.

O projeto ainda tem um longo caminho a percorrer até o lançamento público

O projeto está em fase experimental, ainda há muito a ser feito e refinado, incluindo um avanço em relação à sincronização de faixa de diálogo gerada pela IA com movimentos labial dos personagens.

O Google ainda não deu uma perspectiva de quando o lançamento dessa ferramenta pode acontecer.

Tags: Google, Inteligência Artificial

Postado por

William R. Plaza

Editor-chefe no Hardware.com.br/GameVicio Aficionado por tecnologias que realmente funcionam. Segue lá no Insta: @plazawilliam Elogios, críticas e sugestões de pauta: william@hardware.com.br

Siga em: