A DeepMind, empresa que faz parte da holding Alphabet, dona do Google, revelou nesta terça-feira (18) uma nova ferramenta de IA capaz de gerar trilhas sonoras, efeitos sonoros e até mesmo diálogos para vídeos com base no conteúdo do vídeo.
Sonorizando vídeos
O projeto é enquadrado como V2A (video-to-audio, ou vídeo para áudio, em tradução livre). Assim como a aguardada Sora, tecnologia da OpenAI capaz de criar vídeos realistas, a nova ferramenta do Google por enquanto não está disponível para o público. O projeto está restrito a testes privados.
A ideia do Google é ter uma solução que pode ser integrada a modelos de geração de vídeos, que costumam não sonorizar os materiais gerados. A própria DeepMind tem a sua solução de IA generativa para criação de vídeos, a Veo.
“Nossa tecnologia V2A é combinada com modelos de geração de vídeo como o Veo para criar takes com uma trilha sonora dramática, efeitos sonoros realistas ou diálogos que combinam com os personagens e o tom de um vídeo”, explica o Google na página oficial do projeto.
Confira abaixo um exemplo divulgado pelo Google da sua nova solução em IA de sonorização em ação. O vídeo abaixo foi gerado com o seguinte prompt: “uma nave espacial atravessa a vastidão do espaço, estrelas passando por ela, alta velocidade, ficção científica”.
O modelo também pode gerar trilhas sonoras para uma variedade de imagens tradicionais, incluindo material de arquivo, filmes mudos e muito mais – abrindo uma gama mais ampla de oportunidades criativas, explica a empresa.
Também é possível remover sons de um vídeo
Além da adição de trilhas, o modelo generativo do Google também faz o inverso, consegue remover sons indesejados de vídeos.
A empresa explica que o processo começa com o vídeo sendo encodado em uma representação compactada. Em seguida, o modelo de difusão refina o áudio continuamente para isolá-lo de ruídos aleatórios, processo acompanhado pelo vídeo. O áudio é então transformado em waveform e combinado com os dados do vídeo, garantindo sua sincronia.
O projeto ainda tem um longo caminho a percorrer até o lançamento público
O projeto está em fase experimental, ainda há muito a ser feito e refinado, incluindo um avanço em relação à sincronização de faixa de diálogo gerada pela IA com movimentos labial dos personagens.
O Google ainda não deu uma perspectiva de quando o lançamento dessa ferramenta pode acontecer.
Deixe seu comentário