VideoPoet: Google lança nova IA para criar vídeos a partir de prompt de texto ou imagem

Por Larissa Ximenes
, em 26 dezembro de 2023 às 11:47

Tecnologia Hard News

O campo da tecnologia IA continua a evoluir, e com isso vai ser cada vez mais comum o lançamento de ferramentas generativas por parte de grandes e pequenas empresas. Sendo assim, o Google acaba de apresentar o seu mais novo projeto nessa área, o VideoPoet.

O VideoPoet é um avançado modelo de linguagem (LLM) desenvolvido por uma equipe de 31 pesquisadores e projetado para uma ampla gama de tarefas de geração de vídeos através de prompts de comando. A ferramenta marca uma mudança significativa ao optar por uma abordagem baseada em transformer, diferenciando-se dos métodos difusivos convencionais.

VideoPoet não usa arquitetura baseada em difusão

Isso significa que, diferente dos modelos existentes que frequentemente utilizam métodos baseados em difusão, como o Stable Diffusion, a equipe da Google Research escolheu explorar um caminho inovador, adotando um LLM baseado na arquitetura transformer.

Segundo eles, “A maioria dos modelos existentes utiliza métodos baseados em difusão, que são frequentemente considerados os melhores desempenhadores atuais em geração de vídeos. Esses modelos geralmente começam com um modelo de imagem pré-treinado, como o Stable Diffusion, que produz imagens de alta fidelidade para quadros individuais e, em seguida, ajusta o modelo para melhorar a consistência temporal entre os quadros do vídeo.”

A arquitetura transformer é geralmente usada na geração de texto e código, como no ChatGPT, por exemplo. Só que nesse caso a equipe direcionou seus esforços para treinar o VideoPoet na criação de vídeos e não de textos.

Papel fundamental do pré-treinamento

O VideoPoet alcançou resultados impressionantes por causa de um extenso processo de pré-treinamento, utilizando uma base de dados robusta composta por 270 milhões de vídeos e mais de 1 bilhão de pares de texto e imagem provenientes da internet pública e outras fontes.

Esses dados foram transformados em embeddings de texto, tokens visuais e tokens de áudio, proporcionando ao modelo de IA uma base sólida.

Os resultados, notáveis em comparação até mesmo com modelos de geração de vídeo de ponta como Runway e Pika, destacam a capacidade do VideoPoet de gerar clipes mais longos, de maior qualidade e com movimentos mais consistentes.

Uma das principais contribuições do VideoPoet está na superação de obstáculos enfrentados por modelos de geração de vídeo baseados em difusão. Nesses modelos, a consistência de movimento muitas vezes se degrada ou apresenta defeitos após apenas alguns quadros.

O VideoPoet, por outro lado, demonstrou a capacidade de gerar movimentos mais amplos e consistentes em vídeos mais extensos, representando um avanço significativo na área. Como é possível ver nos exemplos mostrados, o VideoPoet consegue gerar vídeos mais longos, de 16 quadros.

“Um dos gargalos atuais na geração de vídeos está na capacidade de produzir grandes movimentos coerentes”, revelaram dois membros da equipe, Dan Kondratyuk e David Ross, em um post no blog da Google Research anunciando o trabalho “Em muitos casos, mesmo os modelos líderes atuais geram pequenos movimentos ou, ao produzir movimentos maiores, exibem artefatos perceptíveis.”

VideoPoet traz solução abrangente para criação de vídeos

O VideoPoet também acaba se destacando por oferecer várias capacidades de geração de vídeo em um único LLM. Isso elimina a necessidade de componentes especializados, oferecendo uma solução integrada para trazer opções extras na criação, como o uso de diferentes movimentos de câmera, estilos visuais e até gerar novo áudio para combinar com clipes de vídeo.

Aceitando uma variedade de entradas, como texto, imagens e vídeos como prompts, o VideoPoet representa uma evolução notável na criação de conteúdo audiovisual.

Em um teste com avaliadores humanos, eles revelaram que a sua nova IA é visualmente mais agradável. De acordo com a postagem, os pesquisadores mostraram vídeos gerados pelo VideoPoet para alguns avaliadores humanos ao lado de outros vídeos gerados por outras ferramentas que usam o modelo de difusão, como Source-1, VideoCrafter e Phenaki. Como resultado, os avaliadores humanos em sua maioria afirmaram que os vídeos do VideoPoet pareciam superiores, tanto na capacidade de seguir instruções quanto na entrega de movimentos mais interessantes.

“Em média, as pessoas selecionaram 24-35% dos exemplos do VideoPoet como seguindo melhor as instruções do que um modelo concorrente, em comparação com 8-11% para modelos concorrentes. Os avaliadores também preferiram 41-54% dos exemplos do VideoPoet por terem um movimento mais interessante do que 11-21% para outros modelos.”

Planos para o futuro e disponibilidade

Embora tenha sido adaptado para produzir vídeos em orientação retrato (vertical) por padrão, a Google Research já antevê a expansão das capacidades do VideoPoet para suportar tarefas de geração “de qualquer para qualquer”, como texto-para-áudio e áudio-para-vídeo, explorando novos horizontes na geração de conteúdo audiovisual.

Apesar de seus feitos impressionantes, o VideoPoet ainda não está disponível para uso público. Entramos em contato com a Google para obter mais informações sobre sua futura disponibilidade e atualizaremos assim que tivermos mais detalhes. Até lá, a comunidade aguarda ansiosamente o lançamento do VideoPoet para avaliar como ele se posiciona em relação às demais ferramentas disponíveis no mercado, antecipando novos padrões na criação de vídeos com base em modelos de linguagem avançados.

Tags: Google, IA, Inteligência Artificial, vídeo

Postado por

Larissa Ximenes

Redatora apaixonada por tecnologia, séries e jogos. Adoro explorar tendências tech, mergulhar no universo geek e transformar tudo isso em conteúdo que conecta e inspira!

Siga em: