DeepMind, empresa que pertence a Alphabet, holding que controla o Google, apresentou sua mais recente criação: Veo 2, um modelo de inteligência artificial voltado para geração de vídeos.
A novidade chega para elevar os padrões da tecnologia, especialmente em um momento em que o Sora, modelo da OpenAI, ainda apresenta limitações claras nesse segmento. Além do Sora, a novidade da DeepMind se junta a outras ferramentas famosas, como Runway Gen 3 e Kling AI.
Recursos do Veo 2
Veo 2 impressiona pelas especificações técnicas. Ele é capaz de gerar clipes de vídeo com até dois minutos de duração em resoluções que chegam a 4K DCI (4.096 x 2.160). Isso representa um avanço significativo: a resolução é quatro vezes maior e a duração seis vezes superior à oferecida por Sora, até então referência no mercado.
Acesso inicial limitado
Apesar das promessas, o acesso ao Veo 2 ainda é restrito. No momento, o modelo está disponível exclusivamente por meio do Vertex AI em VideoFX, uma ferramenta experimental de criação de vídeos da Google. Para utilizá-lo, os interessados devem se inscrever em uma lista de espera, e a ferramenta ainda não está disponível em todos os países.
Nesta fase inicial, Veo 2 está limitado a gerar vídeos de apenas oito segundos, com resolução máxima de 720p. Em comparação, Sora ainda tem vantagem no uso prático, permitindo criar vídeos em 1080p com até 20 segundos de duração
De texto e imagens a vídeos
Today, we’re announcing Veo 2: our state-of-the-art video generation model which produces realistic, high-quality clips from text or image prompts.
We’re also releasing an improved version of our text-to-image model, Imagen 3 – available to use in ImageFX through… pic.twitter.com/h6ejHaMUM4
— Google DeepMind (@GoogleDeepMind) December 16, 2024
Uma das funcionalidades destacadas do Veo 2 é sua flexibilidade na criação de conteúdo. Ele pode gerar vídeos com base em prompts de texto, mas também permite usar uma imagem de referência combinada com uma descrição textual para criar o resultado desejado.
O grande diferencial, no entanto, é a capacidade do modelo de “compreender” física e controles de câmera de maneira mais avançada. De acordo com a DeepMind, isso garante a criação de vídeos com texturas e movimentos mais realistas, além de maior controle sobre os ângulos de câmera, permitindo capturar objetos ou pessoas de diferentes perspectivas.
Física aprimorada e realismo promissor
Google’s Veo 2 vs OpenAI Sora pic.twitter.com/AdNqwCCpGE
— Joseph Carlson (@joecarlsonshow) December 17, 2024
O Veo 2 se destaca especialmente em cenas com elementos complexos, como fluidos ou interações de luz e sombra. Vídeos demonstrativos apresentados pela Google mostram fragmentos impressionantes, onde a precisão nos detalhes, como reflexos e movimentação de partículas, se destacam.
Essa “compreensão” mais avançada da física é um dos principais fatores que diferenciam o Veo 2 de outros modelos, permitindo um nível de realismo até então difícil de alcançar.
Luta contra as falhas
Apesar dos avanços, a DeepMind reconhece que ainda há desafios a superar, especialmente no que diz respeito à consistência visual. Manter as características de um personagem ou objeto ao longo de todo o vídeo ainda é um ponto de melhoria. No entanto, a empresa afirma que o Veo 2 já apresenta resultados superiores ao Sora nesse aspecto, especialmente em testes demonstrativos.
Mistério em relação aos dados de treinamento
A DeepMind não deixou claro sobre a base de dados utilizada para o treinamento do Veo 2. Dentre os maiores indícios, o Youtube seria uma das principais fontes para os dados.