OmniHuman-1: tecnologia chinesa promete vídeos gerados por IA com realismo impressionante; veja

tecnologia da ByteDance, dona do Tik Tok, cria vídeos tão realistas que podem confundir até os olhos mais atentos,

A ByteDance, empresa responsável pelo TikTok, revelou o OmniHuman-1, novo modelo de inteligência artificial (IA) capaz de gerar vídeos hiper-realistas a partir de uma única imagem. Este algoritmo pode replicar os gestos, os movimentos corporais e a voz de uma pessoa usando uma fotografia de referência e conteúdo multimídia.

A tecnologia promete ser mais um passo importante da China para esse concorrido mercado de IA, pauta que se transformou em uma verdadeira disputa política, com os EUA tentando de inúmeras maneiras frear o avanço chinês, que tem chamado a atenção do mundo com soluções, como o DeepSeek.

O que é o OmniHuman-1?

O OmniHuman-1 é a mais recente criação da ByteDance em síntese de vídeos por IA. O modelo é capaz de gerar vídeos realistas de humanos a partir de uma única imagem e uma trilha de áudio. O resultado é tão convincente que diferenciar o conteúdo gerado por IA de gravações reais está se tornando uma tarefa quase impossível. A mesma trajetória da evolução das imagens geradas por IA estamos observando agora com os vídeos.

O perfil oficial da OmniHuman-1 no X explica que o modelo suporta entradas de imagens de qualquer proporção, sejam elas retratos, imagens de meio corpo ou de corpo inteiro.

No exemplo abaixo, vemos um vídeo gerado pelo OminiHuman-1 a partir de uma foto do cientista Albert Einstein:

 

Além de vídeos que tentam simular o comportamento humano, a ferramenta também pode ser aplicada para outros estilos, como animações.

 

Confira abaixo mais algumas amostras de vídeo gerados pelo OmniHuman-1:

 

Principais recursos do OmniHuman-1

  • Geração de vídeos hiper-realistas: Utilizando uma estrutura baseada em Diffusion Transformers, o OmniHuman-1 captura nuances detalhadas de movimentos, expressões faciais e até interações com objetos.
  • Versatilidade: O modelo pode criar desde close-ups até cenas de corpo inteiro, animando personagens reais ou até mesmo desenhos animados. Ele também suporta diferentes poses, estilos,  cenários e ações, como cantar ou falar.
  • Proporções e formatos ajustáveis: A tecnologia permite alterar proporções corporais e formatos de vídeo em tempo real, oferecendo flexibilidade inédita na criação de conteúdo.

O OmniHuman-1 foi treinado com mais de 19.000 horas de vídeo usando uma técnica chamada “treinamento de condicionamento de movimento multimodal misto”, que combina materiais de diferentes qualidades e níveis de detalhes. Os engenheiros da ByteDance dizem que essa abordagem resolve a escassez de dados e permite que o modelo se beneficie de todas as informações disponíveis para melhorar seu desempenho.

Já está disponível para uso?

Não. A ByteDance faz questão de frisar no site do projeto (na página há outras inúmera amostras de vídeos gerados pela ferramenta) que o download ou acesso online ainda não está disponível. Portanto, é preciso uma certa cautela sobre os resultados divulgados oficialmente, sobre o que teremos na prática. A mesma situação aconteceu com o Sora, da OpenAI. A ferramenta ainda tem muito a evoluir. Fora do cenários dos takes selecionados pela OpenAI, o resultado acaba sendo bem inconsistência ainda.

No entanto, é impressionante a velocidade com que essas ferramentas seguem evoluindo, potencializado pelo desejo das grandes nações em liderarem esse mercado.

Você já usa geradores de vídeo por IA? Comente abaixo.

Postado por
Editor-chefe no Hardware.com.br/GameVicio Aficionado por tecnologias que realmente funcionam. Segue lá no Insta: @plazawilliam Elogios, críticas e sugestões de pauta: william@hardware.com.br
Siga em:
Compartilhe
Deixe seu comentário
Img de rastreio
Localize algo no site!