A ByteDance, empresa responsável pelo TikTok, revelou o OmniHuman-1, novo modelo de inteligência artificial (IA) capaz de gerar vídeos hiper-realistas a partir de uma única imagem. Este algoritmo pode replicar os gestos, os movimentos corporais e a voz de uma pessoa usando uma fotografia de referência e conteúdo multimídia.
A tecnologia promete ser mais um passo importante da China para esse concorrido mercado de IA, pauta que se transformou em uma verdadeira disputa política, com os EUA tentando de inúmeras maneiras frear o avanço chinês, que tem chamado a atenção do mundo com soluções, como o DeepSeek.
O que é o OmniHuman-1?
O OmniHuman-1 é a mais recente criação da ByteDance em síntese de vídeos por IA. O modelo é capaz de gerar vídeos realistas de humanos a partir de uma única imagem e uma trilha de áudio. O resultado é tão convincente que diferenciar o conteúdo gerado por IA de gravações reais está se tornando uma tarefa quase impossível. A mesma trajetória da evolução das imagens geradas por IA estamos observando agora com os vídeos.
O perfil oficial da OmniHuman-1 no X explica que o modelo suporta entradas de imagens de qualquer proporção, sejam elas retratos, imagens de meio corpo ou de corpo inteiro.
No exemplo abaixo, vemos um vídeo gerado pelo OminiHuman-1 a partir de uma foto do cientista Albert Einstein:
ByteDance, the company behind TikTok has just announced OmniHuman-1, a revolutionary video model.
With just one image & an audio track it can generate hyper-realistic human videos, seamlessly adapting to any aspect ratio or body shape.
Example: pic.twitter.com/SMICUC2U6a
— Brian Roemmele (@BrianRoemmele) February 5, 2025
Além de vídeos que tentam simular o comportamento humano, a ferramenta também pode ser aplicada para outros estilos, como animações.
Byte Dances OmniHuman lipsync is pretty amazing with animation: pic.twitter.com/P22l3FqGCU
— Jer at EccentrismArt (@EccentrismArt) February 4, 2025
Confira abaixo mais algumas amostras de vídeo gerados pelo OmniHuman-1:
Another week another Chinese AI model. OmniHuman-1 by Bytedance can create highly realistic human videos using only a single image and an audio track.
Taylor Swift singing Naruto song convincingly pic.twitter.com/gMi5xLuImw
— Venky (@bevenky) February 4, 2025
Chinese ByteDance just announced OmniHuman.
This AI can make a single image talk, sing, and rap expressively with gestures from audio or video input.
10 wild examples:
— Min Choi (@minchoi) February 4, 2025
OmniHuman can support input of any aspect ratio in terms of speech. It significantly improves the handling of gestures, which is a challenge for existing methods, and produces highly realistic results. pic.twitter.com/gy7hq7Lf9K
— OmniHuman-1 AI (@OmniHuman1AI) February 5, 2025
One image. One prompt. Infinite possibilities. OmniHuman-1 transforms a single photo into a lifelike talking persona. No green screens, no CGI—just AI at work. Watch this! pic.twitter.com/gs90UWHIDl
— OmniHuman-1 AI (@OmniHuman1AI) February 5, 2025
Principais recursos do OmniHuman-1
- Geração de vídeos hiper-realistas: Utilizando uma estrutura baseada em Diffusion Transformers, o OmniHuman-1 captura nuances detalhadas de movimentos, expressões faciais e até interações com objetos.
- Versatilidade: O modelo pode criar desde close-ups até cenas de corpo inteiro, animando personagens reais ou até mesmo desenhos animados. Ele também suporta diferentes poses, estilos, cenários e ações, como cantar ou falar.
- Proporções e formatos ajustáveis: A tecnologia permite alterar proporções corporais e formatos de vídeo em tempo real, oferecendo flexibilidade inédita na criação de conteúdo.
O OmniHuman-1 foi treinado com mais de 19.000 horas de vídeo usando uma técnica chamada “treinamento de condicionamento de movimento multimodal misto”, que combina materiais de diferentes qualidades e níveis de detalhes. Os engenheiros da ByteDance dizem que essa abordagem resolve a escassez de dados e permite que o modelo se beneficie de todas as informações disponíveis para melhorar seu desempenho.
Já está disponível para uso?
Não. A ByteDance faz questão de frisar no site do projeto (na página há outras inúmera amostras de vídeos gerados pela ferramenta) que o download ou acesso online ainda não está disponível. Portanto, é preciso uma certa cautela sobre os resultados divulgados oficialmente, sobre o que teremos na prática. A mesma situação aconteceu com o Sora, da OpenAI. A ferramenta ainda tem muito a evoluir. Fora do cenários dos takes selecionados pela OpenAI, o resultado acaba sendo bem inconsistência ainda.
No entanto, é impressionante a velocidade com que essas ferramentas seguem evoluindo, potencializado pelo desejo das grandes nações em liderarem esse mercado.
Você já usa geradores de vídeo por IA? Comente abaixo.