Plataformas que usam inteligência artificial, principalmente a IA generativa, vêm evoluindo com rapidez nos últimos tempos, e por isso cada vez mais empresas e até mesmo startups conseguem explorar novas possibilidades de uso no mercado, como é o caso da Stability AI.
A empresa apresentou esta semana o Stable Video Diffusion, um modelo de inteligência artificial capaz de trazer mais possibilidades no campo da geração de vídeos ao animar imagens existentes.
Leia também:
Unstable Diffusion, IA que gera conteúdo pornográfico, cria mais de 500 mil imagens eróticas por dia
“Em cinco anos não haverá necessidade de programadores humanos”, diz criador do IA Stable Diffusion
Stable Video Diffusion ainda está em fase de teste
O Stable Video Diffusion é baseado no modelo Stable Diffusion, da Stability AI, que converte texto em imagens e já se tornou bastante conhecido por isso. No entanto, o novo modelo vai além, sendo um dos poucos geradores de vídeo disponíveis tanto em código aberto quanto comercialmente.
Atualmente, o Stable Video Diffusion está em uma fase denominada “research preview” (ou seja, uma “prévia de pesquisa), onde aqueles que desejam utilizar o modelo devem concordar com termos específicos de uso.
Estes termos delineiam as aplicações pretendidas do Stable Video Diffusion, como ferramentas educacionais e processos artísticos, enquanto também especificam o que não é permitido, incluindo representações factuais ou verdadeiras de pessoas ou eventos.
A preocupação está na possibilidade de que, como ocorreu com outras prévias de pesquisa em IA, o modelo possa eventualmente circular na dark web. Caso isso aconteça, surgem receios sobre como o Stable Video pode ser mal utilizado, especialmente devido à aparente ausência de um filtro de conteúdo embutido.
A história já nos mostrou que modelos semelhantes, como o Stable Diffusion, foram utilizados para criar deepfakes pornográficos não consensuais e outros conteúdos questionáveis.
Gerando clipes de vídeos de 4 segundos
O Stable Video Diffusion apresenta dois modelos distintos: SVD e SVD-XT. O primeiro transforma imagens estáticas em vídeos de 576×1024 pixels em 14 quadros, enquanto o segundo, SVD-XT, mantém a mesma arquitetura, mas aumenta o número de quadros para 24. Ambos os modelos são capazes de gerar vídeos com uma taxa de quadros variando entre três e 30 por segundo.
De acordo com um whitepaper lançado com o Stable Video Diffusion, os modelos foram inicialmente treinados em um extenso conjunto de dados composto por milhões de vídeos. Posteriormente, foram “ajustados” em um conjunto menor, composto por centenas de milhares a cerca de um milhão de clipes.
A origem exata desses vídeos não está exatamente clara, o que levanta a questão sobre possíveis problemas legais e éticos relacionados a direitos autorais como já vem acontecendo em diversos modelos que usam IA Generativa.
Apesar das possíveis preocupações, ambos os modelos, SVD e SVD-XT, demonstram uma capacidade notável na geração de clipes de quatro segundos com alta qualidade. Ao comparar as amostras destacadas no blog da Stability com modelos recentes da Meta, assim como com exemplos de IA do Google e de outras startups, percebe-se que o Stable Video Diffusion não fica para trás em termos de desempenho.
No entanto, a transparência da Stability AI sobre as limitações do Stable Video Diffusion é notável. Os modelos não conseguem gerar vídeos sem movimento ou pans de câmera lentos, não podem ser controlados por texto, não renderizam texto de maneira legível e têm dificuldade em gerar consistentemente rostos e pessoas de maneira precisa.
Apesar das limitações atuais, a Stability AI destaca a extensibilidade dos modelos, afirmando que podem ser adaptados para casos de uso como a geração de visualizações de objetos em 360 graus.
O futuro da Stability AI
Quanto ao futuro, a Stability AI revela planos ambiciosos. Além de construir e estender os modelos existentes, a empresa está desenvolvendo uma ferramenta “texto para vídeo” que permitirá prompts de texto diretamente na web. O objetivo final parece ser a comercialização, com a Stability observando oportunidades em setores como publicidade, educação e entretenimento.
Apesar dos avanços tecnológicos, a Stability AI enfrenta desafios, conforme relatado pela Semafor em abril. A empresa, que recentemente levantou $25 milhões em financiamento, está sob pressão para aumentar as vendas, especialmente diante de atrasos salariais e ameaças de revogação de acesso por parte da AWS.
Além disso, a saída de Ed Newton-Rex, vice-presidente de áudio da Stability AI, adiciona mais um elemento à narrativa. Newton-Rex, em uma carta pública, menciona que deixou a empresa devido a discordâncias sobre direitos autorais e o uso de dados protegidos por direitos autorais no treinamento de modelos de IA.
Ou seja, a empresa está diante de um cenário complicado, mas ao menos ela se mostra disposta a continuar avançando e desbravando novos territórios no campo de inteligência artificial.
Fonte: techcrunch
Deixe seu comentário