A OpenAI anunciou oficialmente o lançamento do Sora, seu modelo de inteligência artificial voltado para a criação de vídeos realistas a partir de descrições de texto, imagens estáticas ou até mesmo vídeos pré-existentes. A tecnologia já está disponível para assinantes dos planos Plus e Pro do ChatGPT, oferecendo novas possibilidades para profissionais criativos e gerando debates sobre seu impacto na indústria audiovisual.
Em certa medida, o lançamento é uma surpresa, já que recentemente a OpenAI tinha interrompido os testes e a disponibilidade da versão prévia da ferramenta após protestos de artistas que criticam o impacto da tecnologia no setor criativo.
Com esse lançamento, a ferramenta sai do modelo de testes reservado produtores de vídeo selecionados, e outros usuários que compuseram a equipe responsável pelos testes, e pode ser acessada pelo grande público.
O Sora Turbo, versão otimizada apresentada pela OpenAI, promete desempenho superior ao protótipo inicial divulgado no início de 2024. Com suporte para vídeos em resolução de até 1080p e duração de até 20 segundos, a ferramenta está mais rápida e eficiente, reduzindo o tempo de espera para os usuários, destaca a companhia.
Novos Recursos: Storyboards e Controle Avançado
Uma das principais novidades do Sora é a integração de ferramentas avançadas para personalização de conteúdo. Entre elas estão:
- Storyboards: permitem que os usuários controlem com precisão cada quadro do vídeo, garantindo maior coerência e criatividade.
- Remixagem e combinação de materiais: ideal para criar conteúdo único a partir de imagens ou vídeos diferentes.
- Animação de imagens estáticas: transforma fotos ou ilustrações em vídeos dinâmicos.
- Extensão de vídeos existentes: adiciona quadros ou estende a duração de vídeos já criados.
Formatos
Os vídeos podem ser gerados em formatos como widescreen, retrato e quadrado, atendendo às demandas de diferentes plataformas e redes sociais. Além disso, a seção “Explorar” permite que os usuários interajam com conteúdos criados pela comunidade, incentivando a troca de ideias.
Qual a tecnologia por trás do Sora?
Assim como o modelo de geração de imagens DALL·E, o Sora utiliza um processo de difusão para transformar ruído aleatório em vídeos realistas. A arquitetura se baseia em transformadores, a mesma tecnologia que alimenta os modelos GPT. Um diferencial é o uso da técnica de recaptação, introduzida no DALL·E 3, que melhora a compreensão das instruções textuais fornecidas pelos usuários.
Em relação a base de dados para o treinamento da IA, a OpenAI menciona o seguinte:
- Dados públicos de repositórios de aprendizado de máquina e rastreamento da web.
- Dados proprietários, fornecidos por parcerias com plataformas como Shutterstock e Pond5.
- Conjuntos personalizados, desenvolvidos internamente.
- Feedback humano, coletado de artistas e criadores durante a fase de testes.
A OpenAI também implementou filtros rigorosos para excluir conteúdo explícito ou sensível, seguindo padrões aplicados em modelos anteriores.
Planos e Disponibilidade
O Sora está disponível em dois planos:
- ChatGPT Plus: US$ 20/mês ((R$ 121,13/mês): Vídeos com marca d’água, resolução de até 720p, duração máxima de 5 segundos, até 50 vídeos prioritários;
- ChatGPT Pro: US$ 200/mês ((R$ 1.211,28/mês): Vídeos sem marca d’água, resolução de até 1080p, duração máxima de 20 segundos, até 500 vídeos prioritários.