NVIDIA cria Magic3D, sua IA de conversão de texto em imagem

Por Felipe Alencar
, em 22 novembro de 2022 às 15:55

Tecnologia Hard News

Na última sexta-feira, pesquisadores da NVIDIA anunciaram o Magic3D. Trata-se de um modelo de inteligência artificial que pode gerar modelos 3D a partir de descrições de texto. Depois de inserir um prompt como “Um sapo venenoso azul sentado em um nenúfar“, o Magic3D gera um modelo 3D completo, inclusive com textura colorida, em mais ou menos 40 minutos. Com modificações, o modelo resultante pode ser usado em videogames ou cenas de arte em CGI.

Em seu trabalho acadêmico, a NVIDIA enquadra o Magic3D como uma resposta ao DreamFusion, um modelo de texto para 3D que os pesquisadores do Google anunciaram em setembro.

Magic3D é concorrente do DreamFusion

Semelhante ao DreamFusion, a solução da NVIDIA usa um modelo de texto-para-3D para gerar uma imagem 2D que é otimizada em dados volumétricos NeRF (Neural Radiance Field). O Magic3D usa um processo de dois estágios que pega um modelo grosseiro gerado em baixa resolução e o otimiza para uma resolução mais alta. De acordo com os autores do artigo, o método Magic3D resultante pode gerar objetos 3D duas vezes mais rápido que o DreamFusion.

Magic3D também pode realizar edição baseada em modelos 3D já existentes. Dado um modelo 3D de baixa resolução e um prompt básico, é possível modificar o texto para alterar o modelo resultante. Além disso, os autores do Magic3D demonstram a preservação do mesmo assunto por várias gerações (um conceito geralmente chamado de coerência) e a aplicação do estilo de uma imagem 2D (como uma pintura cubista) a um modelo 3D.

A NVIDIA não lançou nenhum código Magic3D junto com seu trabalho acadêmico.

A capacidade de gerar 3D a partir de texto parece uma evolução natural nos modelos de difusão atuais, que usam redes neurais para sintetizar novos conteúdos após treinamento intenso em uma grande quantidade de dados.

Magic3D pode ser usado para fazer jogos mais rapidamente

Somente em 2022, vimos o surgimento de modelos de texto para imagem bem robustos, como DALL-E, Stable Diffusion e o mais popular de todos, o Midjourney. Sem falar nos geradores rudimentares de texto para vídeo do Google e Meta.

O Google também lançou o já mencionado modelo de texto para 3D DreamFusion há dois meses. Desde então, as pessoas adaptaram técnicas semelhantes para trabalhar como um modelo de código aberto baseado em Stable Diffusion.

Quanto ao Magic3D, os pesquisadores por trás dele esperam que ele permita que qualquer pessoa crie modelos 3D sem a necessidade de treinamento especial. Uma vez refinada, a tecnologia resultante poderia acelerar o desenvolvimento de jogos e realidade virtual. Outra possibilidade seria de talvez, eventualmente, encontrar aplicações em efeitos especiais para cinema e TV. Perto do final do artigo, eles escrevem: “Esperamos que com o Magic3D possamos democratizar a síntese 3D e abrir a criatividade de todos na criação de conteúdo 3D“.

Tags: NVIDIA

Postado por

Felipe Alencar

Cearense. 37 anos. Apaixonado por tecnologia desde que usou um computador pela primeira vez, em um hoje jurássico Windows 95. Além de tech, também curto filmes, séries e jogos.

Siga em: