Elon Musk faz alerta: estamos ficando sem dados reais para treinar a IA

Com a escassez de dados reais, o uso de informações sintéticas pode se tornar a única solução para o avanço da inteligência artificial

Por William R. Plaza
, em 9 janeiro de 2025 às 12:08

Hard News Tecnologia

A inteligência artificial (IA) está se aproximando de um marco crítico: o esgotamento de dados reais disponíveis na internet para o treinamento de modelos, segundo Elon Musk, CEO da xAI e outras empresas. Para contornar essa limitação, a aposta do setor é no uso de dados sintéticos — informações geradas pelas próprias IAs para seu aprendizado.

Por que isso é importante?

A escassez de dados marcaria uma mudança fundamental no ritmo de desenvolvimento da IA. Modelos de linguagem e ferramentas avançadas, como chatbots e geradores de imagens, dependem de grandes volumes de dados humanos para aprimorar suas capacidades. O esgotamento desse recurso natural ameaça desacelerar o progresso tecnológico observado nos últimos anos.

O contexto

Os modelos de linguagem, como os da OpenAI, Microsoft e Meta, exigem quantidades massivas de dados reais para melhorar seu desempenho. No entanto, a quantidade de informações disponíveis na internet, gerada por seres humanos, está se esgotando. A solução? Adoção de dados sintéticos.

Dados sintéticos já são amplamente utilizados. De acordo com a Gartner, 60% dos dados usados em projetos de IA em 2024 foram gerados de forma sintética.
O modelo Palmyra X 004, projetado para impulsionar aplicativos de IA, foi treinado usando essa técnica, com custo de US$ 70 mil.
Em comparação, treinar um modelo do porte da OpenAI custaria cerca de US$ 4,6 milhões.

Historicamente, os dados sintéticos têm servido como um complemento aos dados reais, mas Musk sugere que, em breve, eles podem se tornar a única fonte de treinamento disponível para a indústria.

Riscos e desafios

A utilização de dados sintéticos levanta preocupações sobre possíveis ciclos de retroalimentação negativa, em que limitações e vieses dos modelos seriam amplificados:

O uso contínuo de dados gerados por IA pode criar um ciclo fechado, reduzindo a criatividade e a precisão das IAs.
Isso poderia levar a uma estagnação ou até mesmo ao colapso dos modelos, comprometendo sua utilidade.

Visões da indústria

Elon Musk não é o único a levantar o alerta. Ilya Sutskever, ex-cientista-chefe da OpenAI, afirmou em dezembro que “atingimos o pico de dados e não haverá mais”. Apesar dos riscos, gigantes como Microsoft, Anthropic e Meta continuam a investir nessa abordagem, reforçando que o uso de dados sintéticos pode ser inevitável para o futuro da IA.

O dilema agora é equilibrar a busca por inovação com a necessidade de manter a criatividade e a precisão das IAs em um cenário de recursos limitados.

Você também deve ler!

A meta ousada de Elon Musk: um milhão de habitantes em Marte até 2050

O que é AGI (Inteligência Artificial Geral)?

Tags: Inteligência Artificial

Postado por

William R. Plaza

Editor-chefe no Hardware.com.br/GameVicio Aficionado por tecnologias que realmente funcionam. Segue lá no Insta: @plazawilliam Elogios, críticas e sugestões de pauta: william@hardware.com.br

Siga em: