A inteligência artificial (IA) está se aproximando de um marco crítico: o esgotamento de dados reais disponíveis na internet para o treinamento de modelos, segundo Elon Musk, CEO da xAI e outras empresas. Para contornar essa limitação, a aposta do setor é no uso de dados sintéticos — informações geradas pelas próprias IAs para seu aprendizado.
Por que isso é importante?
A escassez de dados marcaria uma mudança fundamental no ritmo de desenvolvimento da IA. Modelos de linguagem e ferramentas avançadas, como chatbots e geradores de imagens, dependem de grandes volumes de dados humanos para aprimorar suas capacidades. O esgotamento desse recurso natural ameaça desacelerar o progresso tecnológico observado nos últimos anos.
O contexto
Os modelos de linguagem, como os da OpenAI, Microsoft e Meta, exigem quantidades massivas de dados reais para melhorar seu desempenho. No entanto, a quantidade de informações disponíveis na internet, gerada por seres humanos, está se esgotando. A solução? Adoção de dados sintéticos.
- Dados sintéticos já são amplamente utilizados. De acordo com a Gartner, 60% dos dados usados em projetos de IA em 2024 foram gerados de forma sintética.
- O modelo Palmyra X 004, projetado para impulsionar aplicativos de IA, foi treinado usando essa técnica, com custo de US$ 70 mil.
- Em comparação, treinar um modelo do porte da OpenAI custaria cerca de US$ 4,6 milhões.
Historicamente, os dados sintéticos têm servido como um complemento aos dados reais, mas Musk sugere que, em breve, eles podem se tornar a única fonte de treinamento disponível para a indústria.
Riscos e desafios
A utilização de dados sintéticos levanta preocupações sobre possíveis ciclos de retroalimentação negativa, em que limitações e vieses dos modelos seriam amplificados:
- O uso contínuo de dados gerados por IA pode criar um ciclo fechado, reduzindo a criatividade e a precisão das IAs.
- Isso poderia levar a uma estagnação ou até mesmo ao colapso dos modelos, comprometendo sua utilidade.
Visões da indústria
Elon Musk não é o único a levantar o alerta. Ilya Sutskever, ex-cientista-chefe da OpenAI, afirmou em dezembro que “atingimos o pico de dados e não haverá mais”. Apesar dos riscos, gigantes como Microsoft, Anthropic e Meta continuam a investir nessa abordagem, reforçando que o uso de dados sintéticos pode ser inevitável para o futuro da IA.
O dilema agora é equilibrar a busca por inovação com a necessidade de manter a criatividade e a precisão das IAs em um cenário de recursos limitados.
Você também deve ler!
A meta ousada de Elon Musk: um milhão de habitantes em Marte até 2050