Elon Musk divulga vídeo que mostra o supercomputador da Tesla para treinamento de IA

Por Felipe Alencar
, em 28 agosto de 2024 às 16:33

Hardware Hard News

As conquistas de Elon Musk na supercomputação continuam a avançar esta semana, com o bilionário compartilhando um vídeo do seu supercluster de IA recém-renomeado “Cortex” na empresa X. A expansão da fábrica “Giga Texas” da Tesla vai incluir 70.000 servidores de IA e precisará de 130 megawatts (MW) de refrigeração e energia no início, aumentando para 500 MW até 2026.

Este é o maior cluster de treinamento de IA da Tesla

O vídeo de Musk mostra a montagem dos racks de servidores em andamento. Apesar da qualidade baixa do vídeo, é possível ver que os racks estão organizados em filas de 16 unidades de computação cada, separadas por cerca de quatro racks não-GPU. Cada rack contém 8 servidores. Entre 16 a 20 filas de racks são visíveis no vídeo de 20 segundos, sugerindo que aproximadamente 2.000 servidores GPU estão presentes, o que representa menos de 3% do total previsto.

Musk anunciou que o Cortex será o maior cluster de treinamento da Tesla até agora, com “50.000 [Nvidia] H100s, mais 20.000 do nosso próprio hardware”. Esse número é menor do que o previamente mencionado por Musk, que estimava 50.000 unidades do hardware de IA Dojo da Tesla. Declarações anteriores indicam que o hardware da Tesla será implementado mais tarde, com o Cortex inicialmente operando com tecnologia Nvidia.

O objetivo do Cortex, segundo Elon via Twitter, é “resolver problemas reais de IA”. Isso inclui treinar o sistema de piloto automático Full Self Driving (FSD) da Tesla, que será usado nos veículos dos consumidores e no futuro serviço “Cybertaxi”, além de treinar a IA para o robô Optimus, um humanoide autônomo que deve começar uma produção limitada em 2025 para auxiliar na fabricação da Tesla.

Haja refrigeração

A atenção da mídia foi capturada inicialmente pelos enormes ventiladores do Cortex, mostrados por Musk em junho, destinados a resfriar o supercluster. A solução de refrigeração líquida da Supermicro foi projetada para lidar com até 500 MW de refrigeração e energia quando estiver operando a plena capacidade. Para comparação, uma usina de carvão média gera cerca de 600 MW de energia.

Cortex se soma aos supercomputadores em desenvolvimento de Musk. O primeiro data center a se tornar operacional é o Memphis Supercluster, propriedade da xAI e equipado com 100.000 Nvidia H100s. Todos os servidores de Memphis estão conectados por uma rede RDMA (acesso remoto direto à memória) e também utilizam soluções de refrigeração da Supermicro. Musk também revelou planos para um supercomputador Dojo de $500 milhões em Buffalo, Nova York, outra iniciativa da Tesla.

O Memphis Supercluster planeja atualizar suas GPUs H100 para 300.000 unidades B200, mas atrasos na produção da Blackwell devido a falhas de design postergaram esse grande pedido por meses. Como um dos maiores compradores individuais de GPUs de IA da Nvidia, Musk parece adotar a lógica do CEO Jensen Huang: “Quanto mais você compra, mais economiza”. Resta ver se essa estratégia será vantajosa para Musk e seus supercomputadores.

Tags: Elon Musk

Postado por

Felipe Alencar

Cearense. 37 anos. Apaixonado por tecnologia desde que usou um computador pela primeira vez, em um hoje jurássico Windows 95. Além de tech, também curto filmes, séries e jogos.

Siga em: