Supercomputador do Meta (Facebook) terá 16 mil GPUs da Nvidia

Supercomputador do Meta (Facebook) terá 16 mil GPUs da Nvidia

Na última segunda-feira (24), o Meta, ex-Facebook, anunciou o seu supercomputador para pesquisas em inteligência artificial que terá 16 mil GPUs da Nvidia.

O Supercomputador, chamado RSC (Research SuperCluster) já estava em desenvolvimento há dois anos para ajudar a empresa na criação de softwares de inteligência artificial mais avançados.

A atual versão do RSC possui 760 GPGPUs DGX A100 da Nvidia, que equivalem a 6.080 GPUs. Cada uma dessas DGXs se comunicam no RSC através da interface InfiniBand NVIDIA Quantum com dois níveis de switches Clos que alcançam a velocidade de 1600 Gb/s.

Meta Facebook Nvidia
Fase um do RSC com 6.080 GPUs da Nvidia. Créditos: Meta

Você também deve ler!

Quanto ao armazenamento, o RSC possui uma matriz de armazenamento de 175 petabytes do FlashArray da Pure Storage, 46 petabytes de espaço de cache do sistema Altus da Peguin Computing e mais 10 Petabytes com o UFFO FlashBlade da Pure Storage.

Benchmarks anteriores do RSC comparados com outras infraestruturas desenvolvidas pelo Meta (Facebook) mostraram que a visão computacional enxergada pelo RSC é 20 vezes mais rápida e consegue rodar o Nvidia NCCL (Biblioteca coletiva de Comunicação da Nvidia) nove vezes mais rápido.

Meta Facebook Nvidia
Benchmark do RSC. Créditos: META

Além disso, o RSC consegue treinar modelos de Processamento de linguagem natural três vezes mais rápido. Ou seja, um modelo com bilhões de parâmetros pode terminar o treinamento em três semanas. Anteriormente, esse período durava nove semanas.

Vale ressaltar que essas são as métricas atuais de desempenho do RSC, pois, segundo o Meta (Facebook), quando o desenvolvimento do Supercomputador estiver completo, a Infiniband irá conectar 16 mil GPUs da Nvidia.

RSC com GPUs da Nvidia conectadas pela interface Infiniband. Créditos: Meta

“Isso será uma das maiores infraestruturas de redes dos dias atuais”, afirmou

Shubho Sengupta, engenheiro de software do Meta.

O supercomputador estava nos planos do Meta desde quando a empresa se chamava Facebook

O Meta já planejava criar um supercomputador desde quando a empresa ainda se chamava Facebook, pois, em 2013, surgiu a divisão de pesquisas em inteligência artificial, O Facebook AI Research.

Em 2017, o time de pesquisa do Meta, então Facebook, começou a desenvolver infraestruturas de computação de alto desempenho, ou supercomputador, cuja primeira geração contava com 22 mil GPUs V100 da NVIDIA.

Observe a distância entre o Datacenter do Meta e o local onde está o supercomputador. Créditos: Meta.

Leita também: NVIDIA anuncia a placa Tesla V100s, baseada na arquitetura Volta

Essa infraestrutura era a linha que o Meta (Facebook) havia traçado para os seus planos em termos de desempenho, produtividade e segurança.

No entanto, no início de 2020, o Meta (Facebook) decidiu que seria melhor desenvolver um novo supercomputador devido às novas tecnologias de GPUs que surgiram nos anos posteriores a 2017, como as arquiteturas Turing e posteriormente a Ampere da NVIDIA.

Meta Facebook Nvidia
Kevin Lee e um engenheiro de software do Meta visitando as instalações do RSC em 2021. Créditos: Meta

“Nós queríamos que essa infraestrutura pudesse treinar modelos com mais de um trilhão de parâmetros em conjuntos de dados tão grandes quanto exabytes — o que, para se ter noção, equivale a 36 mil anos de vídeos de alta qualidade”, afirmou Kevin Lee, Chefe da divisão técnica do programa do supercomputador.

Portanto, os engenheiros do Facebook AI Research pretendiam mudar o curso da infraestrutura de pesquisa em inteligência artificial da empresa, atualmente conhecida pelo nome Meta.

A intenção para o desenvolvimento do RSC, além de utilizar conjuntos de dados públicos e de código aberto, também era para garantir que as pesquisas desse setor se transformassem em práticas de modo mais efetivo, permitindo, portanto, incluir modelos reais dos sistemas de treinamento de modelos do Meta.

Créditos: Meta

“Poderíamos, portanto, ajudar o avanço das pesquisas ao executar tarefas pré-formuladas. Por exemplo, identificando conteúdo nocivo em nossas plataformas, bem como aprimorar a pesquisa em IAs físicas e multimodal. Com isso, a experiência de usuário das nossas plataformas seria aprimorada. Acreditamos que essa seja a primeira vez em que o desempenho, a confiabilidade, a segurança e a privacidade foram reunidas em tamanha escala”.

Leia também: Nvidia anuncia nova CPU Grace baseada em arquitetura Arm para Data Centers

A intenção do Meta (Facebook) era interessante, mas, naquele ano, nós tivemos uma novidade: a pandemia. Pois bem, como a empresa iria criar esse supercomputador no momento em que o trabalho presencial estava proibido?

RSC foi desenvolvido durante a pandemia

Segundo o Meta, o desenvolvimento do RSC começou de maneira completamente remota e continuou assim por um ano e meio. Além disso, a pandemia causou a crise no setor de semicondutores, dificultando a montagem do supercomputador, além dos protocolos de logísticas.

Engenheiros civis do Meta no local do data center. Créditos: Meta/Facebook

“Para montar esse cluster de maneira eficiente, tivemos que refazer inteiramente o design, criando novos protocolos específicos no Meta (ainda Facebook) e repensar protocolos anteriores durante o desenvolvimento. Tivemos que formular novas regras envolvendo os designs dos nossos data centers — incluindo o sistema de ventilação, energia, formato das prateleiras, sistema de cabos e redes (incluindo um painel de controle completamente novo). Tínhamos que garantir que todas as equipes, desde os responsáveis pela construção ao hardware, e dos times de software e IA, estavam trabalhando em pé de igualdade de maneira coordenada com os nossos parceiros”, afirmou Kevin Lee.

Videoconferência dos engenheiros de software durante a pandemia. Créditos: Meta

Portanto, Lee não poupou agradecimentos às empresas parceiras, como a NVIDIA, A Peguin Compunting e a Pure Storage, que, afinal de contas, também participaram da primeira estrutura computacional em 2017, quando o Meta ainda era Facebook.

Registro do primeiro rack do Supercomputador do Meta, quando a empresa ainda se chamava Facebook.

“Grande parte dessa conquista foi graças ao trabalho em parceria com outras empresas. A Peguin Compunting trabalhou com a nossa equipe na integração de hardware para implantar o cluster e ajudou a organizar partes importantes do painel de controle. A Pure Storage nos deu uma solução robusta e escalonável de armazenamento. E, por vim, a Nvidia, nos forneceu suas tecnologias de Inteligência Artificial, bem como GPUs e a interface InfiniBand”, afirmou Lee.

O Futuro do Supercomputador do Meta: 16 mil GPUs da Nvidia

O supercomputador RSC já está funcionando, mas, de acordo com o Meta, o seu desenvolvimento continua. A primeira fase foi concluída, mas a segunda, como acredita a empresa, será a criação do “supercomputador mais rápido do mundo”.

“Por todo ano de 2022, nós iremos trabalhar para aumentar o número de GPUs de 6.080 para 16 mil. Isso irá impulsionar o desempenho no treinamento de inteligência artificial em 2,5 vezes”.

Meta Facebook Nvidia

Segundo o Meta [Facebook], essa escalada em números de GPU da NVIDIA possa criar modelos de IA mais precisos para os serviços da empresa, mas, também permitir novas experiências de usuários nos serviços da companhia.

Aliás, a empresa destaca que o foco é aprimorar as experiências de usuário especialmente em um dos serviços do Meta: o metaverso. Ficaram surpresos?

É isto mesmo! O supercomputador do Meta, com 16 mil GPUs da Nvidia, servirá, majoritariamente, para criar tecnologias que serão implementadas no metaverso. Enfim, o RSC é mais um instrumento para a nova empreitada do CEO da empresa anteriormente conhecida como Facebook.

Fonte: Meta

Sobre o Autor

Redes Sociais:

Deixe seu comentário

X