Uma empresa decidiu trocar a estratégia de concentrar toda a inteligência artificial em um único servidor por uma arquitetura distribuída formada por três Mac Studio M2 Ultra. Segundo o autor da publicação no Reddit, a mudança permitiu distribuir as solicitações entre diferentes máquinas, reduzindo filas de processamento e mantendo todos os dados dentro da rede local da organização.
O projeto foi publicado no subreddit r/LocalAIServers pelo usuário “deebuildsthings”. Ele mostra que utiliza computadores da Apple de segunda mão trabalhando em conjunto com mais de cem notebooks antigos usados apenas como estações de acesso para os funcionários. Segundo o autor, a intenção era construir uma infraestrutura que exigisse menos energia, refrigeração e investimento do que um servidor tradicional. A publicação inclui fotografias da instalação e descreve o hardware utilizado.
Local host 3 Mac Studios stacked = private AI fleet for the whole office
by
u/deebuildsthings in
LocalAIServers
Por que abandonar um único servidor
O principal problema da configuração anterior não era potência de processamento, mas o fato de todas as solicitações passarem pela mesma fila. Quando um usuário executava uma consulta pesada, outros funcionários precisavam esperar o término desse processamento antes de receber respostas. O autor afirma que a nova arquitetura resolveu esse gargalo distribuindo automaticamente cada requisição entre três mecanismos independentes.
Essa distribuição é feita por um software chamado Grid, citado na publicação como responsável por encaminhar cada solicitação para a máquina menos ocupada naquele momento.
Como a infraestrutura foi montada
Cada computador utilizado é um Mac Studio M2 Ultra equipado com 192 GB de memória unificada e SSD de 2 TB.
Os modelos Qwen 3.6-35B-A3B são executados localmente por meio do Ollama. A geração de imagens utiliza ComfyUI. cada Mac consegue atender aproximadamente 17 sessões simultâneas. Somadas, as três máquinas poderiam atender cerca de 50 sessões concorrentes. Considerando uma taxa média de utilização de 25%, ele estima que a infraestrutura seria suficiente para aproximadamente 200 funcionários.
Esses números são apresentados exclusivamente pelo autor da publicação e não puderam ser confirmados de forma independente.
Memória unificada é uma das vantagens apontadas
A escolha do Mac Studio está ligada principalmente à memória unificada.
O M2 Ultra oferece largura de banda de até 800 GB/s, permitindo que grandes modelos de linguagem utilizem praticamente toda a memória disponível sem a separação tradicional entre RAM e VRAM, isso reduz limitações encontradas em GPUs com 24 GB de memória dedicada quando são utilizados contextos muito extensos. As especificações de memória e largura de banda correspondem às características oficiais do chip M2 Ultra.
Privacidade foi outro motivo para a mudança
Ele afirma que a empresa produz textos para redes sociais, pesquisas internas, documentos e imagens utilizando IA. A motivação para executar tudo localmente foi evitar o envio de documentos corporativos para serviços em nuvem e eliminar custos recorrentes de plataformas cobradas por usuário.
Segundo ele, isso torna a solução interessante principalmente para organizações que lidam com informações confidenciais.
Nos comentários, o próprio autor cita escritórios de advocacia, empresas da área financeira e organizações de saúde como possíveis usuários desse tipo de arquitetura, justamente por restrições relacionadas ao tratamento de dados internos. Essas observações representam opiniões do autor da publicação.
A comunidade sugeriu outras abordagens
Embora a ideia tenha despertado interesse, diversos participantes do Reddit questionaram algumas escolhas técnicas.
Entre as sugestões aparecem ferramentas como vLLM, MLX, llama.cpp e Exo, que poderiam oferecer melhor aproveitamento do hardware da Apple ou permitir a distribuição de modelos maiores entre as máquinas.
O autor respondeu que escolheu o Ollama por ser mais simples para funcionários sem experiência técnica e afirmou que pretende estudar melhorias como conexões Thunderbolt entre os Mac Studio e novas formas de simplificar a configuração dos clientes.
O projeto ainda é experimental
Apesar dos resultados apresentados, o próprio autor reconhece limitações.
Cada computador cliente ainda precisa ser configurado manualmente para acessar a infraestrutura, processo que leva aproximadamente dez minutos por máquina segundo a publicação, também existe dependência da rede local para que os agentes funcionem corretamente.
Por enquanto, a principal dificuldade relatada não é desempenho do hardware, mas convencer os funcionários a incorporar ferramentas de IA ao fluxo diário de trabalho. Segundo o autor, essa adaptação ainda representa o maior desafio do projeto.
Você também deve ler!