Entendendo o Quad FX

Por Julio Cesar Bessa Monqueiro
, em 15 junho de 2007 às 18:24

Artigos Conteúdo

Apesar da introdução das novas técnicas de fabricação, tanto o Athlon 64, quanto o Sempron não foram capazes de atingir frequências muito mais elevadas que os pioneiros de 0.13 micron, baseados nos cores ClawHammer e Paris. O mesmo pode se dizer dos processadores Intel, que não avançaram muito em termos de frequência de operação desde o Northwood, também fabricado em uma técnica de 0.13 micron. Mesmo o core Prescott, que utilizava mais estágios de pipeline e tempos de latência maiores para o cache L2, com o objetivo de atingir frequências de operação mais altas (em troca de uma redução no desempenho por ciclo), não foi capaz de superar os 3.8 GHz.

Os tempos em que simplesmente migrar para uma nova técnica de fabricação garantia uma aumento expressivo no clock do processador acabaram. Velhos truques como aumentar o número de estágios de pipeline ou aumentar os tempos de latência do cache L2 para atingir frequências de operação mais altas também já foram usados até o limite, de forma que novos aumentos acabam sendo contra-produtivos.

Ao invés disso, tanto a Intel quanto a AMD se voltaram para a “última fronteira”, que é adicionar novos recursos e componentes internos (suporte a novos conjuntos de instruções, suporte a 64 bits, controladores de memória integrados, mais cache L2, etc.) ou criar processadores dual-core ou quad-core, de forma a fazer com que o processador seja capaz de executar mais processamento por ciclo.

Depois da linha Athlon X2, onde temos processadores dual-core, a evolução natural seriam processadores quad-core. Surge então a plataforma Quad FX, lançada pela AMD em dezembro de 2006.

A primeira observação sobre o Quad FX é que não se trata exatamente de um processador quad-core, mas sim de dois processadores da série FX, espetados na mesma placa mãe e ligados através de um link HyperTransport. Ou seja, temos um sistema dual-CPU:

Quad FX

Inicialmente foram lançadas três versões, o FX-70 (2x 2.6 GHz), FX-72 (2x 2.8 GHz) e FX-74 (2x 3.0 GHz). Todas são baseadas no core Windsor (0.09 micron), com 1 MB de cache por core, totalizando 2 MB para cada um dos dois processadores.

O soquete AM2 oferece suporte a um único barramento HyperTransport, usado para interligar o processador ao chipset. Para permitir a inclusão de um barramento adicional, necessário para fazer a interligação entre os dois processadores, a AMD adotou o uso do soquete F, utilizado também pelo Opteron.

Assim como o soquete 775 da Intel, o soquete F utiliza o sistema LGA (Land Grid Array), onde os pinos de contato são movidos do processador para o soquete, criando uma “cama” de contatos, sobre a qual o processador é firmemente preso:

Soquete F

A principal diferença é que o soquete F possui um número brutalmente maior de contatos, nada menos do que 1207. Este número absurdo é necessário, pois além do controlador de memória integrado, o processador passa a dispor de três barramentos HyperTransport independentes. Um deles é utilizado para ligar o processador ao chipset, outro para permitir a comunicação entre os dois processadores e o terceiro fica disponível para a inclusão de recursos adicionais.

No caso dos Opterons, o terceiro link pode ser utilizado para criar sistemas com 4 processadores. Isto seria dispendioso demais em um PC doméstico e não ofereceria grandes benefícios sobre o uso de apenas dois. Ao invés de simplesmente deixar o link sem uso, a nVidia o utilizou para ligar um segundo chipset ao processador, criando a plataforma nForce 680a SLI:

Diagrama de blocos do nForce 680a SLI

O objetivo desta combinação é dobrar o número de linhas PCI Express e outras interfaces, criando uma placa-mãe monstruosa, com 4 slots PCI Express 16x (dois deles com 16 linhas completas, dois com 8 linhas), 12 interfaces SATA e até 4 placas de rede onboard. Ou seja, você poderia montar um sistema quad-SLI, com 4 (ou mais) HDs SATA em RAID e ainda teria várias interfaces disponíveis.

Como cada processador possui seu próprio controlador de memória dual-channel, é necessário utilizar um total de 4 módulos: dois para cada processador. Como cada processador tem acesso direto à apenas metade da memória instalada, é necessário um sistema que permita a comunicação entre ele, de forma que um possa enxergar a metade utilizada pelo outro. Entra em cena o NUMA (Non-Uniform Memory Architecture) que permite que ambos os processadores trabalhem utilizando uma tabela de endereços unificada. Graças a isso, cada um dos dois processadores enxerga toda a memória disponível e acessos feitos à metade de propriedade do outro processador são realizados através do link HyperTransport que os interliga.

Embora a idéia pareça boa no papel, o uso do NUMA aumenta os tempos de latência do acesso à memória, já que aproximadamente metade dos acessos são feitos aos módulos do processador vizinho, fazendo todo o caminho através do barramento HyperTransport, ao invés de irem diretamente do módulo ao controlador de memória local.

Em aplicativos não otimizados (atualmente poucos programas são capazes de explorar ao máximo o benefício de um segundo núcleo, o que dizer de quatro) a perda causada pelo aumento da latência no acesso à memória anula grande parte do benefício proporcionado pelos dois núcleos adicionais, fazendo com que, mesmo o FX 74 tenha dificuldades em oferecer ganhos tangíveis sobre um X2 6000+, que também opera a 3.0 GHz. Em alguns benchmarks, aplicativos científicos e modelagem em 3D, o Quad FX se destaca, mas em aplicativos de uso geral e games o ganho de desempenho real é pequeno.

Em um teste rápido, utilizando uma NVIDIA GeForce 8800 GTX a 1600×1200, o FX-70 consegue apenas 148 FPS no Half Life 2 (Gunship Timedemo), contra 147 obtidos por um X2 5200+, que também opera a 2.6 GHz. Ele ganha por uma margem de 6% no 3D MAX e ganha por uma pequena margem em compressão de vídeo usando o Xmpeg, mas perde (embora por apenas 2 a 3 FPS) no Quake 4, que seria um bom exemplo de game onde o uso do NUMA acaba fazendo mais mal do que bem.

Na prática, a plataforma Quad FX oferece pouca utilidade, já que é muito dispendiosa. Em junho de 2007, uma ASUS L1N64-SLI WS (baseada no ASUS L1N64-SLI WS) custava US$ 350 e cada processador FX-74 custava mais US$ 480 (preços dos EUA), totalizando mais de 1300 dólares, apenas pela placa e processadores. Adicionando os módulos de memória, coolers, gabinete, placas de vídeo, monitor e periféricos, você passaria facilmente dos US$ 4000. Como moramos no Brasil, teríamos ainda as taxas de importação, resultando em uma cifra pornográfica. 🙂

Mesmo que você tivesse tanto dinheiro para gastar em um PC, seria muito mais prudente montar um PC “simples”, com um Athlon 64 X2 ou um core 2 Duo, usando uma boa placa mãe, 1 ou 2 GB de memória e uma placa de vídeo razoável (que no final ofereceria um desempenho apenas alguns pontos inferior) e aplicar o resto do dinheiro, deixando-o disponível para futuros upgrades.

Apesar disso, o Quad FX é interessante como conceito, dando uma amostra de tecnologias que poderão ser usadas em futuros processadores, como o uso do soquete F e o NUMA.