RV770 e a série HD48xx

A estratégia clássica dos fabricantes ao desenvolver uma nova GPU é produzir um chip com um grande volume de unidades de processamento e todos os outros recursos necessários, criando uma nova família de placas high-end e, com o tempo, produzir versões de baixo custo no mesmo chip, criando as linhas de placas intermediárias e de baixo custo, usando versões do chip com componentes desativados, ou passando a produzi-lo usando uma nova técnica de produção.

O grande problema com essa estratégia é que (assim como no caso dos processadores) chips muito grandes resultam em altos custos de produção e em um alto índice de defeitos, que tornam o custo unitário ainda mais alto.

Os fabricantes conseguem remediar o problema parcialmente através do die-harvesting, onde chips com defeitos localizados têm parte dos stream processors ou outros componentes desativados (como é o caso das GeForce GTX 260 e 216SP), mas mesmo assim as perdas são grandes. Outro problema com a produção de chips muito grandes é o consumo elétrico, que rapidamente se tornou um problema tão grande nas GPUs quanto nos processadores.

Depois dos problemas com o R600, a ATI decidiu mudar um pouco a estratégia, passando a produzir chips relativamente pequenos, otimizados para oferecerem uma melhor relação em termos de área útil, consumo elétrico e desempenho, com chips relativamente pequenos, porém mais baratos e capazes de atingir frequências de clock maiores.

Em vez de tentar produzir a placa mais rápida do mercado, o objetivo passou a ser criar placas mais baratas, que permitam atingir o mercado mainstream (onde se concentra a maior parte das vendas) e oferecer a possibilidade de combinar duas ou mais placas em CrossFire como a solução para os entusiastas. Surgiu então o RV770, que acabou se tornando um dos chips de maior sucesso da ATI.

O RV770 possui 959 milhões transístores (mais do que um Phenom II) e está longe do que poderíamos chamar de um chip pequeno. Entretanto, ele é bem menor que o GT200 (que possui 1.4 bilhões) o que colocou a ATI em vantagem com relação aos custos de produção, já que tinha em mãos um chip muito menor.

Essa vantagem inicial foi exacerbada pelo uso de uma técnica de produção de 55 nanômetros (contra os 65 nm usados pela nVidia na série inicial do GT200). Curiosamente, o RV770 foi ainda produzido nas fábricas da TSMC (assim como as GPUs anteriores da ATI) e não nas fábricas da AMD.

Embora pareça pequeno em relação ao GT200, o RV770 é muito maior que o R600 e é composto por nada menos do que 800 unidades de processamento (contra as 320 do antecessor) que são organizadas 10 SIMD cores, cada um composto por 16 clusters com 5 unidades de processamento cada um.

Por questões de marketing, a AMD prefere chamar as unidades de processamento de “stream processors”, dando a entender que o RV770 possui bem mais poder de fogo que o GT200 (com seus 240 stream processors), mas na prática a arquitetura dos dois chips é bem diferente, o que dificulta uma comparação direta.

Como comentei, as 800 unidades de processamento do RT770 são agrupadas em clusters de 5. As unidades de processamento se dividem em dois grupos: unidades simples, que são capazes de executar instruções de soma e unidades complexas, que são capazes de executar somas e multiplicações de dupla precisão. Cada cluster inclui 4 unidades simples e uma unidade complexa, que compartilham o mesmo bloco de registradores, operando essencialmente como uma única unidade:

m1e3029ef

As 5 unidades dentro de cada cluster precisam obrigatoriamente trabalhar em instruções dentro do mesmo thread, o que faz com que o desempenho em relação às placas da nVidia varie muito, de acordo com o tipo de processamento e o nível de otimização do software. Em resumo, temos situações em que cada cluster processa uma única instrução por ciclo (pior cenário) e situações em que cada um processa 5 instruções por ciclo, com a média variando muito de acordo com o tipo de operação predominante.

Outra questão importante é que as unidades de processamento do GT200 trabalham ao dobro do clock da GPU, enquanto que no RT770 (assim como no R600) eles operam na mesma frequência do restante do chip. Com isso, temos 480 (2x 240 SPs) instruções por ciclo no GT200 e de 160 a 800 instruções no RT770, o que explica o por que de o desempenho dos dois chips não ser tão diferente quanto poderia parecer à primeira vista.

Continuando, ao combinar 16 destes clusters (80 unidades de processamento no total), temos um SIMD core, que é o bloco básico de construção do RV770. Cada SIMD core possui um bloco de memória de 16 KB, que é usado como uma espécie de cache, útil especialmente ao compartilhar dados entre diferentes threads. O RV770 possui 10 SMID cores, que formam o bloco central de processamento do chip, que é alimentado por um cache de dois níveis:

m7e4e0c7a

As unidades de processamento fazem par com 40 unidades de processamento de texturas, que resulta em uma potência bruta de 40 texels por ciclo de clock, o que é um valor respeitável, mas que é apenas metade dos 80 texels por ciclo oferecidos pelo GT200. Isso faz com que, de uma maneira geral, o RV770 se saia melhor em jogos que utilizam um grande volume de shaders e processamento em geral, mas acabe perdendo em jogos que fazem uso intensivo de texturas.

Um dos segredos para um aumento tão grande no número de unidades de processamento de shaders e texturas do chip, sem que fosse necessária um aumento proporcional na área do chip foi a substituição do ring bus do R600 por um layout mais tradicional, baseado no uso de um hub de dados, que faz a interface entre os componentes do chip.

Embora ofereça menos banda de transferência que o ring bus, o hub de dados ocupa uma área muito menor no chip (área que foi redistribuída entre os demais componentes) e consome muito menos energia no processo de mover os dados de um componente ao outro, contribuindo para a redução no consumo elétrico do chip.

Outra grande vantagem competitiva do RV770 é o suporte à memória GDDR5 que oferecem o dobro da taxa de transferência por pino que as memórias GDDR3 usadas nas placas da família GTX 2xx da nVidia e também nas placas das séries HD 2xxx e HD 3xxx.

As memórias GDDR5 operam de maneira bastante similar às memórias DDR3, com 8 transferências por ciclo, mas com otimizações voltadas para o uso em placas de vídeo, incluindo o suporte a frequências mais altas e tempos de latência mais baixos. As memórias GDDR3 são por sua vez, baseadas nas memórias DDR2, com quatro transferências por ciclo.

Na época em que o RV770 estava sendo desenvolvido, a especificação das memórias GDDR5 ainda não estava finalizada, por isso a adoção da tecnologia foi uma aposta arriscada, mas que acabou rendendo frutos, permitindo que o RV770 utilizasse uma interface de apenas 256 bits (o que contribuiu para o barateamento das placas), mas possuísse um barramento com a memória similar ao que teria aso utilizasse um barramento de 512 bits e memórias GDDR3.

Apesar disso, o alto custo inicial fez com que a ATI reservasse as memórias GDDR5 à Radeon HD 4870, optando pelo uso de memórias GDDR3 regulares na HD 4850. Para tornar a configuração um pouco mais equilibrada (evitando que o acesso à memória se tornasse um gargalo), a HD 4850 usa chips de 993 MHz, contra os 900 MHz da 4870, o que resulta em uma banda total de 63.6 GB/s, contra os 115 GB/s da irmã maior:

ATI Radeon HD 4870: 800 SPs, 512 MB, 1 GB ou 2 GB de memória GDDR5, bus de 256 bits, clocks de 750 MHz (GPU) e 900 MHz (3.6 GHz efetivos) para a memória. TDP de 160 watts.

ATI Radeon HD 4850: 800 SPs, 512 MB, 1 GB ou 2 GB de memória GDDR3, bus de 256 bits, clocks de 625 MHz (GPU) e 993 MHz (1.98 GHz efetivos) para a memória. TDP de 110 watts.

Na prática, o desempenho médio da HD 4850 é cerca de 25% inferior ao da 4870, mas ela é limitada pelo acesso à memória bem antes que a irmã maior, fazendo com que reduzir a qualidade das texturas nas configurações tenha um impacto muito maior no FPS.

10e83617

Radeon HD 4850 (este mesmo layout é usado também pela HD 4830)

Na época de lançamento, a 4870 era vendida por US$ 299 no exterior, 50% mais cara que a 4850, que era vendida por US$ 199. Isso colocou as duas placas em uma posição bastante vantajosa em relação às placas da nVidia, cujas concorrentes diretas eram a GTX 260 e a GTX280 (duas placas originalmente bem mais caras), o que obrigou a nVidia a reduzir os preços e a acelerar o lançamento das placas baseadas no GT200b.

Assim como no caso da nVidia, que combinou duas placas em SLI ao lançar a GTX 295, a ATI se apressou em lançar a série X2, composta por versões dual-GPU das duas placas, que compartilham o mesmo slot PCI Express:

ATI Radeon HD 4870 X2: 2x 800 SPs, 2x 512 MB ou 2x 1 GB de memória GDDR5, bus de 256 bits, clocks de 750 MHz (GPU) e 900 MHz (3.6 GHz efetivos) para a memória.

ATI Radeon HD 4850 X2: 2x 800 SPs, 2x 512 MB ou 2x 1 GB de memória GDDR3, bus de 256 bits, clocks de 625 MHz (GPU) e 993 MHz (1.98 GHz efetivos) para a memória.

Apesar de utilizarem duas baias e possuírem 4 saídas DVI, as X2 não são formadas por um sanduíche de duas placas (como no caso da GTX 295), mas sim por um único PCB, onde as duas GPUs são instaladas lado a lado. O uso de duas baias se deve ao cooler, que precisa dissipar os 220 ou 320 watts de TDP combinado das duas GPUs:

m5de66777

O desempenho de uma X2 é o mesmo que você teria ao usar duas GPUs em uma placa-mãe com dois slots PCIe x8. Apesar disso, as X2 abrem a possibilidade de usar duas GPUs em placas-mãe com um único slot. Como pode imaginar, é possível também combinar duas X2 (criando uma configuração quad-GPU) ou mesmo combinar uma X2 com uma HD 4870 ou 4850 regular, ficando nesse caso com três GPUs.

Em qualquer um dos casos, é recomendável que você desative o CrossFire (a opção “Enable CrossFire” dentro do Catalyst) ou desinstalar o driver da ATI antes de desligar o micro e instalar novas placas, reinstalando o driver no próximo boot. Muitas versões do driver travam no boot seguinte caso você instale ou remova placas com o CrossFire ativo, um problema conhecido.

O ganho real em utilizar múltiplas GPUs depende muito do nível de otimização do jogo ou aplicativo em questão e do tipo de processamento exigido por ele. Alguns jogos, como o Crysis oferecem ganhos modestos enquanto outros, como o CoD World ar War distribuem melhor a carga entre múltiplas GPUs. Você pode ver um comparativo com o ganho em várias configurações de placas em CrossFire e SLI no: http://www.anandtech.com/video/showdoc.aspx?i=3517&p=6

Em qualquer um dos casos, a utilidade em jogos é um pouco discutível discutível, já que a diferença é notada apenas ao utilizar resoluções muito altas, onde o FPS deixe de ser limitado pelo processador. O argumento de “gastar agora para ter um PC que dure por muitos anos” também não funciona, pois daqui a dois anos teremos placas single-GPU muito mais rápidas e você vai gastar muito menos comprando uma única placa agora e trocando-a por outra mais tarde. Assim como no caso das placas da nVidia, a principal utilidade é o uso de aplicativos científicos e de renderização, baseados no OpenCL ou Brook+.

Em abril de 2009 o RV770 foi atualizado, dando origem ao RV790, usado na Radeon HD 4890, que sucedeu a 4870 como carro-chefe da ATI, concorrendo diretamente com a GTX 275:

ATI Radeon HD 4890: 800 SPs, 1 ou 2 GB de memória GDDR5, bus de 256 bits, clocks de 850 MHz (GPU) e 975 MHz (3.9 GHz efetivos) para a memória.

O RV790 é na verdade apenas uma revisão do RV770, com pequenas mudanças que permitem ao chip atingir frequências ligeiramente maiores. Entre elas estão otimizações no sistema de distribuição de energia do chip, temporizações mais estritas em alguns dos componentes e o uso de desacopladores de tensão para reduzir o trânsito de interferência eletromagnética dentro do chip. Eles são instalados na parte externa do chip, criando uma espécie de anel de isolamento, como exemplifica essa slide da ATI:

77ece126

As modificações resultaram em pequeno aumento na contagem de transístores do chip (que foi para 959 milhões), mas não possuem nenhum efeito sobre o desempenho por clock. Se você conseguir uma HD 4870 que suporte o overclock para 850/975, o desempenho será exatamente o mesmo de uma HD 4890.

Como de costume, a ATI produziu também placas baseadas em versões castradas do RV770 (com apenas 640 unidades de processamento ativas e clocks mais baixos), aproveitando chips com defeitos de fabricação:

ATI Radeon HD 4830 (RV770 LE): 640 SPs, 512 MB ou 1 GB de memória GDDR3, bus de 256 bits, clocks de 575 MHz (GPU) e 900 MHz (1.8 GHz efetivos) para a memória.

A 4830 foi vendida como uma opção de médio custo, mais lenta (e mais barata) que a 4850, porém mais rápida que a HD 4670 servindo como uma solução temporária para preencher o vácuo entre as duas placas. Ela foi descontinuada com o lançamento das HD 4770 e 4750 (veja a seguir), que oferecem um desempenho um pouco superior por um preço mais baixo. Em relação às placas da nVidia, a 4830 apresenta um desempenho superior ao da 9800 GT porém inferior ao da 260 GTX, novamente servindo como um ponto intermediário.

Sobre o Autor

Redes Sociais:

Deixe seu comentário

X