Placas da nVidia: O GT200 e a série 2xx

Placas da nVidia: O GT200 e a série 2xx

Em 2007 a nVidia lançou o G80, um chipset 3D é baseado em uma arquitetura bem diferente dos anteriores, com o uso de unidades shader unificadas (chamadas de “stream processors”) que são basicamente unidades de ponto flutuante programáveis, que podem ser usados como unidades de pixel shader, unidades vertex shader ou ainda desempenhar outras funções, de acordo com a demanda. Em suas diversas variações (incluindo aí a família G90), o G80 foi utilizado nas placas das famílias GeForce 8xxx GeForce 9xxx.

A vantagem de utilizar os stream processors no lugar das unidades shader dedicadas é que eles podem absorver melhor a variação na demanda por processamento de pixel shaders ou de vertex shaders por parte do aplicativo, sem gargalos. A desvantagem é que os stream processors são um pouco menos eficientes do que unidades dedicadas, por isso o G80 inclui um número muito maior deles.

Em 2008 foi lançado o GT200, que é o sucessor direto. Diferente do G80, que representou a introdução de uma nova arquitetura, radicalmente diferente da do G70, o GT200 é apenas um refinamento da arquitetura introduzida por ele. Ele é um chip muito maior e com mais unidades de processamento e por isso consideravelmente mais poderoso, mas os componentes básicos dentro do chip são basicamente os mesmos, mantendo o suporte ao DirectX 10 e adicionando suporte a algumas das funções do DX 10.1.

O GT200 possui um total de 240 stream processors, o que é quase o dobro do poder de fogo bruto do G80, que possui apenas 128. Eles são divididos em 10 clusters (também chamados de TPCs) e cada um deles é subdividido em 3 blocos de 8, batizados pela nVidia de SMs ou “streaming multiprocessors”:

gt200_html_432bf21b

Cada cluster inclui também 8 unidades de processamento de texturas, uma relação de 3 stream processors para cada unidade de textura (contra os 2 por unidade do G80). Essa redução na proporção tem um motivo: os jogos atuais estão utilizando uma proporção cada vez maior de shaders para compor as cenas. Como os shaders exigem muito mais processamento, as unidades de texturas acabaram se tornando um fator secundário para o desempenho.

Outra mudança foi o aumento no número de ROPs, de 6 (no G80) para 8. Cada ROP é capaz de processar 4 pixels por ciclo, o que permite ao GT200 processar um total de 32 pixels por ciclo. Os ROPs são também os responsáveis pelo acesso à memória, sendo que cada ROP possui um barramento de 64 bits independente, o que resulta em um barramento total de 512 bits.

Inicialmente o GT200 foi usado em apenas duas placas, a GTX 280 e a GTX 260, que é uma versão de baixo custo, com apenas 192 dos 240 stream processors ativos. Assim como no caso dos Celerons e Semprons, ela foi usada pela nVidia para aproveitar os chips imperfeitos, desativando as unidades com problemas de produção.

Junto com a desativação dos stream processors, é desativado um dos barramentos de 64 bits com a memória, o que resultou em placas com 896 MB de RAM (7 chips de memória em vez de 8) e um barramento de 448 bits (em vez de 512); uma configuração pouco usual. As especificações de referência são:

GeForce GTX 280: 240 SPs, 1 GB de GDDR3, bus de 512 bits, clocks de 602 MHz (core), 1296 MHz (shaders) e 2214 MHz (memória). TDP de 236 watts.

GeForce GTX 260: 192 SPs, 896 MB de GDDR3, bus de 448 bits, clocks de 576 MHz (core), 1242 MHz (shaders) e 1998 MHz (memória). TDP de 182 watts.

Como pode ver, existe uma pequena diferença nos clocks das duas placas, introduzidas pela nVidia com o objetivo de diferenciar as duas linhas e reduzir os custos de produção, mas de uma maneira geral a diferença de desempenho entre as duas placas é pequena, mal chegando aos 15% na maioria das aplicações, menos do que a diferença nas especificações sugerem.

O principal motivo das placas baseadas no GT200 serem tão caras é o enorme tamanho do chip. O GT200 é composto por nada menos do que 1.4 bilhões de transístores e, ao produzi-lo usando uma técnica de 0.065 micron, a nVidia é capaz de produzir apenas 94 chips usando um wafer de 300 mm, o que o torna um dos chips mais caros de se produzir da história. Para colocar as coisas em perspectiva, imagine que a Intel é capaz de produzir 22 Atoms de 0.045 micron na mesma área ocupada por um único GT200.

gt200_html_369214aa

gt200_html_m357f497d

O GT200 tem um TDP igualmente monstruoso, de nada menos do que 236 watts, o que beira o absurdo. Apesar disso, as placas placas baseadas no GT200 possuem um ponto positivo, que é o baixo consumo em idle, potencializado pelo uso de uma arquitetura modular, que permite que a placa desligue ou reduza o clock de componentes que não estão sendo utilizados.

Enquanto um G80 consome um mínimo de 64 watts mesmo quando você está apenas visualizando uma página web, o GT200 é capaz de reduzir o consumo para até 25 watts, o que é algo próximo do que temos em uma GeForce 6200, por exemplo.

Por outro lado, o baixo consumo em idle não ajuda em nada quando as placas estão trabalhando em full-load, rodando o CoD 5 ou algum benchmark, o que explica o cooler monstruoso e o design dual-slot:

gt200_html_m5003d1b0

Como de praxe, você pode usar até três placas em SLI, mas na maioria dos casos o processamento adicional acaba servindo apenas para jogar usando resoluções muito altas (imagine o caso de quem usa uma HDTV como monitor, por exemplo), com níveis mais altos de antialiasing ou como uma desculpa extremamente custosa para justificar a compra de uma fonte de 1000 watts reais.

Por outro lado, o uso do CUDA e do OpenCL abriu diversas portas relacionados ao uso das placas em aplicações científicas e outras áreas “sérias” baseadas no uso de computação paralela. Em alguns casos, um trio de placas em SLI pode substituir um pequeno cluster de servidores, que custaria muito muito mais caro. A tendência para o futuro é justamente que as GPUs comecem a ser cada vez mais usadas para aplicações de pesquisa e processamento paralelo, deixando de atender apenas aos gamers.

Em dezembro de 2008 foi lançada uma versão de 0.055 micron do GT200, o GT200b. Ele não trouxe melhorias na arquitetura, mas reduziu o tamanho e o custo do chip, tornando as placas mais acessíveis. Assim como no caso dos processadores, a nova técnica de produção representou também uma pequena redução no consumo elétrico (embora o TDP das placas não tenha sido reduzido significativamente, o consumo em situações reais é cerca de 10% menor) e permitiu o uso de frequências ligeiramente superiores. Ele é usado nas seguintes placas:

GeForce GTX 260 216SP: 216 SPs, 896 MB de GDDR3, bus de 448 bits, clocks de 576 MHz (core), 1242 MHz (shaders) e 1998 MHz (memória). TDP de 171 watts.

GeForce GTX 275: 240 SPs, 896 MB de GDDR3, bus de 448 bits, clocks de 633 MHz (core), 1404 MHz (shaders) e 2268 MHz (memória). TDP de 219 watts.

GeForce GTX 285: 240 SPs, 1 GB ou 2 GB de GDDR3, bus de 512 bits, clocks de 648 MHz (core), 1476 MHz (shaders) e 2484 MHz (memória). TDP de 183 watts.

GeForce GTX 295: 2x 240 SPs, 2x 896 MB de GDDR3, bus de 2x 448 bits, clocks de 576 MHz (core), 1242 MHz (shaders) e 1998 MHz (memória). TDP de 289 watts.

A GTX 260 216SP surgiu como resposta à Radeon HD 4870, que além de mais barata, era capaz de superar a GTX 260 original por uma pequena margem. Mantendo 216 stream processors ativos em vez de 192, a nVidia conseguiu aumentar ligeiramente o desempenho da 260, equilibrando a balança em muitos benchmarks. O remendo foi acompanhado por um corte de preços, mostrando como a nVidia vem sendo pressionada pelos lançamentos recentes da ATI. Concluindo, existe também uma versão da GTX 260 216SP baseada no GT200 de 0.06 micron. Ele possui exatamente as mesmas especificações, mas possui um TDP de 182 watts.

No outro extremo temos a GTX 295, um monstro que combina duas placas, com o cooler espremido entre ambas, uma solução para que a placa continuasse ocupando apenas 2 slots. Uma delas inclui o controlador de saída de vídeo e os conectores e a comunicação é feita através do barramento PCI Express:

gt200_html_3ce8042b

A GTX 295 não é tão rápida quanto um par de GTX 285, devido aos clocks mais baixos e ao fato de um dos ROPs em cada GT200 vir desativado, resultando nos 2x 896 MB de memória e o barramento de 448 bits. O motivo da redução no clock é a simples questão da dissipação térmica, já que mesmo com a redução o TDP é de absurdos 289 watts. A desativação do ROP visa reduzir o custo das placas, permitindo que a nVidia aproveite os mesmos chips que seriam usados nas GTX 275, reservando os chips “completos” para uso nas GTX 285.

É possível ligar duas GTX 295 em SLI, criando um sistema quad-SLI, o que é atualmente o topo do topo entre as placas da nVidia. Nesse caso, os 4 chips oferecem um desempenho ligeiramente superior ao de três GTX 285.

Sobre o Autor

Redes Sociais:

Deixe seu comentário

X