Atualização com as specs finais da família GeForce8.
GF8 introduziu o PC em novembro de 2006 na era Vista-DX10, com abordagem multithread do GPU e CPU e com arquitetura unificada de processamento gráfico.
G80 é um High-End GPU composto de 2 peças: GPU 681M+DAC-CPU 70M, no total de 751 milhões de transistores litografados em 90nm. Em conjunto o core usa uma área de 5cm quadrados de silício, sendo o maior chip para uso doméstico já criado.
Para ele foram desenvolvidos 2 PCBs, um com 1 conector 6-pinos de 23cm e 150W de máxima potencia que abriga a 8800GTS(140W) e Quadro FX4600 e outro de 26.4cm com 2 (225W) para a GTX(140W), que pode abriga versões mais potentes de 171W: 8800Ultra e Quadro FX5600(variante do PCB). O core principal é coberto por IHS protetor:
G84 é o Mid-End GPU formado por 289M de transistores litografados em 80nm, pouco mais que o G71 da 7900GTX (278M). Para ele foram criados 2 PCBs, um sem conector extra de para abrigar a 8600GT(43W) e um com conector adicional para abrigar a 8600GTS(71W) ou modelos maiores.
G86 é o Low-End GPU com 210M de transistores em 80nm, consideravelmente mais que o G73 da 7600GT de 170M. Para ele existem 2 variantes de PCB com: 8500GT(40W) e 8400GS(40W).
G92 é um High-End GPU que passou a geração 8 para o processo de 65nm. Ele passou a conter numa unica peça mais transistores que o G80, 754 milhões, numero só ultrapassado pelo Quad Penryn. Para ele por enquanto existem 3 variantes montadas num PCB com dissipação termica de 105W, de mesmas proporções da 8800GTS, também com apenas 1 conector de energia, mas diferenciando-se das demais high-end por ter um cooler padrão que ocupa o espaço de um slot. G92 também é esperado ser usado na série 9 sob a nova nomenclatura D9.
Confira os modelos de GF8 disponíveis pro consumidor final: (Não inclusos modelos OEM, Quadro, Mobile e variantes personalizadas de cada fabricante).
Guia para uso da GF8. Se vc está com dificuldades, leia.
Nova arquitetura totalmente diferente da anterior:
GF8 usa uma arquitetura
totalmente unificada e atende todas as especificações do directX10, a ponto de acabar com os conceitos usados até a geração passada de forma radical.
Antes de tudo, entenda o que são
shaders unificados e
arquitetura unificada.
Da mesma forma que o DX9, o DX10 estipula o pixel shader e o vertex shader e introduz o geometry shader (aplicado a grupos de vértices). Aplicar o Shader a uma imagem 3D representa a capacidade de mudar a cor de um pixel criado de acordo com um padrão. No DX9, as exigências sobre o pixel shader eram mais abertas, podendo existir diferentes níveis de precisão, enquanto as do vertex shader eram mais restritas. Dessa forma, seria dispendioso criar uma mesma estrutura para calcular os pixels e os vertices, pq ela seria muito complexa.
No DX10, todos os shaders tem o mesmo padrão elevado de exigencias para serem calculados. O DX10 em si não estipula que o hardware terá que usar um mesmo processador para calcular o pixel shader ou o vertex shader, mas torna essa fusão interessante estruturalmente e economicamente. Dessa forma, os fabricantes tenderão a usar
shader processors unificados para GPUs DX10.
A arquitetura da nvidia parte para um ponto mais geral ainda. Partindo de uma unidade de processamento que fosse simples, rápida, altamente programável, ela criou o stream processor. Colocando várias dessas unidades juntas, desenvolveu um CPU no qual muitos problemas seriam direcionados(pixel, vertice, shader,fisica,etc). Todas as operações de shader efetuadas nessas unidades em adição a capacidade de serem programadas para executar outras tarefas, criou-se assim a
arquitetura unificada. A arquitetura do G80 se assemelha aos conceitos usados no Cell e será a base para os futuros processadores e CPU-GPUs da nVidia, Intel e AMD, onde ao invés de poucos núcleos teremos dezenas de núcleos menores com algum grau de especialidade. Para manter a produção viável em 90nm, a nVidia introduziu o GPU em 2 peças na GF8. Nos futuros GPUs Intel, AMD e nVidia é esperado o aprimoramento dessa técnica para otimizar custos e superar a barreira do 1TF.
O G80 possui 2 blocos funcionais. Divididos nesses blocos existem 128 Stream Processors (SP) em sub-blocos de 16. Paralelamente existe o
Luminex Engine que corresponde a uma unidade geral de pós tratamento, que engloba as genéricamente designadas "ROPs". Que são 6 gerais com 4 sub-unidades cada (24 no total).
Cada
Stream Processor pode trabalhar tanto com pixel, vértice, geometrias, shader, física de jogos, video ou qualquer coisa, visto que são unidades programáveis e podem dinâmicamente alternar sua função entre uma e outra. Eles representam uma evolução em relação ao antigo shader processor. No sistema antigo cada shader processava informações (compenentes do pixel) em grupo, e apesar de ter mais "unidade de processamento por shader", uma instrução sempre aloca todas (o shader) a cada ciclo, mesmo sem que haja necessidade.
Enquanto um Shader processor tipo Vec3+1(r580) ou Vec2+Vec2(G71) tem eficiência de 30-80% na melhor hipótese(piorando qto mais intenso for o uso), G8x pode usufruir de um aproveitamento de 100% dos Flops de seus SPs: dual issue (MADD(2flops)+MUL(1flop))×1350MHz ×128 SPs=
518.4 Gigaflops).
Contra esse modelo, as specs do r6xx falam de até 64 shaders 4-way SIMD. Também chamado de 64 x (Vec4+1)="320 unidades acumulativas” ou “320 Stream processor da AMD”. Mas o r600 ou mesmo 670 é totalmente diferente e sua arquitetura não é capaz de competir com o G80.
Fazendo uso de uma implementação do DX10, o
Stream Output, cada SP pode realizar ciclos de operações sem precisar transferir os dados na memória (VRAM), graças a um buffer dedicado. E tem arquitetura escalar, dispensando uma operação de shader executar todos os componentes (cor/Z) de cada pixel se apenas uma for necessária. O G8x pode aproveitar todas as vantagens de uma arquitetura mais eficiente (dispensando acessos constantes à memória e processos inúteis, e liberando banda de memória) e unificada, capaz de se adaptar as solicitações para um melhor desempenho.
Nem tanto do aumento da capacidade de ponto flutuante (o dobro do G71), mas da eficiência da arquitetura em aproveitar esse poder que permite que a 8800GTX seja 3 a 4 vezes superior que a 7900GTX, com diferença aumentando qto mais complexo fica o jogo em geometria e shaders. Na maioria dos jogos atuais não existe sequer escalonamento de performance em diferentes resoluções, com filtros ou entre a GTX e GTS ou entre o SLI, porque os jogos são completamente CPU dependentes ou limitados pela quantidade de VRAM em alguns com texturas muito grandes.
Ele é capaz de gerar 64 pixels/clock por referência (64 texture units), de onde vem o fill rate de 36.8 Gtextels bilineares/pixel/s, contra apenas 24 pixels da 7900GTX e 16pixels da X1950XTX. No G80 existem 2 unidades de texturização para uma de endereçamento. Apesar de haver 32 efetivas de saida, essa abordagem permite 2 operações por pixel em cada ciclo de clock. Por exemplo 2xAF é free no G80. Nos demais chips o menor tamanho permitiu retornar ao modo classico de 1:1 de proporção. Cada metodo tem vantagens e desvantagens.
Para gerenciar o poder de multiprocessamento de 128 threads simultâneas, independentes, sem perda de performance (graças ao stream output), numa cadencia de milhões em sequência, foi criada a tecnologia GigaThread.
"
Mas como o G80 trabalha em 1350Mhz em 90nm?, sendo que o G71 só alcança 650Mhz ...isso só pode ser balela"...
Felizmente não é. O G80 representa um passo adiante na criação de chips gráficos. Ele foi refinado da mesma forma que no desenvolvimento de CPUs, que associado a arquitetura escalar mais generalizada, menor interferência magnética dos DACs e um segundo gerador de clock, permite que as SP rodem a 1350Mhz. Além disso as 8800 GTS, GTX e ultra tem 3 independentes geradores de clock de memória controlados por driver.
Multiplos dominios de clock não são novidade, mas pela 1a vez eles operam em clocks diferentes.
Passar de 1Ghz não significa que a nVidia tomou um rumo parecido com a arquitetura netburst da intel que permite ao Pentium4 funcionar em altos clocks. Essa comparação já apareceu em vários locais e é totalmente absurda. Diminuir e simplificar o No de operações por unidade pareceu mais eficiente para o modelo que a nVidia propôs. E aumentar o No de unidades de processamento ao invés de operações por unidade fez com que o gerenciamento de multiplas threads ficasse mais simples e eficiente.
Esse é o primeiro passo em termos de arquitetura para desenvolver o CPU-GPU, uma unidade mista que faça gráfico ao mesmo tempo que opere como uma CPU otimizada em altas frequências e que não seja apenas um "video onboard dentro do CPU". O investimento para desenvolver tal arquitetura ultrapassou os 400 milhões de dolares e vem sendo feito há 4 anos, sendo o dobro do investido para desenvolver o nv40.
A maior novidade vem do
Luminex Engine, responsável pelas operações de AA, AF e HDR.
É composto por 6 "ROPs" subdivididas em 24 unidades, podendo ao todo efetuar até 192 operações de pixel/clock (Z) e 96 pixel/clock (cor). Isso a 575Mhz dá uma capacidade de pós tratamento de pixel 4 vezes maior que a 7900GTX.
A nova arquitetura é capaz de realizar texturizações de
anisotropia com 16xAF angulo independente e qualidade incomparavelmente superior às gerações passadas(G71 e r580) e as novas Radeons HD2900. G8x resolveu definitivamente o problema de "AF quebrado" que comprometem as demais placas; É capaz de fazer HDR de 128bits, ou
HDR de alta precisão (baseado na engine OpenEXR usado na criação dos efeitos da LucasArts) e foi totalmente
otimizada pra realizar HDR com AA. Com o HDR de 128bits, o G80 é o primeiro GPU a trabalhar com ponto flutuante de 128 bits de precisão (full precision) em todas as etapas de redenterização.
O trunfo em arquitetura de performance de AA chama-se
Coverage Sampled Antialiasing (CVAA). O CVAA é uma nova técnica de AA, evolução em relação ao Multisampling, em que não apenas as operações de texturas e shaders são economizadas, como também as redundâncias de pixel (cor e Z), e com isso existe um grande aumento no desempenho e uma grande economia de banda de memória.
O luminex engine permite, através de uma aplicação muito mais eficiente do Z buffer e Z Culling, que o GPU consiga identificar e remover do processamento todas as partes do cenário tridimensional que não aparecerão na area visível da cena final, antes que elas sejam processadas, ao contrário do G70 e r580.
Desse modo o G80 foi criado tendo em mente
trabalhar com efetivos 16XAA, mesmo sob HDR, como se estivesse operando a 4XAA. E com sua gigantesca capacidade de tratamento de pixels, poder operar com 16XAA mesmo sob resoluções de 1920x1200 ou mais.
Além disso os drivers mantem ocultos os modos
16XS e 32XSAA pra single e os modos
SLI 8, 16 , 32XAA, além do
64XAA (OpenGL) que podem ser acessados com nHancer.
O G8x mantém o transparency AA(TR-AA) melhorado para multi e supersampling presente nas GF6/7. O TR-AA permite ao G80 fazer AA com certos objetos (tipo folhagens, sombras e gramas de alguns jogos) que ficam sem AA nas demais VGAs. Isso porque num ambiente 3D, as arquiteturas concorrentes são incapazes de aplicar MS em objetos com semitransparência posicionados em seu interior, e as GFs podem aplicar MS ou SP especificamente a esses objetos (esse recurso é exclusivo das GF6/7/8 até então e não tem relação com o adaptativeAA das Radeons).
Essa nova arquitetura foi tão otimizada ao ponto de não exigir aumento da banda de memória com trocentos bits ou GDDR4 a altíssimas frequências pra mostrar um desempenho absurdo, pois o GPU restringe o acesso a memória apenas aos dados realmente necessários e sem redundância.
Contra esse novo modelo, o melhor que a AMD pode oferecer na HD2900 foi 2 a 8xAA incrementado com pós processamento por soft pra criar a impressão de mais AA as custas de imagem borrada. Nada que se compare.
As atuais VGAs já dispõe de banda de memória de ~20 vezes a de um PC tipico AMD 754 com DDR400, sendo a mais alta proporção já atingida. Já era o momento de partir para um uso mais racional dessa banda de memória do que insistir na arquitetura antiga fortemente dependente de acessos à VRAM. Pode-se esperar futuras placas Mid-End com AA+HDR decentemente jogável.
Claro que a princípio nem todo jogo no mercado fará todo o proveito da arquitetura unificada do G80. Mas com drivers mais maduros com otimizações pra cada jogo chegando (101.02 profiles=535) e os futuros titulos saindo, é performance garantida.
A nVidia separou os
RAMDACs (conversor digital analógico para monitores analógicos) do GPU e fez um chip dedicado a eles, o
NV-I0. Diminuindo consideravelmente a inteferência eletromagnética e permitindo aos shaders processors operarem em altas frequências (+1500MHz); e permitiu elevar a qualidade do sinal e aumentar para 3x10 bits a máxima taxa de cores exibida (demais VGAs é 3x8bits). Por referência até os conectores DVI são de alta qualidade, tentando manter o melhor sinal analógico e imagem presente em VGAs até então.
Em relação a nova
controladora de memória: Pelo esquema funcional do G80, adicionado pelas descobertas do criador do rivatuner, o g80 acessa a memória em 6 canais de 64bits e forma os 6x64=384bits com 12 chips 16Mx32 de memória e 768Mb na GTX. Os detalhes de funcionamento da nova controladora e seus potenciais de expansão permanecem em segredo por parte da nVidia (que não discute a fundo os aspectos da arquitetura do G80). Apenas sabe-se que ela é compatível com todos os tipos de GDDR existentes.
Física, GP-GPU e 2D:
A nova geração possui capacidade de ponto flutuante de 520Gigaflops e estreará com drivers incorporando a nova engine física
Quantum, que permite que uma VGA use parte desse processamento para os física sem a necessidade de uma segunda VGA, colocando uma concorrência direta a AGEIA. A tecnologia de programação GP-GPU
CUDA permitirá que os G8x sejam usados como poderosos e eficientes CPUs em cálculos científicos.
Além da capacidade individual de processamento de física, a GF8 poderá contar com o tripo SLI, a nova modalidade de operação usando 3 slots PCi-E que pode ser ativada nos bios das placas mãe equipadas com o NF680 e 7xxSLI. Os detalhes dessa arquitetura devem sair em breve, mas o SLi Extension, como é chamado, usará o 3o slot presentes na MoBo e usará drivers forceware especiais.
Processamento de Video:
O inicio da disseminação dos formatos de alta definição deu destaque a uma porção pouco comentada do GPU, o video processor VP. Essa porção do chip se encarrega da aceleração de decodificação dos formatos de video existentes. Não depende muito do clock da GPU, é em parte influenciado pela memoria, e sua interface de software é o
Purevideo. O driver >97.02 inclui otimizações que permite o G80 placa ultrapassar o desempenho em aceleração do formato H.264 de qualquer VGA previa.
Aliado a melhor qualidade de imagem de alta definição já promovida pela decodificação Purevideo em relação ao AVIVO, coloca um fim a disputa dos formatos de alta definição.
G8x como algumas versões do G7x suporta nativamente o
HDCP, que é o novo sistema de proteção do conteúdo digital dos HDDVDs. Desde as GF FX, o
HDMI (interface digital de alta velocidade semelhante ao DVI, acrescido de audio) já é totalmente suportado, ao contrário das concorrentes (r520 e 580 não suportam HDMI). Com o estabelecimento das normas para HDDVD, foi possível a implementação do
HDCP sobre DVI e HDMI. O HDCP é incorporado então pela simples adição das chaves criptográficas no bios ou em uma ROM acessória para as GPUs que o suportam, ou então é necessário a recorrer a um set completo de ROM + Chips decodificadorres (tipo das soluções da Silicon Image usadas pelas concorrentes). Informações a respeito do HDCP das GF7 e 8 não suportarem "HDCP em 2 vias" pra rodar videos a "1080p do que 720p" ou que o SLI de 8800 não faz "1080i" que apareceram na internet são completamente absurdas.
Nesse review do AnandTech vc pode conferir o uso correto do HDCP com filmes em Bluray protegidos sem qualquer problema na 8800GTX usando um Pioneer com a versão BD do powerDVD. Ao contrário das soluções com implementação à parte que falharam na correta exibição dos filmes, o funcionamento do HDCP na 8800 é perfeito. A presença do conector HDMI não é necessária para o HDCP funcionar. Todas as HDTVs possuem DVI ou HDMI, sendo que a interconversão pode ser feita com adaptadores. O componente audio do HDMI foi criado pensando em diminuir a necessidade de mais cabos nos aparelhos de HDDVD domésticos, mas para o PC que trata o som com saída propria (placa de som ou som onboard), é de pouca utilidade e a implementação fica a cargo do fabricante.
Nesse outro review do AnandTech vc pode conferir a superioridade do purevideo em aceleração do formato H.264. Uma 8800GTX, GTS ou mesmo uma 7900 permite que cpus mais fracas rodem videos 1080P além de impor uma performance muito superior ao concorrente AVIVO.
E finalmente nesse review do AnandTech vc pode ver a superioridade de qualidade de imagem em deinterlace de H.264 do Purevideo em relação ao AVIVO, ficando então a 8800GTX superior tanto em qualidade, compatibilidade e desempenho em video de alta resolução contra qualquer concorrente.
Durante a evolução da arquitetura o VP do G80 sofreu modificações que resultaram no VP2, presente nos G84, G86 e G92. O VP2
trouxe melhorias fantásticas para HD, já que foi acrescido de um bitstream processor e um acelerador de decodificação de conteúdo protegido AACS (AES128). Dessa forma os GPUs mainstream podem fazer decodificação completa do formato H.264, que é o melhor formato para HDDVD e BD. Fazendo com que as 8600, 8500 e futuras 8400 e 8300 possam ter decodificação plena por hardware (<5% de CPU) e vc possa desfrutar de tudo que o melhor formato de alta definição permite mesmo com o CPU mais barato. O novo VP2 faz até das GF8300GS superiores às HD2900 em HD video(que não possuem full decode), além de oferecer melhor qualidade de imagem. Conhecido como MPEG4-part10, AVC ou H.264, esse formato representa o resultado da união dos 2 maiores orgãos de padronização de video, o
ITU-T Video Coding Experts Group e o
ISO/
IEC Moving Picture Experts Group na criação do melhor formato de compressão que permitisse a melhor qualidade de imagem. Muitos confundem o novo padrão com os antigos MPEG, mas ele é definitivamente superior em qualidade aos VC1 e WMV.
As 8800GTX e 8800 Ultra possuem
2 conectores SLI, mas não se trata de um modelo similar ao da Radeon X1950 ou 2900 que precisa de 2 para realizar fluxo de dados em 2 vias. O SLI continua funcionando apenas com 1 conector entre 2 VGAs. O G80 possui melhores otimizações para multiGPU. Em vários testes é possível comprovar eficiência de 100% na associação de 2 GPUs, embora o CPU limite isso em vários casos. Futuramente é esperado que o 2o conector sirva para comunicar entre si as soluções de 3 ou 4 VGAs.
Com relação ao
consumo. Um sistema completo de 8800GTX e GTS com NF680i, C2Quad 6700, SLi memory e RAID de 2 discos podem solicitar pico de 30A e 26A nas linhas 12V respectivamente, de onde vem os 450W e 400W. Como cada conector de 6 pinos forcene 75W e o PCI-E 75W, um segundo conector só foi adotado para melhorar a distribuição e garantir maior segurança, pois com 1 apenas ainda estaria dentro das recomendações elétricas.
As recomendações do G80 são iguais as da X1950XTX e 7950GX2. O chip trabalha com apenas 1.25V na 8800GTX no multimetro (contra 1.4V nas 7900GTX e 6800Ultra), o que garante manter um bom patamar de dissipação mesmo com 750 milhões de transistores. Dos relatos de vários usuários, as temperaturas atingidas pelas placas não excedem as atingidas pelas 7900GTX, o que garante a melhor relação performance por Watt que já existiu.
Com uma arquitetura eficiente e um ótimo controle do sistema de refrigeração, as 8800GTX/GTS não solicitam 100% de rotação do fan em nenhuma situação de uso.
Do outro lado, as novas Radeons HD2900 usam um sistema de entrada de conectores 6+8 pinos de 300W de máxima dissipação e 35A sustentados (que só fontes de 600W ou mais e raras de 550W podem suprir), presente apenas nos 1os prototipos da GF8, que faz os usuários de Crossfire sofrerem pra overclocar o CPU de um sistema crossfire, mesmo com uma fonte de 1kW.
Para demonstrar a capacidade da Geração 8, a nVidia preparou um demo baseado em uma mulher real. A modelo e capa da Playboy americana de fev2006,
Adrianne Curry apresentará o novo conceito de
Reality Redefined que vc pode conferir em movimento agora no site da nVidia.
A 8800GTX tem potencial de ser entre 3 e 4x mais rápida que a 7900GTX em aplicações DX9 e possívelmente muito mais eficiente sob DX10. É esperado que alcance +12k 3d06 e +20k 3d05 equipada com o novo NF680i e um kentsfield QX6800 com memos DDR2-1200, sem qualquer overclock.
O poder de aumentar os filtros pra 16xAA a 1600x1200 sem penalidade com certeza será um dos maiores apelos aos gamers. Já é possível possível overclock separado das SPs, ROPs e memórias, sendo mais uma opção interessante aos overclockers. Tal arquitetura que permite que partes do chip operem em frequências diferentes fez estréia nos PCs domésticos com o G70 e atingiu um nível em que só veremos algo semelhante a partir do K10.
Do Anandtech,
veja a superioridade do G80 frente ao r600 !
Da mesma forma vc vai ver em DX10: Unreal Tournament 3, Company of heroes 1 e 2, World in Conflict, Call of Juarez, Flight Simulator X, Hellgate: London, EVE, WarRound, BioShock, Age of Conan, Chrome 2, Guild Wars 2, Lost Planet: Extreme Condition, Pt boats ...
Os testes com 1 GTX e 2 GTX em SLI em AM2 e C2D podem ser conferidos a partir
dessa pagina do tópico:
Podem ter certeza que elas correspondem a arquitetura descrita, rsrsrs
Testes com a 8600GTS podem ser encontrados a partir
dessa pagina do topico.
Testes com a 8500GT podem ser encontrados
nesse topico:
E um pequeno guia de uso e overclock da GF8 pode ser achado
nessa pagina do topico.
8600 e 8500 são substitutas para 7600 e 7300 de alta qualidade e enorme potencial de overclock para o valor entre U$60-150. Existem modelos 8500 que vem com 250Mhz de over de fabrica sendo vastamente superiores a 7300 ou 7600GS. Enquanto isso as 8600 podem muito bem dar conta das antigas High-End nos jogos bem como custar menos. É inimaginável esperar uma 7900 ou X1900 rodar Prey ou LoastCoast a 16xAA contra a 8600GTS. Pode-se encontrar 8500GT vendida pelo preço de 7300GT, não sendo mais justificável comprar VGAs novas da geração passada a menos que vc queira fazer um mal investimento.
A nova geração GF8 se mostra arquiteturalmente superior as novas placas da extinta ATI, agora AMD, Radeon HD 2xxx e todos os jogos futuros mostrarão isso.
A introdução da 8800Ultra trouxe ainda a revisão A3 do G80, sobre a A2 da 8800GTX, com memórias GDDR3 de 0.8ns, capazes de 2500Mhz nominais. Pelo preço inicial de U$699 será um alto diferencial pra aqueles que querem uma 8800 a 700Mhz core e 2500Mhz mem.
Muitos podem especular se as novas VGAs conseguirão rodar alguma coisa em DX10. Mas a verdade é que se elas não rodarem, não serão as VGAs DX9 que rodarão. Enquanto isso a nova arquitetura dá um passeio em qualquer jogo DX9 ou o que seja...