Definição de NetBurst

Por Carlos E. Morimoto. Há 2007-08-07 [OnlyText].

A arquitetura NetBurst foi utilizada pela Intel de 2000 a 2006, englobando desde os primeiros modelos do Pentium 4 atÃ© o Pentium D, passando por diversas variaÃ§Ãµes, como os Pentium Extreme Edition e os Celerons.

O nome "NetBurst" nÃ£o tem nada a ver com o desempenho em redes ou na internet; Ã© apenas um nome mercadolÃ³gico usado para tentar ilustrar a arquitetura do processador e suas otimizaÃ§Ãµes com relaÃ§Ã£o ao processamento de grandes volumes de dados. Sempre que ouvir falar em um processador "baseado na arquitetura NetBurst", tenha em mente que se trata de alguma derivaÃ§Ã£o do Pentium 4, como um Pentium D ou Celeron.

A arquitetura NetBurst Ã© composta por 4 pontos principais: Hyper Pipelined Technology, Rapid Execution Engine, Execution Trace Cache e o uso do bus quad-pumped. Vamos aos detalhes de cada uma das 4 tecnologias:

- Hyper Pipelined Technology:

O pipeline Ã© um recurso que divide o processador em vÃ¡rios estÃ¡gios, que trabalham simultaneamente, dividido o trabalho de processar as instruÃ§Ãµes. Ã‰ como uma linha de produÃ§Ã£o com vÃ¡rios operÃ¡rios, em que cada um monta uma peÃ§a, atÃ© termos no final o produto completo.

O circuito de branch prediction, permite que o processador use o tempo ocioso para ir "adiantando o trabalho", processando um dos caminhos possÃveis em uma operaÃ§Ã£o de tomada de decisÃ£o enquanto nÃ£o sabe o resultado da operaÃ§Ã£o que diz qual dos caminhos Ã© o carreto,

O nÃvel de exatidÃ£o do circuito de branch prediction varia muito de acordo com o processador. No Pentium ele era bastante simples, escolhendo qual caminho seguir praticamente de forma aleatÃ³ria, enquanto nos processadores atuais ele decide consultando uma tabela com resultados anteriores de operaÃ§Ãµes similares.

Quando o processador escolhe o caminho certo, ele ganha tempo, jÃ¡ que pode aproveitar o trabalho jÃ¡ feito. Mas, quando erra, ele precisa descartar todo o trabalho e recomeÃ§ar a partir do outro caminho.

O Pentium III possui um total de 10 estÃ¡gios, alÃ©m de um conjunto de outros circuitos (fora do pipeline) que sÃ£o encarregados de converter e ordenar as instruÃ§Ãµes. Ao contrÃ¡rio do Pentium, que Ã© um processador CISC, que processa todas as instruÃ§Ãµes x86 diretamente, o Pentium III e todos os demais processadores atuais, sÃ£o processadores hÃbridos CISC/RISC, que quebram as instruÃ§Ãµes x86 em instruÃ§Ãµes simples, que sÃ£o entÃ£o processadas.

GraÃ§as Ã inclusÃ£o de todos os demais circuitos, uso do cache integrado e melhorias nas placas-mÃ£e, o aumento no nÃºmero de estÃ¡gios de pipeline do Pentium III nÃ£o teve um impacto muito negativo sobre o desempenho. Pelo contrÃ¡rio, um Pentium III Ã© pelo menos duas vezes mais rÃ¡pido que um Pentium I do mesmo clock. O Pentium II, por sua vez, Ã© muito similar ao Pentium III em arquitetura, carecendo apenas do cache L2 on-die e das instruÃ§Ãµes SSE.

Com mais estÃ¡gios, cada um responde por uma fraÃ§Ã£o menor do processamento, o que permite que o processador seja capaz de operar a freqÃ¼Ãªncias mais elevadas. Voltando ao exemplo da linha de produÃ§Ã£o, seria como se dobrÃ¡ssemos o nÃºmero de operÃ¡rios e cada um passasse a encaixar apenas uma peÃ§a em cada produto que passa atravÃ©s da esteira, em vez de duas. Reduzindo o trabalho de cada operÃ¡rio pela metade, seria possÃvel mover a esteira ao dobro da velocidade, dobrando a produÃ§Ã£o.

O grande problema Ã© que os processadores atuais executam vÃ¡rias instruÃ§Ãµes simultaneamente, enquanto os programas sÃ£o uma seqÃ¼Ãªncia de instruÃ§Ãµes, de forma que sempre existe uma penalidade em adicionar mais estÃ¡gios. Quanto mais estÃ¡gios, mais tempo o processador demora para executar as instruÃ§Ãµes iniciais de tomada de decisÃ£o e mais tempo perde ao escolher o caminho errado.

Ainda no exemplo da linha de produÃ§Ã£o seria como se o produto a ser montado mudasse constantemente, de acordo com os pedidos recebidos dos clientes. Cada vez que o produto muda, Ã© preciso parar a esteira, desmontar as unidades do produto anterior que jÃ¡ estavam parcialmente montadas e limpar a esteira, para sÃ³ entÃ£o poder recomeÃ§ar a produÃ§Ã£o.

No Pentium 4, a cada tomada de decisÃ£o errada sÃ£o perdidos pelo menos 20 ciclos de processamento, uma eternidade considerando que em mÃ©dia, 14% das instruÃ§Ãµes processadas sÃ£o de tomada de decisÃ£o.

Com exceÃ§Ã£o do Pentium 4, quase todos os processadores atuais utilizam de 8 a 14 estÃ¡gios de pipeline, que parece ser a faixa com a melhor relaÃ§Ã£o entre clock, complexidade e desempenho. Acima disto, mais pipelines equivalem a um desempenho por ciclo de clock cada vez maior.

A partir de um certo ponto, aumentar o nÃºmero de estÃ¡gios torna-se contra produtivo, jÃ¡ que o processador precisa operar a freqÃ¼Ãªncias de clock cada vez mais altas para compensar a perda de desempenho causada pelo maior nÃºmero de estÃ¡gios. Um bom exemplo disto Ã© o Pentium 4 com core Prescott (que veremos a seguir), que precisou incorporar um conjunto de vÃ¡rias melhorias apenas para compensar a perda de desempenho causada pelo novo aumento no nÃºmero de estÃ¡gios.

AlÃ©m de ser mais lento que um Athlon Thunderbird da mesma freqÃ¼Ãªncia, o Willamette Ã© tambÃ©m substancialmente mais lento que um Pentium III do mesmo clock em praticamente todos os aplicativos. Todas as demais alteraÃ§Ãµes feitas pela Intel, explicadas a seguir servem como paliativos para tentar diminuir a perda de desempenho trazida pelo maior nÃºmero de estÃ¡gios de pipeline.

Foi justamente devido a isto que a Intel optou por lanÃ§ar diretamente os modelos de 1.4 e 1.5 GHz do Pentium 4, pulando as versÃµes de 1.1 e 1.2, que seriam o caminho mais Ã³bvio jÃ¡ que o Pentium III ficou estacionado na versÃ£o de 1 GHz. Caso fosse lanÃ§ado, um Pentium 4 de 1.1 GHz perderia para um Pentium III de 1 GHz, o que nÃ£o seria uma boa propaganda.

AlÃ©m da perda de desempenho, outro efeito colateral de se usar mais estÃ¡gios de pipeline Ã© o fato de tornar o processador maior e mais complexo e fatalmente bem mais caro de se produzir. O Pentium 4 de 0.18 micron mede 217 milÃmetros quadrados, quase o dobro do Athlon Thunderbird, que mede 120 mmÂ². Isso significa que o Pentium 4 Ã© proporcionalmente mais caro de se produzir.

- Execution trace cache:

O Pentium III possui 32 KB de cache L1, dividido em dois blocos, onde 16 KB sÃ£o para o armazenamento de dados e os demais 16 KB para o armazenamento de instruÃ§Ãµes. O Athlon utiliza um cache L1 de 128, novamente dividido em dois blocos separados, que armazenam dados e instruÃ§Ãµes.

No Pentium 4, o bloco do cache L1 destinado a instruÃ§Ãµes foi substituÃdo pelo Execution trace cache, um tipo de cache ultra-rÃ¡pido que, em vez de instruÃ§Ãµes, armazena diretamente uOPs, que sÃ£o as instruÃ§Ãµes jÃ¡ decodificadas, prontas para serem processadas. Isto garante que o cache tenha apenas um ciclo de latÃªncia (a instruÃ§Ã£o Ã© solicitada em um ciclo e recebida no seguinte), o que faz com que o processador nÃ£o perca praticamente tempo algum ao utilizar dados armazenados no trace cache, ao contrÃ¡rio do que acontecia no Pentium III, onde sÃ£o perdidos pelo menos dois ciclos em cada leitura, o tempo necessÃ¡rio para decodificar a instruÃ§Ã£o.

Se vocÃª estÃ¡ em dÃºvida sobre o que Ã© um "uOP", e como eles sÃ£o produzidos e processados, aqui vai uma explicaÃ§Ã£o resumida:

Apesar dos processadores para micros PC continuarem usando o conjunto x86 de instruÃ§Ãµes, que Ã© composto por 184 instruÃ§Ãµes, internamente eles sÃ£o capazes de processar apenas instruÃ§Ãµes simples de soma e atribuiÃ§Ã£o. Existe entÃ£o um circuito decodificador, que converte as instruÃ§Ãµes complexas usadas pelos programas nas instruÃ§Ãµes simples entendidas pelo processador. Uma instruÃ§Ã£o complexa pode ser quebrada em vÃ¡rias instruÃ§Ãµes simples. No Pentium 4, cada instruÃ§Ã£o simples Ã© chamada de uOP. No Athlon cada conjunto de duas instruÃ§Ãµes recebe o nome de macro-ops.

O trace cache ocupa uma Ã¡rea muito grande do die do processador, equivalente ao que seria ocupado por aproximadamente 96 KB de cache L1 convencional. Apesar disso, ele armazena o equivalente a apenas 8 KB de instruÃ§Ãµes decodificadas, jÃ¡ que elas ocupam brutalmente mais espaÃ§o. Ou seja, por um lado o trace cache melhora o desempenho do processador, jÃ¡ que Ã© muito rÃ¡pido, mas por outro diminui (em relaÃ§Ã£o ao que seria obtido ao utilizar um cache convencional de maior capacidade), pois o pequeno volume de dados armazenados faz com que ele precise recorrer mais freqÃ¼entemente aos dados armazenados no cache L2 e na memÃ³ria principal.

O trace cache Ã© complementado por um cache de dados de baixa latÃªncia, consideravelmente mais rÃ¡pido que o cache L1 encontrado no Pentium III e no Athlon. O problema Ã© que, para atingir o desempenho desejado, as cÃ©lulas do cache se tornaram extremamente volumosas, de forma que a Intel optou por incluir apenas 8 KB.

Ou seja, na prÃ¡tica, o Pentium 4 possui apenas 16 KB de cache L1: 8 KB para dados e mais o equivalente a 8 KB para instruÃ§Ãµes, armazenadas de forma decodificada no trace cache. Por algum motivo, os projetistas da Intel decidiram que essa configuraÃ§Ã£o seria a melhor em termos de desempenho.

- Bus de 400 MHz:

O execution trace cache oferece tempos de latÃªncia muito baixos, mas em troca armazena um volume muito pequeno de dados e instruÃ§Ãµes. Devido a isso, o processador Ã© muito mais dependente do desempenho do cache L2 e do acesso Ã memÃ³ria.

O plano inicial era utilizar mÃ³dulos de memÃ³ria Rambus em dual-channel. Cada mÃ³dulo RIMM oferecia (no caso dos mÃ³dulos PC-800) um barramento de dados de 1.6 GB/s, de forma que combinando a banda oferecida por dois mÃ³dulos, seria possÃvel obter 3.2 GB/s, o que Ã© 3 vezes o oferecido pelos mÃ³dulos de memÃ³ria PC-133 utilizados pelo Pentium III.

Para absorver esse grande volume de dados, o Pentium 4 utiliza um barramento quad-pumped, ou seja, capaz de realizar 4 transferÃªncias por ciclo. Operando a 100 MHz, temos uma taxa efetiva de 400 MHz, que Ã© a freqÃ¼Ãªncia utilizada nas primeiras placas soquete 423.

Com a evoluÃ§Ã£o da plataforma, a Intel foi capaz de desenvolver chipsets capazes a operar a 133, 200 e 266 MHz, que, com as 4 transferÃªncias por ciclo, equivalem a, respectivamente, 533, 800 e 1066 MHz. Embora o Willamette tenha ficado restrito aos 400 MHz originais, as freqÃ¼Ãªncias mais altas foram utilizadas pelos processadores lanÃ§ados posteriormente.

Embora o Pentium 4 fosse consideravelmente mais lento quando usado em conjunto com memÃ³rias SDRAM, as memÃ³rias DDR reduziram a perda de forma expressiva. A partir de um certo ponto cada vez mais placas passaram a suportar o uso de memÃ³rias DDR em dual-channel, configuraÃ§Ã£o que supera as memÃ³rias Rambus em desempenho, jÃ¡ que, alÃ©m da maior taxa de transferÃªncia, oferece tempos de latÃªncia mais baixos.

Embora na prÃ¡tica nÃ£o exista muita diferenÃ§a, um barramento de 1066 MHz "reais" Ã© diferente, do ponto de vista tÃ©cnico, de um que opera a 266 MHz realizando 4 transferÃªncias por ciclo. No caso do barramento do Pentium 4 existe ainda um agravante, que Ã© o fato dos endereÃ§os e instruÃ§Ãµes serem enviados apenas duas vezes por ciclo, metade da freqÃ¼Ãªncia da transferÃªncia de dados.

Apesar disso, como as transferÃªncias de dados sÃ£o muito mais numerosas que a transmissÃ£o de endereÃ§os, a "inexatidÃ£o tÃ©cnica" do barramento de 1066 MHz da Intel acaba passando desapercebida. ;)

- Rapid Execution Engine:

Todo processador atual Ã© dividido em dois componentes bÃ¡sicos, as unidades de execuÃ§Ã£o de inteiros e as unidades de ponto flutuante (FPU). A parte que processa as instruÃ§Ãµes envolvendo nÃºmeros inteiros Ã© responsÃ¡vel pela maior parte das instruÃ§Ãµes e pelo desempenho do processador nos aplicativos do dia-a-dia, enquanto as unidades de ponto flutuante sÃ£o as responsÃ¡veis pelo processamento das instruÃ§Ãµes envolvendo valores complexos, usadas por jogos e aplicativos grÃ¡ficos.

O "Rapid Execution Engine" do Pentium 4 consiste num reforÃ§o nas unidades de inteiros do processador. O Pentium 4 possui um total de 3 unidades de processamento de inteiros, duas ALUs, que processam as instruÃ§Ãµes mais simples e uma terceira ALU, encarregada de decodificar e processar as instruÃ§Ãµes complexas que, embora em menor quantidade, sÃ£o as que tomam mais tempo do processador.

Esse conjunto de 3 unidades de execuÃ§Ã£o de inteiros Ã© semelhante ao do Pentium III, porÃ©m, como diferencial, no Pentium 4 tanto as duas ALUs encarregadas das instruÃ§Ãµes simples quanto as duas GLUs encarregadas das leituras e gravaÃ§Ãµes executam duas instruÃ§Ãµes por ciclo, de forma que, em um Willamette de 2.0 GHz, elas atingem uma freqÃ¼Ãªncia efetiva de nada menos que 4.0 GHz.

Este Ã© um recurso que na teoria parece maravilhoso, mas existe um pequeno detalhe que elimina boa parte do ganho que seria de se esperar deste esquema. Apesar das duas ALUs de instruÃ§Ãµes simples terem ficado mais rÃ¡pidas, visando justamente compensar a perda de desempenho trazida pelos 20 estÃ¡gios de pipeline do Pentium 4, a ALU de instruÃ§Ãµes complexas nÃ£o teve a mesma evoluÃ§Ã£o. Isto significa que ao passar a usar 20 estÃ¡gios de pipeline, a terceira ALU tornou-se mais lenta que a do Pentium III.

Temos entÃ£o um cenÃ¡rio onde as instruÃ§Ãµes simples sÃ£o rapidamente processadas, mas as instruÃ§Ãµes complexas ficam entaladas na vala comum da terceira ALU, causando uma grande perda de desempenho.

No coprocessador aritmÃ©tico o cenÃ¡rio Ã© ainda mais complicado, pois apesar das unidades de execuÃ§Ã£o terem perdido desempenho devido ao pipeline de 20 estÃ¡gios, nÃ£o houve nenhum avanÃ§o para equilibrar a balanÃ§a, como tivemos nas unidades de inteiros. Pelo contrÃ¡rio, o coprocessador aritmÃ©tico encolheu, pois foram podadas duas das unidades de execuÃ§Ã£o, uma das que processava instruÃ§Ãµes MMX e uma das que processava instruÃ§Ãµes SSE.

Ao invÃ©s de evoluir, como seria de se esperar, o coprocessador aritmÃ©tico do Pentium 4 tornou-se ainda mais frÃ¡gil do que o do Pentium III, trazendo um cenÃ¡rio no mÃnimo curioso. Enquanto na Ã©poca do Pentium II e do K6 a AMD competia com um processador que, apesar de possuir um bom desempenho em aplicativos de escritÃ³rio, era literalmente massacrado nos jogos e aplicativos grÃ¡ficos, tivemos com o Pentium 4 x Athlon um cenÃ¡rio semelhante, porÃ©m com os lados invertidos: a Intel atacava com um processador potente em inteiros, mas fraco em ponto flutuante.

Ironicamente, a soluÃ§Ã£o da Intel para tentar diminuir a deficiÃªncia do processador em ponto flutuante foi a mesma que a AMD usou na Ã©poca do K6-2. Lembra-se do 3D-Now, as instruÃ§Ãµes incorporadas ao K6-2, que melhoravam seu desempenho nos jogos otimizados? A Intel optou por seguir exatamente o mesmo caminho, incorporando 144 novas instruÃ§Ãµes ao Pentium 4, chamadas de SSE2 que visam melhorar seu desempenho em jogos e aplicativos grÃ¡ficos.

Veja também