A história do Pentium 4

O Pentium 4 foi lançado em novembro de 2000, trazendo uma arquitetura completamente redesenhada, baseada na idéia do uso de um longo pipeline para permitir que o processador fosse capaz de atingir freqüências de clock elevadas e no uso de um cache L1 muito rápido e um barramento de dados capaz de realizar 4 transferências por ciclo para mantê-lo alimentado com o volume necessário de dados e instruções.

Ele representa a sétima geração de processadores Intel. A primeira foram os processadores 8086 e 8088, lançados no final da década de 70, que foram seguidos pelos processadores 286, 386 e 486 que bem conhecemos. A quinta geração é representada pelos processadores Pentium e Pentium MMX, enquanto a sexta (também chamada de arquitetura P6) é representada pelos processadores Pentium II e Pentium III (incluindo também o Pentium Pro).

Por diversos motivos o Pentium 4 acabou se revelando um beco sem saída. Devido à enorme dissipação térmica dos processadores, a Intel não foi capaz de lançar versões com clock acima de 3.8 GHz (a versão de 4.0 GHz, que acabou sendo cancelada no último momento), e operando a freqüências baixas o Pentium 4 perdia facilmente para os processadores AMD. Só em 2006 a Intel conseguiu dar a volta por cima, com o lançamento do Core 2 Duo.

O Willamette foi a versão inicial do Pentium 4, produzido usando uma técnica de 0.18 micron (a mesma usada na fabricação dos processadores Pentium III com cache integrado), com apenas 256 KB de cache L2. Ele existiu em versões de 1.3 a 2.0 GHz, com o TDP de 48.9 watts (para o de 1.3) a 73.5 watts (para o 2.0).

O TDP (Thermal Design Power) indica, em processadores Intel, o consumo médio do processador ao executar aplicativos pesados. O consumo real pode superar o TDP ao rodar benchmarks e aplicativos específicos, mas na maior parte do tempo o consumo fica dentro da faixa especificada.

Na época, o consumo elétrico não era considerado uma especificação importante. Se o processador era beberrão demais, você simplesmente gastava um pouco mais, comprando um cooler adequado. Entretanto, com o lançamento de versões mais rápidas do Pentium 4, o TDP chegou aos 130 watts, o que chamou a atenção do público. A partir de um certo ponto, os fabricantes passaram a falar em “eficiência”, dando ênfase não apenas ao clock e ao desempenho geral do processador, mas também ao seu consumo elétrico.

Basta fazer as contas. Se você mantém o micro ligado durante 12 horas por dia, um processador que consuma 130 watts (como o Pentium D 830) lhe custa (apenas em eletricidade) cerca de 20 reais mensais a mais do que um que consuma apenas 30 watts. Calculando que você também gastaria mais com o cooler e que o próprio PC consumiria mais energia devido à necessidade de exaustores adicionais, a diferença total acabaria sendo ainda maior. Ou seja, um processador ineficiente que te custa R$ 400 na hora da compra, poderia lhe custar mais 500 ou 600 reais (incluindo apenas o aumento na conta de luz) ao longo de 2 anos de uso.

Voltando ao tema inicial, um ponto interessante sobre as primeiras versões do Pentium 4 é que o único chipset disponível durante quase um ano, o i850 da própria Intel, suportava apenas memórias Rambus, o que obrigava qualquer interessado em adquirir um Pentium 4 a comprar também módulos de memória RIMM. Este tipo de memória era inicialmente absurdamente caro, tanto que a Intel passou a subsidiar parte do custo das memórias, dando um desconto nos processadores vendidos a integradores e dando “de brinde” dois pentes de memórias Rambus de 64 MB cada nos processadores in-a-box, destinados ao consumidor final.

As vendas do Pentium 4 só deslancharam com o lançamento do chipset i845, que oferecia suporte a módulos de memória SDRAM convencionais.

Devido ao alto custo inicial (incluindo a questão das memórias) o Willamette acabou vendendo poucas unidades e foi rapidamente substituído pelo Northwood, lançado 11 meses depois, em outubro de 2001. Na mesma época, as placas soquete 423 (que oferecem suporte apenas ao Pentium 4 Willamette) foram rapidamente substituídas pelas placas soquete 478, que continuam em uso até 2005/2006, sendo lentamente substituídas pelas placas soquete 775.

O Northwood é a segunda geração do Pentium 4, produzido em uma técnica de 0.13 micron. Ele não inclui mudanças na arquitetura, mas a redução no tamanho físico dos transístores permitiu que fossem adicionados mais 256 KB de cache L2, totalizando 512 KB.

Como o Pentium 4 foi originalmente projetado para trabalhar em conjunto com pentes de memória Rambus, que (apesar dos maiores tempos de latência) oferecem taxas de transferência de dados muito elevadas, o desempenho do Willamette era prejudicado de forma significativa ao utilizar memórias SDRAM. O aumento no cache e a popularização das placas com suporte a memórias DDR melhoraram de forma significativa o desempenho do processador, fazendo com que (respeitadas as diferenças no clock) ele passasse a competir em pé de igualdade com o Athlon Thunderbird da AMD.

O Northwood foi produzido em versões de 1.6 a 3.06 GHz, englobando tanto modelos com bus de 400 MHz quanto modelos utilizando bus de 533. A série com bus de 400 MHz inclui os modelos de 2.0, 2.2, 2.4, 2.6, 2.8 e 3.0 GHz, enquanto a série com bus de 533 MHz inclui modelos de 2.26, 2.40, 2.53, 2.66, 2.8 e 3.06 GHz

Mais tarde foi lançada uma série com suporte a Hyper-Threading (vendida sob a marca “Pentium 4 HT”), que incluiu modelos com de 2.4 a 3.4 GHz. Com exceção do modelo de 3.06 GHz, todos utilizam bus de 800 MHz.

O Prescott representa a terceira geração do Pentium 4, produzido a partir de 2004, utilizando uma técnica de fabricação de 0.09 micron. A mudança arquitetural mais significativa foi a adição de 11 novos estágios ao já longo pipeline do Northwood. Com isso, o Prescott atingiu a impressionante marca de 31 estágios de pipeline, um número sem precedentes entre os processadores x86.

Em um processador atual, o uso de um pipeline mais longo não é exatamente uma boa notícia, muito pelo contrário. Como vimos, aumentar o número de pipelines do processador permite que cada estágio execute um volume menor de processamento. Com isso, o processador passa a ser capaz de operar a freqüências mais altas, mas, em compensação, as instruções demoram um número maior de ciclos de clock para serem processadas (já que precisam percorrer todo o pipeline), o que aumenta brutalmente o tempo perdido em operações de tomada de decisão, onde o processador precisa aguardar o resultado de uma operação para poder processar a seguinte.

Se as alterações parassem por aí, o Prescott seria capaz de operar a freqüências mais elevadas, mas em troca seria brutalmente mais lento que um Northwood do mesmo clock. Para evitar essa sombria perspectiva, a Intel realizou um conjunto de melhorias na arquitetura, de forma a anular, ou pelo menos reduzir a perda.

A primeira melhoria foi feita no circuito de branch prediction, responsável por “prever” o resultado de operações de tomada de decisão e assim permitir que o processador adiante o processamento das instruções seguintes enquanto a instrução inicial é processada. O Prescott é especialmente dependente do desempenho do circuito de branch prediction, pois cada instrução precisa percorrer um longo caminho ao longo dos 31 estágios do pipeline. Sem ele, o projeto do Prescott seria inviável, pois o processador perderia muito tempo em operações de tomada de decisão.

Em um processador atual, o circuito de branch prediction é capaz de indicar o caminho correto em mais de 95% das operações. Tal precisão é possível, porque ele se baseia em um histórico de operações já realizadas. Sempre que é preciso “adivinhar” o caminho mais provável de uma operação, ele pesquisa pelo resultado de operações semelhantes anteriormente realizadas. A maioria dos programas realiza um grande número de operações repetitivas (sobretudo aplicativos pouco otimizados, ou escritos em linguagens de alto nível), o que permite que o circuito de branch prediction execute seu trabalho com grande precisão.

O grande problema é que, sempre que ele erra, o processador precisa descartar todo o trabalho adiantado e começar de novo a partir do ponto inicial. Neste caso, são perdidos não apenas os 31 ciclos que a instrução inicial demora para percorrer o pipeline, mas também os ciclos necessários para remover os dados anteriores e carregar os registradores com as novas instruções a processar.

Quanto mais longo é o pipeline, maior é a penalidade a cada erro, o que coloca o Pescott em uma situação complicada, já que as operações de tomada de decisão representam até 14% das operações realizadas por um aplicativo típico.

Para reduzir a perda, o circuito de branch prediction do Prescott foi sensivelmente aprimorado, e passou a ser capaz de trabalhar com um índice de acerto maior que o do Northwood. O scheduler (o circuito que ordena as instruções, de forma que as unidades de execução possam processar o número máximo de instruções a cada ciclo) também foi melhorado, resultando em outro pequeno ganho.

O Prescott ganhou também um novo bloco de instruções, o conjunto SSE3. Ele é composto por 13 novas instruções, que complementam os dois conjuntos anteriores, dando sua cota de contribuição em aplicativos otimizados.

Finalmente, temos as mudanças no cache. O bloco de dados do cache L1 foi aumentado de 8 para 16 KB e o bloco de instruções (o trace-cache) recebeu pequenas melhorias, embora a capacidade tenha permanecido a mesma. O cache L2 dobrou de tamanho, saltando de 512 KB para 1 MB, mas o aumento teve como efeito colateral o aumento dos tempos de latência, que aumentaram em aproximadamente 40%. Em outras palavras, o Prescott tem um cache L2 maior, porém mais lento, o que anula grande parte do benefício.

O core Smithfield é uma versão dual-core do Prescott (1 MB de cache para cada core), produzido em uma técnica de 0.09 micron. Ele foi utilizado nas primeiras versões do Pentium D (abrangendo modelos de 2.66 a 3.2 GHz) e também no Pentium Extreme Edition 840. Estes processadores foram produzidos em quantidades limitadas e foram rapidamente substituídos pelos Pentium D baseados no core Presler.

O Cedar Mill é uma versão atualizada do Prescott 2M, produzida utilizando uma técnica de 0.065 micron (65 nanômetros). Ele mantêm os 2 MB de cache e não inclui mudanças na arquitetura, nem para melhor, nem para pior. O desempenho dos processadores baseados no core Cedar Mill é rigorosamente o mesmo dos Prescott 2M da mesma freqüência. A única vantagem é que a dissipação térmica do Cedar Mill é um pouco mais baixa, e ele é capaz de atingir freqüências de clock um pouco maiores (embora a diferença seja pequena) quando em overclock.

De um modo geral, é possível atingir até 4.2 GHz fazendo overclock em um processador baseado no Core Prescott, enquanto os baseados no Cedar Mill atingem até 4.5 GHz (em ambos os casos sem muita estabilidade). A freqüência máxima não varia muito de acordo com o clock original do processador, você precisa apenas ajustar a freqüência do FSB de acordo com o multiplicador, já que ele é travado, tanto no Prescott, quanto no Cedar Mill.

Foram lançadas apenas 4 versões do Cedar Mill, operando a 3.0, 3.2, 3.4 e 3.6 GHz, todas em versão LGA775 e utilizando bus de 800 MHz. Embora o Cedar Mill fosse capaz de facilmente superar a marca dos 4.0 GHz, em overclock, a Intel decidiu não lançar processadores acima dos 3.6 GHz, dando prioridade para o lançamento de versões de baixo consumo.

O Cedar Mill deu origem também ao Cedar Mill-512, a versão mais competitiva do Celeron lançada até então, que contava com 512 KB de cache e era fabricado usando uma técnica de 0.065 micron. Eles existiram em versão de 3.06 a 3.6 GHz (todas utilizando bus de 533 MHz) e se tornaram muito baratos depois do lançamento do Core 2 Duo, oferecendo uma boa relação custo-benefício.

Utilizando um bom cooler, é possível superar facilmente a faixa dos 4.0 GHz em overclock. Uma configuração muito comum é overclocar o Celeron D 347 (a versão de 3.06 GHz) para 3.83 GHz, aumentando a freqüência do FSB para 800 MHz.

O Presler, por sua vez, era uma versão dual-chip do Cedar Mill, onde dois chips eram instalados dentro do mesmo encapsulamento. Como os dois chips eram separados por uma distância de 5 mm, a dissipação de calor era um pouco mais eficiente do que no Smithfield. Além disso, graças à utilização de núcleos separados, o índice de aproveitamento da Intel era melhor, já que os dois processadores podiam ser testados separadamente. No caso do Smithfield, caso um dos dois cores apresentasse defeito, ambos precisavam ser descartados.

Externamente, um Pentium D baseado no core Presler não é diferente de um Prescott, Cedar Mill ou Smithfield soquete 775, com o mesmo formato e o mesmo dissipador metálico protegendo o processador. Mas, ao remover o dissipador, você pode ver os dois cores separados:

O Presler foi lançado em versões de 2.8 a 3.6 GHz, todas com 2 x 2 MB de cache L2 e utilizando bus de 800 MHz. Além de representar a maior parte dos Pentium D vendidos, ele foi utilizado também em duas versões do Pentium Extreme Edition, operando a 3.46 e 3.73 GHz.

Por ser um processador dual-chip, o Presler não era capaz de atingir freqüências tão altas quanto o Cedar Mill quando em overclock. Mesmo nos modelos de fabricação mais recente, é muito difícil superar a marca dos 3.9 GHz.

Devido à concorrência da AMD, a Intel passou a ajustar o preço de seus processadores dual-core de forma bastante agressiva. A diferença de preço entre um Pentium D e um Pentium 4 da série 6xx (baseado no Cedar Mill) não era grande, de forma que, em 2006, você podia comprar um Pentium D de 2.8 GHz por aproximadamente o mesmo que pagaria por um Pentium 4 631, a versão single-core de 3.0 GHz.

» Leia mais: A história do Pentium 4

Ver Mais

Esta postagem foi modificada pela última vez em 23/03/2011 14:28

Postagem relacionada