Core Duo 2 e a morte do Pentium 4

Por:
Core Duo 2 e a morte do Pentium 4

O mercado de processadores é bastante competitivo. Atualmente temos a predominância da Intel e AMD, com uma pequena participação da Via, mas diversas outras empresas, incluindo a IBM, Texas, Transmeta, Cyrix (que foi comprada pela Via) e IDT já tentaram a sorte, sem tanto sucesso. Aqui temos um 486 produzido pela IBM e o Crusoe da Transmeta:

gdh1
gdh2
Fabricar processadores é muito mais complexo e arriscado do que fazer placas mãe ou telas de LCD, por exemplo, pois os projetos são muito mais complexos e o investimento inicial absurdamente maior. Leva-se pelo menos 5 anos para projetar um novo processador e uma nova fábrica, com tecnologia de ponta, pode custar entre 2 e 4 bilhões de dólares.

Mesmo para uma grande empresa, como a Intel, um erro estratégico pode custar muito caro. Investir em uma plataforma ineficiente pode gerar um atraso de vários anos, até que o projeto de um novo processador, mais competitivo, seja concluído e seja possível produzi-lo em quantidade.

Com o lançamento do Pentium 4, em 2001, a Intel fez um movimento arriscado, investindo em um processador com um longo pipeline (a primeira versão do Pentium 4 trabalhava com 20 estágios, contra 10 do Pentium III e 11 das primeiras versões do Athlon). Em qualquer processador atual, as instruções são processadas em etapas, como numa linha de produção. Dobrar o número de estágios no processador é como dobrar o número de funcionários, fazendo com que cada um faça metade do trabalho e a esteira corra duas vezes mais rápido.

O plano era simples: Com mais estágios, o processador seria capaz de atingir freqüências mais altas. Para manter as unidades de execução abastecidas, o processador contaria com um cache L1 muito rápido, que armazenada instruções pré-decodificadas, um grande cache L2 e utilizaria um tipo mais rápido de memória RAM, as famosas memórias Rambus.

Entretanto, este design possuía inconsistências óbvias e recebeu críticas desde o lançamento, por parte de praticamente todos os sites especializados.

Adicionar mais estágios tornou o processador menos eficiente, pois as instruções precisam do dobro do número de ciclos para serem processadas, fazendo com que o processador perca muito tempo em operações de tomada de decisão, onde o processador depende do resultado de uma instrução para processar a próxima.

Possuir o dobro de estágios significa também possuir o dobro de transistores e consumir o dobro da eletricidade. Se isso vem acompanhado de um aumento no clock, chegamos a um processador ineficiente, que consome muito mais energia e gera muito mais calor.

Por armazenar instruções decodificadas, o cache L1 do Pentium 4 também se tornou menos eficiente, já que instruções decodificadas ocupam mais espaço. Enquanto o Athlon possuía 64 KB (metade) do cache L1 reservado para armazenar instruções, o cache do Pentium 4 armazenava o equivalente a apenas 8 KB. Isso tornava o processador mais dependente do cache L2 (que devia ser obrigatoriamente maior, para que o processador mantivesse um bom nível de desempenho) e do barramento com a memória RAM, que deveria ser capaz de alimentar os caches.

O Pentium 4 original (core Willamette) possuía apenas 256 KB de cache L2, por isso era consideravelmente mais lento que um Athlon, ou mesmo um Pentium III do mesmo clock. O core Northwood, lançado em seguida, trouxe 512 KB de cache e o Prescott (lançado em 2004) trouxe 1 MB completo.

gdh3
O cache L2 é um ítem extremamente caro, pois cada bit de cache adiciona cerca de 6 transístores ao processador. Um cache L2 de 1 MB ocupa pelo menos 60 milhões de transístores, o que é quase o dobro do número de transistores do Athlon Palomino (que possuída 37.5 milhões). Mais transistores tornam o processador proporcionalmente mais caro de se produzir, o que aumenta o preço de venda.

Para completar, existiu o problema das memórias Rambus, um tipo proprietário de memória, que trabalhava a freqüências superiores, porém com tempos de latência mais altos. O Pentium 4 utilizaria apenas memórias Rambus, obrigando os fabricantes de memória a aderirem à nova tecnologia. A Rambus Inc. receberia royalties dos fabricantes e a Intel ficaria com parte do bolo, na forma de incentivos e descontos.

Felizmente não foi o que aconteceu. As memórias Rambus foram um dos maiores fracassos da história. Na época do lançamento do Pentium 4, um módulo de 64 MB custava US$ 99, enquanto um módulo de memória PC-133 da mesma capacidade custava apenas US$ 45. Isto significava gastar US$ 216 (ao comprar 256 MB) a mais, só de memória, sem contar a diferença de preço do processador Pentium 4 e da placa-mãe, que na época ainda eram consideravelmente mais caros.

Pouca gente comprou as versões iniciais do Pentium 4 e quem se arriscou, acabou com um abacaxi nas mãos. Isto obrigou a Intel a modificar a plataforma, passando a utilizar memórias DDR padrão. Esta demora gerou um vácuo, que permitiu que a AMD aumentasse consideravelmente sua participação no mercado, já que contava com o Athlon Thunderbird, um processador mais barato e mais eficiente.

Com o Pentium 4 Northwood, a Intel voltou a ser competitiva, chegando rapidamente aos 3.4 GHz. Foi introduzido também o Hyper Treading, que visa melhorar a eficiência do processador, dividindo-o em dois processadores lógicos. O plano da Intel, de compensar a baixa eficiência do Pentium 4 com freqüências de clock maiores parecia estar dando certo. Na época o roadmap da Intel mostrava processadores Pentium 4 com core Prescott atingindo 5.2 GHz no final de 2004 e planos para o core “Tejas”, que alcançaria os 10 GHz no final de 2005.

Porém, nada disso aconteceu. Os 3.4 GHz se tornaram uma barreira difícil de transpor. A partir daí, a Intel conseguiu apenas pequenos incrementos de clock, atingindo a muito custo os 3.8 GHz com o Prescott, que além de ser produzido numa técnica de 0.09 micron, teve o pipeline esticado para um total de 31 estágios (o que soou mais como um ato de desespero para tentar, sem muito sucesso, atingir freqüências mais altas, do que uma evolução técnica). Acima de 3.8 GHz, o gate leakage, ou seja, a eletricidade perdida pelos transistores do processador a cada ciclo, tornava o consumo e dissipação térmica altos demais.

Embora seja possível superar a barreira dos 4.0 GHz com o Prescott, via overclock, o resultado é um processador beberrão demais. É como se cada transistor do processador fosse um minúsculo cano, por onde passa água. Quanto menores os transistores, mais finos são os canos e quanto maior o clock, mais forte é a pressão da água.

Os transistores são compostos por filamentos muito finos, o que causa uma pequena perda de energia, chamada de “gate leakage”. É como se os canos do exemplo possuíssem pequenos furos por onde vaza uma pequena quantidade de água. Conforme o clock aumenta, a pressão se torna mais forte e cada vez mais água vaza pelos canos, gerando um desperdício cada vez maior. No caso do processador, toda a energia desperdiçada se transforma em calor, o que traz a necessidade de um cooler mais eficiente, gerando um ciclo vicioso. A partir dos 4 GHz (no caso do Pentium 4), é necessário um grande aumento no consumo e dissipação térmica, para conseguir um pequeno aumento na freqüência.

A Intel chegou a demonstrar uma versão do Prescott refrigerada com nitrogênio líquido, que trabalhava a 6.0 GHz, porém consumia mais de 300 watts. A equipe do akiba-pc foi capaz de reproduzir o feito (a página original não está mais no ar), também usando nitrogênio liquido, porém sem estabilidade e por um curto espaço de tempo:

gdh4
O pequeno aumento no clock proporcionado pelo core Prescott serviu mais para encobrir a perda de desempenho causada pelo novo aumento no número de estágios do pipeline do que para realmente aumentar o desempenho, transformando o Prescott num dos maiores fiascos da história da Intel. Uma versão atualizada do Prescott, com 2 MB de cache foi lançada no início de 2005, dando um último fôlego à plataforma, porém, novamente sem aumento no clock.

O Cedar Mill, lançado no início de 2006 mais uma vez mostrou a dificuldade em produzir processadores Pentium 4 com clock mais alto. Mesmo produzido numa técnica de 0.065 micron, o Cedar Mill não foi capaz de superar a barreira dos 3.8 GHz. Ao invés disso, a Intel optou por produzir processadores dual core (baseados no core Presler), chegando ao Pentium Extreme Edition 965, que opera a 3.73GHz. Em resumo: em dois anos, a Intel conseguiu apenas ganhos incrementais de desempenho na plataforma Pentium 4. Caminhou bastante, porém para o lado e não para a frente.

Naturalmente, a AMD não ficou parada. Depois do Athlon Palomino e Thoroughbred (quase idêntico ao Palomino, porém produzido numa técnica de 0.13 micron), a AMD lançou o Barton, que trouxe pequenas melhorias de projeto e 512 KB de cache L2. Além de ser usado nas versões mais rápidas do Athlon XP, o core Barton foi utilizado nos Semprons 2400+ a 3000+, os últimos processadores lançados para o saudoso soquete A.

A partir daí, temos os Athlon 64, Athlon X2 e Semprons 64 para as placas soquete 754, 939 e AM2, que temos atualmente no mercado. Pela primeira vez na história, a AMD tomou a dianteira, produzindo processadores mais rápidos que a Intel e fazendo seu padrão de instruções de 64 bits (o AMD64 ou X86-64) prevalecer, obrigando a Intel a desenvolver o EM64T, um conjunto compatível de instruções, incluído no Pentium 4 Prescott, sem muito alarde.

De fato, a participação da AMD no mercado só não cresceu mais neste período devido à sua incapacidade de produzir seus processadores em maior volume. Assim como é demorado desenvolver um novo projeto, é caro e demorado inaugurar novas fábricas.

gdh5
Mesmo assim, a Intel sofreu grandes perdas, chegando a anunciar a demissão de 1000 executivos, com o objetivo de cortar custos (http://www.dailytech.com/article.aspx?newsid=3313), enquanto a AMD passou a trabalhar com margens mais confortáveis de lucro, aproveitando a grande procura por seus processadores. Pela primeira vez na história, a Intel foi obrigada a vender processadores mais barato que a concorrente.

Enquanto isso tudo acontecia, um pequeno grupo de engenheiros sediados em Israel trabalhava numa versão aprimorada do antigo Pentium III, um processador com menos estágios e menos transístores, incapaz de atingir freqüências de operação muito altas, porém oferecendo um desempenho por clock muito superior ao do Pentium 4.

Este novo processador seria destinado unicamente a notebooks, mas ele acabou roubando a cena e decretando a morte do primo mais velho. Neste ponto, todas as críticas à arquitetura do Pentium 4 começaram a soar como um uníssono “eu avisei…”.

A primeira encarnação do novo processador foi o core Banias (lançado em 2003), que chegou ao mercado na forma da primeira versão do Pentium-M. Muitos defendem que que o Banias recebeu tantas melhorias em relação ao Pentium III, que pode ser considerado um novo projeto ao invés de uma evolução deste. Como, neste caso, os critérios são subjetivos, você pode aderir a qualquer uma das duas linhas, como preferir.

O Banias foi fabricado numa técnica de produção de 0.13 micron, com 64 KB de cache L1 e 1 MB de cache L2 em versões de até 1.6 GHz. O barramento com o chipset (o principal ponto fraco do Pentium III) foi substituído pelo mesmo barramento de 400 MHz utilizado do Pentium 4. O Banias recebeu ainda o reforço das instruções SSE2 e uma versão aprimorada do SpeedStep, que gerencia dinamicamente o clock, tensão e componentes do processador, desativando os componentes que não estão em uso e reduzindo a freqüência nos momentos de pouca atividade, reduzindo bastante o consumo do processador. Um Banias de 1.6 GHz consome 24 watts ao operar na freqüência máxima, mas consome pouco mais de 4 watts quando ocioso, operando na freqüência mínima.

Junto com o Banias veio a marca “Centrino“, uma jogada de marketing da Intel, para vender o pacote completo com o processador, chipset e placa wireless. Apenas os notebooks com os três componentes podem usar a marca “Centrino”, criando uma certa pressão sobre os fabricantes.

gdh6
O Banias mostrou ser um processador promissor. Mesmo com o agressivo sistema de gerenciamento de energia (que causa uma pequena diminuição no desempenho, mesmo quando o processador está trabalhando em sua freqüência máxima), o Banias era cerca de 50% mais rápido que um Pentium 4 Northwood do mesmo clock. Nestes benchmarks, publicados pelo Anandtech, o Banias de 1.6 GHz chega a bater um Northwood de 2.66 GHz:
http://www.anandtech.com/showdoc.aspx?i=1800&p=14

Sobre o Autor

Redes Sociais:

Deixe seu comentário

X