Conroe

Apesar de possuir um desempenho por ciclo de clock muito superior ao do Pentium 4 e do Pentium D, superando-os em muitas aplicações, o Yonah era um processador mobile e por isso era limitado a freqüências de operação relativamente baixas.

Surgiu então o Conroe, uma versão aperfeiçoada do Yonah, com foco no uso em desktops, que deu origem às primeiras versões do Core 2 Duo, lançadas em junho de 2006. Embora seja um chip radicalmente diferente, ele é produzido utilizando a mesma técnica de 0.065 micron utilizada na produção do Cedar Mill e do Presler e utiliza o mesmo encapsulamento que eles.

Outra similaridade com o Pentium D é o uso do mesmo barramento de dados, o que permitiu que o Conroe continuasse utilizando o soquete LGA775, introduzido em 2004.

Praticamente todas as placas soquete 775 produzidas a partir de 2006 oferecem suporte ao Conroe, embora muitas precisem de um upgrade de BIOS. O grande problema são as placas antigas, que incluem quase todas as placas produzidas em 2004 e 2005 e parte das placas produzidas nos primeiros meses de 2006.

O Core 2 Duo precisa de uma placa com um regulador de tensão compatível com a especificação VRM 11, que foi finalizada apenas em 2006. Sem um regulador de tensão compatível, a placa não tem como gerar as tensões utilizadas pelo processador e acaba sendo incompatível, mesmo que utilize um chipset compatível e um BIOS capaz de reconhecer corretamente o processador.

Todos os Core 2 Duo utilizam o soquete 775, sem nenhum tipo de compatibilidade com as antigas placas soquete 478, que ficam limitadas aos Pentium 4 e Celeron D.


Core 2 Duo

O Conroe não inclui nenhum tipo de controlador de memória integrado. Essa continua sendo uma exclusividade do Athlon 64 e sua principal arma, que permite reduzir de forma substancial o tempo de acesso à memória, ajudando assim a reduzir a pressão sobre os caches. O Athlon 64 também possui 128 KB de cache L1 (64k dados + 64k instruções), o dobro do Conroe, que possui apenas 64KB (dividido em dois blocos de 32 KB, para dados e instruções).


Foto de divulgação da Intel que mostra o encapsulamento do processador

Em compensação, o cache L1 do Conroe trabalha com 8 linhas de associação, contra apenas duas do Athlon 64. Isso torna o cache mais eficiente, aumentando a probabilidade da informação necessária ser encontrada. A segunda vantagem é o massivo cache L2, que além de maior, é acessado através de um barramento de dados de 256 bits, muito mais largo que o usado no Athlon 64 (que usa um barramento de 128 bits). Uma observação é que o Conroe voltou a utilizar um cache L1 tradicional, sem vestígios do “trace cache” usado no Pentium 4, que armazenava instruções decodificadas.

Até o core Manchester, a AMD utilizava um cache L2 com 12 tempos de latência, o que representava uma pequena vantagem em relação ao Conroe, que utiliza um cache L2 com 14 tempos. Apesar disso, a partir do core Brisbane, a AMD passou a também utilizar um cache L2 com 14 tempos, o que equilibrou a balança. Para efeito de comparação, o Prescott utilizava um cache L2 com absurdos 28 tempos de latência, muito mais lento que ambos.

A maioria das versões do Core 2 Duo utilizam bus de 1066 MHz (4x 266), o que ajuda a reduzir a latência do acesso à memória, reduzindo a vantagem do Athlon 64 neste quesito. Aparentemente, a Intel chegou à conclusão de que o novo cache, combinado com o uso de memórias DDR2 ou DDR3 de baixa latência tornam desnecessário o uso de um controlador de memória integrado.

Muitas das melhoras estruturais do Conroe em relação ao Pentium 4 e processadores anteriores da Intel já estavam disponíveis no Dothan e Yonah, mas vou abordá-las em conjunto para simplificar a abordagem.

Uma das melhoras mais significativas é o recurso batizado de Macro-fusion, que permite que diversos pares de instruções comuns sejam combinados em uma única instrução, em vez de serem processados separadamente. Isto causa um efeito cascata, economizando espaço nos buffers, economizando processamento no agendador de instruções (scheduler), e assim por diante, resultando num ganho bruto de até 11%.

O Conroe possui 3 decodificadores de instruções simples e mais um decodificador de instruções complexas, 4 no total. Graças ao Macro-fusion, uma grande quantidade de instruções são combinadas (um par em cada 10 instruções, segundo os engenheiros da Intel), permitindo que em quase metade dos ciclos sejam decodificadas 5 instruções. O Athlon 64 possui apenas 3 decodificadores, capazes de lidar tanto com instruções simples (as mais comuns), quanto com instruções complexas. Isso significa que, na maior parte do tempo, os 4 decodificadores do Conroe levam uma grande vantagem, mas em alguns aplicativos que utilizem predominantemente instruções complexas, o Athlon 64 se sai melhor.

O Conroe leva uma grande vantagem também ao processar instruções SSE de 128 bits, pois é capaz de processá-las diretamente, num total de 3 instruções completas por ciclo. O Athlon 64 também possui três unidades SSE, mas nele cada instrução SSE precisa ser dividida em duas instruções de 64 bits, que são processadas separadamente. Ou seja, na prática, o Athlon 64 processa apenas três instruções SSE a cada dois ciclos, ou seja, o equivalente a apenas uma instruções SSE e meia por ciclo.

Atualmente, os conjuntos SSE, SSE2 e SSE3 são utilizados na grande maioria dos games, programas de processamento de vídeo e assim por diante, onde as instruções SSE são usadas como substitutas mais rápidas para instruções x87, executadas através do coprocessador aritmético. Isso acentua a vantagem do Conroe em aplicativos muito otimizados para as instruções SSE, sobretudo programas de compressão de vídeo e áudio.

Só para efeito de comparação, o Pentium 4 possuía apenas duas unidades SSE, que, como as do Athlon 64, eram capazes de processar apenas meia instrução por ciclo. Ou seja, o Conroe possui três vezes mais processamento bruto em SSE que o Pentium 4, o que explica a enorme diferença entre os dois em alguns benchmarks.

Outro reforço são as unidades de ponto flutuante (que formam o coprocessador aritmético) capazes de processar 4 instruções de dupla precisão por ciclo, contra apenas 3 por ciclo do Athlon 64.

Em relação ao Presler, foi mantido também o suporte ao EM64T, que torna o Conroe compatível com os sistemas e aplicativos de 64 bits, desenvolvidos para o Athlon 64 (um pré-requisito para qualquer processador x86 atual) e também com o Intel VT.

Você deve se lembrar do pipeline de 31 estágios do Pentium 4 com core Prescott. Sempre que o processador chega a uma operação de tomada de decisão, ele precisa esperar a conclusão do processamento da primeira instrução (o que, no Prescott, demora 31 ciclos) para saber quais instruções deve processar em seguida. Para não ficar parado, o processador utiliza o circuito de branch prediction, que escolhe o caminho mais provável, permitindo que o processador vá “adiantando o trabalho”. O problema é que, sempre que é feita a escolha errada, todo o trabalho precisa ser descartado, causando uma grande perda de tempo.

O Conroe possui um pipeline de apenas 14 estágios e um circuito de branch prediction muito aprimorado em relação ao Pentium 4. Isso faz com que ele tome bem menos decisões erradas e perca muito menos tempo (menos da metade do número de ciclos) em cada um, gerando um grande aumento no número de instruções efetivamente processadas por ciclo de clock.

O mais interessante é que, apesar de possuir apenas 14 estágios e ser muito mais eficiente, o Conroe atingiu 2.96 GHz (no X6800) logo no lançamento, se aproximando das freqüências atingidas pelo Pentium 4 e superando por uma boa margem o clock dos Athlon X2.

Os Core 2 Duo também oferecem suporte ao SpeedStep (como nos Pentium-M), que ajuda a reduzir o consumo para níveis ainda menores, sem prejudicar de forma perceptível o desempenho. Com o SpeedStep ativado, o processador reduz a freqüência de operação e a tensão (diminuindo consideravelmente o consumo), mas volta ao clock máximo assim que é executada alguma tarefa pesada. No Extreme X6800, por exemplo, o processador trabalha nativamente a 2.93 GHz e usa 1.34v. No modo de economia, a freqüência cai para 1.6 GHz e a tensão para apenas 0.9v, resultando num consumo de apenas 25 watts, similar ao de um Pentium III 900.

Temos aqui uma foto do Conroe antes do encapsulamento do processador, divulgada pela Intel. Na verdade, as versões baseadas no core Conroe com 2 e 4 MB de cache são idênticas, porém as de 2 MB têm metade do cache desativado antes do encapsulamento, como nos Celeron:


Foto mostrando os componentes internos do Core 2 Duo baseado no Conroe

Outro recurso herdado do Yonah, e por enquanto exclusivo dos processadores Intel, é o “Advanced Smart Cache”, um sistema de cache unificado, onde os dois núcleos compartilham o mesmo bloco de cache L2, em vez de cada um possuir um cache separado, como no caso do Pentium D e do Athlon X2.

A principal vantagem desta abordagem é evitar a duplicação de informações quando ambos os núcleos estão trabalhando no mesmo bloco de instruções. Em vez de a informação ser carregada duas vezes na memória (uma vez para cada bloco de cache) e ser armazenada duas vezes, tudo é feito uma vez só, o que poupa tanto o barramento com a memória, quanto economiza espaço no cache, aumentando o número de informações efetivamente armazenadas. Outra vantagem é que, em momentos de baixa atividade, quando apenas um dos núcleos estiver ativo, ele pode “tomar conta” do cache, reservando a maior parte do espaço para si, de forma a trabalhar mais eficientemente.

Este slide da Intel ilustra como o sistema funciona:

Criar um cache unificado deve ter representado um grande desafio do ponto de vista técnico, já que com ambos os processadores acessando o cache simultaneamente, constantemente gravando e apagando informações, é muito difícil manter a coerência do cache, evitando que um modifique as informações armazenadas pelo outro. Os circuitos necessários para coordenar o acesso ao cache ocuparam um grande número de transístores do processador, mas uma vez que o problema foi resolvido, o Smart Cache realmente representa uma vantagem importante.

Assim como no caso do Pentium D e do Celeron D, os Core 2 Duo são vendidos sob um sistema de numeração que não tem relação direta com o desempenho do processador.

Os modelos lançados originalmente, em julho de 2006, incluem o E6300 (1.86 GHz, 2 MB, 1066 MHz), E6400 (2.13 GHz, 2 MB, 1066 MHz), E6600 (2.4 GHz, 4 MB, 1066 MHz) e E6700 (2.67 GHz, 4 MB, 1066 MHz).

Foi lançado também o Extreme X6800 (2.93 GHz, 4 MB, 1066 MHz), um descendente da série “Extreme Edition”, que além da freqüência um pouco maior, vem com o multiplicador destravado, facilitando o overclock. Apesar do marketing, ele é um processador produzido em volume limitado, que na época de lançamento custava US$ 999 (o dobro do E6700 e mais de 4 vezes mais que o E6400), o que o tornava um modelo “de vitrine”.

Durante maio e junho de 2006, a Intel distribuiu vários processadores e placas para review, porém sob um NDA que impedia a divulgação de detalhes sobre eles e benchmarks. Quando o NDA expirou, vários sites publicaram reviews ao mesmo tempo. Você encontra um conjunto exaustivo de benchmarks das versões iniciais do Core 2 Duo nos links a seguir:

http://techreport.com/reviews/2006q3/core2/index.x?pg=3
http://www.anandtech.com/cpuchipsets/showdoc.aspx?i=2795&p=3
http://www.xbitlabs.com/articles/cpu/display/core2duo-e6300_9.html
http://www.firingsquad.com/hardware/intel_core_2_performance/page4.asp
http://www.tomshardware.com/2006/07/14/core2_duo_knocks_out_athlon_64/page11.html

Como era de se esperar, o Athlon X2 continua levando vantagem no acesso à memória, tanto em latência quanto em taxas de transferência, graças ao controlador de memória integrado. Mas o enorme cache L2 do Conroe, combinado com as demais melhorias na arquitetura faz com que ele acabe levando a melhor em quase todos os benchmarks. O que chama mais a atenção é a consistência: ele apresenta um desempenho equilibrado em quase todas as tarefas, sem os altos e baixos do Pentium 4, que se saía muito bem em algumas tarefas e muito mal em outras.

O Athlon 64 FX-62 ainda consegue ser competitivo, em alguns dos testes, mas os Athlon X2 perdem quase sempre por uma boa margem, até porque, o Core 2 Duo trabalha a freqüências de clock maiores. Os Pentium D ficam na lanterna em quase todos os testes, com o 965 Extreme Edition perdendo para o Core 2 Extreme X6800 por uma margem de 40 a 60% em quase todos os testes e esboçando alguma reação apenas no Photoshop, Sysmark 2004, no Sandra e em alguns benchmarks envolvendo compressão de áudio e vídeo.

Em alguns testes, a desvantagem chega a ser maior: o Core 2 Duo Extreme X6800 chega a ser 100% mais rápido que o Pentium XE 965 no game Rise of The Legends. Naturalmente, o Extreme X6800 é muito caro para ser considerado na hora da compra, mas os Duo E6300 e E6400 apresentam um bom custo-benefício em relação aos Athlon X2, mesmo desconsiderando as possibilidades de overclock.

Ao contrário do que ocorria em alguns modelos do Celeron, onde dobrar a quantidade de cache causava um aumento de 10% ou mais no desempenho do processador, os 4 MB de cache incluídos no E6600 em diante são responsáveis por um aumento de apenas 2 a 4% no desempenho (por ciclo de clock) em relação às versões com 2 MB, um ganho incremental. Apenas alguns games chegam a exibir ganhos na casa dos 10%.

Embora mais cache seja sempre algo desejável, você deve levar em conta a diferença de preço na hora de comprar. Sempre que a diferença for grande, vale mais a pena comprar um modelo com 2 MB. Caso ache necessário, você pode compensar a diferença de desempenho fazendo um overclock leve.

Em abril de 2007 foram lançadas duas novas versões, o E6320 (1.86 GHz, 4 MB, 1066 MHz) e o E6420 (2.13 GHz, 4 MB, 1066 MHz). Estas novas versões são destinadas a substituir os antigos modelos E6300 e E6400, que possuem apenas 2 MB de cache. Com a substituição dos dois, toda a linha E6xxx passa a ter 4 MB de cache L2.

Em junho de 2007 foram lançadas 3 novas versões do Conroe, destinadas a placas com suporte a bus de 1333 MHz (4x 333 MHz). Todas possuem 4 MB de cache L2 e conservam os mesmos recursos básicos, mas existe um pequeno ganho de desempenho (inferior a 1% na maioria das aplicações) em relação a um Conroe com bus de 1066 MHz de mesmo clock.

Os 3 modelos são o Core 2 Duo E6550 (2.33 GHz, 4 MB, 1333 MHz), E6750 (2.67 GHz, 4 MB, 1333 MHz) e E6850 (3.0 GHz, 4 MB, 1333 MHz).

Sobre o Autor

Redes Sociais:

Deixe seu comentário

X