Clique aqui para ler a sexta parte da série
Com o sucesso da Plataforma Core, a Intel conseguiu recuperar grande parte do terreno perdido para a AMD na época do Pentium 4, voltando a oferecer uma linha de processadores competitivos. Entretanto, ainda restava um problema, que era o custo de produção relativamente alto dos processadores. Devido ao uso dos 4 MB de cache, o Conroe ocupa uma área de 143 mm², o que é problemático sobretudo no caso do Core 2 Quad, onde são usados dois processadores.
A solução foi apressar o desenvolvimento da técnica de 45 nm, introduzindo o Penryn, que deu origem à segunda geração da plataforma Core, substituindo diretamente os processadores anteriores.
Lançado no início de 2008, o Penryn é composto por nada menos do que 410 milhões de transistores. Apesar disso, ele ocupa uma área de apenas 107 mm², sensivelmente menor que o Conroe (que ocupa 143 mm²). Ele continua sendo um processador dual-core, onde cada núcleo possui 64 KB de cache L1 e ambos utilizam um grande cache L2 compartilhado.
A mudança mais visível é a adição de mais 2 MB de cache L2, totalizando 6 MB. Diferente do que fez no Prescott (que trouxe um cache maior porém mais lento), a Intel investiu também em melhorias para o cache, fazendo com que o desempenho do processador fosse um pouco superior também em aplicativos que privilegiam a velocidade de acesso ao cache em vez do tamanho.
O cache do Penryn trabalha com tempos de acesso mais baixos (12 ciclos contra os 13 ciclos do Conroe) e oferece 24 linhas de associação (contra as 16 do Conroe). O uso de mais linhas de associação tornam o cache mais eficiente, melhorando o hit-rate, ou seja, a percentagem de vezes em que os dados requisitados são encontrados no cache.
Outra melhoria foi o suporte ao SSE4.1, composto por 47 instruções adicionais. Com a popularização dos processadores dual-core e quad-core, um dos maiores desafios passou ser otimizar os softwares, de forma que eles passem a se beneficiar dos núcleos adicionais.
Um dos principais objetivos do SSE4.1 foi o de oferecer instruções que permitam utilizar todos os núcleos do processador de forma mais eficiente, complementando os conjuntos de instruções anteriores. Foram também incluídas novas instruções para acelerar algumas operações comuns, como a MPSADBW (que permite computar simultaneamente a diferença entre oito variáveis de 16 bits), que passou a ser muito usada por aplicativos de compressão de vídeo.
O Penryn inclui também algumas melhorias nas unidades de execução, com destaque para o processamento de instruções de divisão, usadas por diversos aplicativos gráficos e de renderização 3D e uma versão aperfeiçoada do Intel VT, que solucionou vários dos problemas de desempenho que limitavam o uso da versão anterior.
A nova versão do Intel VT trouxe um ganho considerável de desempenho no KVM e no Xen (em modo de virtualização completa) que dependem das instruções de virtualização oferecidas pelo processador, mas não fazem muita diferença no VMware ou no VirtualBox, que utilizam rotinas próprias.
Esta foto divulgada pela Intel dá uma amostra da organização dos componentes internos do Penryn. Veja que os dois blocos referentes ao cache L2 ocupam mais da metade da área total do processador:
Penryn
Com relação à compatibilidade, a transição do Conroe para o Penryn foi bem mais tranquila que a anterior. O Penryn continua usando o soquete 775 e a grande maioria das placas que oferecem suporte ao Core 2 Duo oferecem suporte às tensões utilizadas por ele, demandando apenas um upgrade de BIOS para reconhecer corretamente o processador. Isso permitiu que muitas placas relativamente antigas fossem usadas em conjunto com os Pentium E e Celeron de 45 nm (baseados no Penryn), atendendo ao mercado de baixo custo.
Na questão do consumo elétrico, a principal novidade foi a introdução do “Deep Power Down Technology” um novo estágio de baixo consumo (batizado de C6), que permite que o processador consuma consideravelmente menos energia enquanto ocioso. Este recurso acabou sendo usado apenas nas versões mobile, mas ainda assim é interessante entender como ele funciona.
Ao entrar no modo C6, o sinal de clock é desligado, a tensão é reduzida drasticamente e os caches L1 e L2 são desligados. Neste modo, o chipset continua oferecendo acesso à memória para os demais periféricos do sistema, permitindo que diversas funções continuem acessíveis, sem que o processador precise ser acordado.
O maior problema é que o processador demora um tempo relativamente longo para retornar do estado C6, já que perde todos os dados armazenados nos caches, de forma que ele é reservado para situações em que o processador fique ocioso por longos períodos. Na maior parte do tempo ele chaveia entre os modos atuais de gerenciamento, onde o tempo de recuperação é menor.
Um recurso interessante do ponto de vista técnico é o EDAT (Enhanced Dynamic Acceleration Technology), destinado a melhorar o desempenho do processador em aplicativos single-thread, que que não são capazes de se beneficiar do segundo núcleo.
Ao perceber que o segundo núcleo está ocioso, o sistema é capaz de desligá-lo e aproveitar a redução na dissipação térmica para fazer um overclock temporário do núcleo ativo (de 2.6 para 2.8 GHz, por exemplo), permitindo assim um pequeno ganho de desempenho. O sistema pode então escolher entre manter os dois núcleos ativos ou manter apenas um deles operando a um clock ligeiramente mais alto, de acordo com a tarefa.
Assim como o C6, o EDAT acabou sendo usado apenas nas versões do Penryn destinadas a notebooks, sem dar as caras nas versões regulares para desktops. Entretanto, ele acabou dando origem ao Turbo Boost, incorporado ao Core i7, que segue o mesmo princípio.
No geral, as melhorias introduzidas no Penryn tiveram bastante sucesso em reduzir o consumo do processador, evitando que a transição para os 45 nm resultasse em um gate leakage ainda maior que no processo anterior. Entretanto, elas não tiveram muito impacto sobre o desempenho por clock.
Mesmo com mais cache, um Penryn consegue ser em média apenas de 2 a 3% mais rápido que um Conroe do mesmo clock, oferecendo ganhos mais significativos (na casa dos 4 a 8%) apenas em renderização 3D, conversão de mídia e em alguns jogos. O uso das instruções SSE 4.1 pode oferecer ganhos significativos, mas poucos plicativos são capazes de usá-las eficientemente.
Graças à nova técnica de fabricação, o Penryn oferece também margens de overclock um pouco maiores. Nas versões dual-core, é relativamente fácil manter o processador a 3.5 GHz com um pequeno aumento na tensão, desde que a temperatura seja mantida sob controle. Com uma boa placa-mãe, um grande aumento na tensão e a desativação do EIST, é possível atingir os 4.0 GHz, mas nesse caso o processador se torna gastador demais.
Deixe seu comentário