Embora estas informações estejam sujeitas a mudanças de percurso, atrasos e outros imprevistos, elas permitem que você possa planejar melhor os upgrades e ter uma idéia mais clara dos caminhos que serão seguidos pela indústria. Nesta primeira parte do artigo, falarei sobre os processadores Intel, deixando os AMD para a segunda parte.
Penryn
O Penryn é o sucessor direto do Conroe, cujo lançamento está previsto para o início de 2008. Ele será o primeiro processador Intel produzido usando a nova técnica de 45 nanometros (0.045 micron), que está em desenvolvimento desde 2001.
Ele ele deve ser visto como uma evolução do Conroe e não como um novo processador. Imagine que o Penryn está para o Conroe assim como o Pentium 4 Northwood (0.13 micron) está para os antigos Willamette, produzidos usando a antiga técnica de 0.18 micron.
O Penryn é composto por nada menos do que 410 milhões de transistores. Apesar disso, ele ocupa uma área de apenas 107 mm², sensivelmente menor que o Conroe (que ocupa 143 mm²). Ele continua sendo um processador dual-core, onde cada núcleo possui 64 KB de cache L1 e utilizam um grande cache L2 compartilhado. A mudança mais visível é a adição de mais 2 MB de cache L2, totalizando 6 MB (agora com 24 linhas de associação), mas ele inclui também outras melhorias.
A primeira é a adição de mais um conjunto de instruções, o SSE4. Com a popularização dos processadores dual-core e quad-core, um dos maiores desafios passou ser otimizar os softwares, de forma que eles passem a se beneficiar dos núcleos adicionais. Um dos principais objetivos do SSE4 é oferecer instruções que permitam utilizar todos os núcleos do processador de forma mais eficiente, complementando os conjuntos de instruções anteriores.
Assim como o Conroe, o Penryn não conta com um controlador de memória integrado, por isso a Intel recorreu a um novo aumento na frequência do FSB para arejar o barramento com a memória. Além das versões com bus de 1066 MHz e 1333 MHz, serão lançadas versões com bus de 1600 MHz (4x 400 MHz), já suportado extra-oficialmente por muitas placas soquete 775. Inicialmente, o bus de 1600 MHz será utilizado por uma versão do Xeon baseada no Penryn, mas a partir de um certo ponto ele será utilizado também nas versões desktop.
Por manter o uso do soquete 775, ele será, a princípio compartível com as placas atuais, mas ainda não está claro até que ponto. Vale lembrar que toda a safra inicial de placas soquete 775 são incompatíveis com os processadores Core 2 Duo devido a deficiências no regulador de tensão.
Na questão do consumo elétrico, a principal novidade é a introdução do “Deep Power Down Technology” um novo estágio de baixo consumo (batizado de C6), que permite que o processador consuma consideravelmente energia enquanto ocioso. Este recurso estará disponível apenas para as versões mobile, mas ainda assim é interessante entender como ele funciona.
Ao entrar no modo C6, o sinal de clock é desligado, a tensão é reduzida drasticamente e os caches L1 e L2 são desligados. Neste modo, o chipset continua oferecendo acesso à memória para os demais periféricos do sistema, permitindo que diversas funções continuem funcionando sem que o processador precise ser acordado. O maior problema é que o processador demora um tempo relativamente longo para retornar do estado C6, já que perde todos os dados armazenados nos caches, de forma que ele é reservado para situações onde o processador fique ocioso por longos períodos. Na maior parte do tempo ele chaveia entre os modos atuais de gerenciamento, onde o tempo de recuperação é menor.
O Penryn inclui também algumas melhorias nas unidades de execução, com destaque para o processamento de instruções de divisão, usadas por diversos aplicativos gráficos e de renderização 3D e uma versão aperfeiçoada do Intel VT, que promete oferecer (finalmente) ganhos tangíveis de desempenho no VMware e outros softwares de virtualização.
Um recurso interessante do ponto de vista técnico é o EDAT (Enhanced Dynamic Acceleration Technology), que permite melhorar o desempenho do processador em aplicativos que não são capazes de se beneficiar do segundo núcleo. A idéia é bastante original: desligar o segundo núcleo (que de qualquer forma não seria utilizado pelo programa) e aproveitar a redução na dissipação térmica para fazer um overclock temporário do núcleo ativo, permitindo assim um ganho real de desempenho. O sistema pode então escolher entre manter os dois núcleos ativos a “100%” da capacidade, ou manter apenas um, trabalhando a “120%” da capacidade, de acordo com o aplicativo em uso. Inicialmente o EDAT será usado apenas nas versões mobile do Penryn, mas é de se esperar que ele seja incorporado em alguma revisão futura do Penryn para desktops caso se mostre realmente útil.
Esta foto divulgada pela Intel dá uma amostra da organização dos componentes internos do processador. Somados, os caches L2 e L1 ocupam mais de 60% da área do processador:
Embora o Penryn seja um processador dual-core, dois chips podem ser combinados para formar processadores quad-core, assim como o Kentsfield, que contarão com generosos 12 MB de cache L2. A versão “simples”, com dois núcleos é chamada de Wolfdale, enquanto a versão quad-core (dual-chip) responde pelo codenome Yorkfield.
Por outro lado, é improvável que o Penryn receba uma versão single-core, como o Conroe-L, pois o chip já é relativamente pequeno. Segundo todas as informações divulgadas até agora, é quase certo que a produção dos Celerons single-core, baseados no Conroe-L continue ao longo de 2008 e a partir de um certo ponto a linha seja descontinuada, dando origem a versões de baixo custo do Core 2 Duo baseado no Penryn, com clock mais baixo e parte do cache L2 desativado. Se as promessas se concretizarem, em 2009 a Intel terá abandonado a produção de processadores single-core para desktops e notebooks, passando apenas a produzir processadores dual-core e quad-core.
Uma observação importante é que, embora o lançamento do Penryn esteja planejado para o início de 2008, ele levará vários meses para se popularizar, como toda nova arquitetura. Inicialmente a Intel produzirá o novo processador em quantidades limitadas e a partir daí irá aumentar a produção gradualmente, conforme for capaz de refinar a técnica de produção de 45 nanometros.
Embora não esteja diretamente relacionado ao Penryn, este slide da Intel mostra esta questão da produção usando novos processos de fabricação:
As primeiras levas de waffers produzidas em cada nova técnica de produção são basicamente imprestáveis. O índice de defeitos é tão alto que praticamente nenhum processador é utilizável. No caso da Intel, estes primeiros waffers são usados para produzir células de memória SRAM, que por serem cópias da mesma estrutura básica, são mais fáceis de produzir.
Ao longo dos primeiros meses, o maquinário vai sendo calibrado, impurezas são removidas e problemas de produção são resolvidos, fazendo com que o índice de defeitos caia rapidamente, embora ainda permaneça em níveis muito altos. A partir de um certo ponto, é possível produzir alguns processadores utilizáveis, que são usados em sistemas de demonstração, fornecidos para review e assim por diante. Mas, é geralmente só depois de um ano e meio que torna-se viável iniciar a produção em larga escala. O volume de produção vai então crescendo gradualmente, conforme os últimos problemas são resolvidos, fazendo com que os processadores produzidos na nova técnica de fabricação convivam com os da antiga por um período relativamente longo.
Dois recursos bastante enfatizados pela Intel na transição para o processo de 45 nanometros são o “high-k dielectric” e o “metal gate electrode”, abreviados como HK e MG.
O high-k dielectric consiste no uso de uma fina camada de um material baseado no elemento Háfnio (número 72 da tabela periódica) que possui uma constante dielétrica superior (high-k) ao do dióxido de silício, tradicionalmente utilizado na camada inferior do polo central (gate) de cada transístor. Esta camada é chamada de gate dieletric e tem a função de separar o emissor e o coletor, os dois pólos do transistor, evitando que a corrente flua enquanto o transistor está desligado. Conforme o transistor fica menor, esta camada fica mais fina, e torna-se menos eficiente, fazendo com que cada vez mais energia seja desperdiçada. O uso do high-k dielectric reduz o problema, permitindo que o processador opere a frequências mais altas, consumindo menos energia.
O metal gate electrode consiste em substituir o gate electrode, a camada superior do polo central do transistor (que vai logo acima do gate dieletric) por uma fina camada metálica, que melhora a condutividade do gate quando o transistor está aberto. Isto reduz a necessidade de energia necessária para mudar o estado do transistor, permite que ele chaveie de forma mais rápida (o que permite que o processador seja capaz de operar a frequências mais elevadas) e permite que trabalhe utilizando uma tensão mais baixa, o que também ajuda a reduzir o consumo elétrico.
Se pudéssemos cortar uma fatia muito fia do waffer de silício do processador e isolar a área referente a um único transistor, você veria uma estrutura similar a este diagrama, onde o emissor (positivo) e o coletor (negativo) do transistor são separados pelo gate, onde temos as duas camadas:
A combinação dos dois recursos é chamada pela Intel de “HK+MG” e serve para basicamente melhorar a eficiência geral dos transístores, permitindo que menos corrente passe quando o transístor está fechado e mais corrente passe quando ele está aberto.
Estima-se que a transição para o processo de 45 manômetros gere uma redução de até 30% na energia necessária para mudar o estágio dos transistores e que a combinação do high-k dielectric e o metal gate electrode torne o chaveamento dos transistores até 20% mais rápido, além de uma redução de até 80% no gate-leakage (o desperdício de energia que cresce exponencialmente conforme aumenta a frequência de operação do processador), o que representa uma boa vantagem competitiva para Intel.
Nehalem
O Nehalem representa a próxima arquitetura Intel, ainda produzida usando a técnica de 45 nanômetros, mas com diversas mudanças arquiteturais em relação ao Penryn. Ainda se sabe relativamente pouco sobre ele, de forma que vou me limitar a comentar as informações que já estão mais ou menos confirmadas. Enquanto escrevo, o projeto ainda não está sequer finalizado e é tratado como segredo de estado dentro da Intel. Se não houverem atrasos, as primeiras unidades do Nehalem devem chegar ao mercado no final de 2008, mas não espere que ele se popularize antes da segunda metade de 2009.
Ao contrário do Yorkfield, produzido pela combinação de dois Penryns, com dois núcleos cada um, o Nehalem será um processador quad-core nativo. Ele adotará dois recursos que até então eram exclusividade dos processadores AMD: um controlador de memória integrado (DDR3) e um barramento rápido (similar ao HyperTransport) para interligar os núcleos do processador e também ligá-lo ao chipset.
Um detalhe importante sobre o controlador de memória é que além do tradicional suporte a dual-channel, estão em desenvolvimento também versões “tri-channel” e “quad-channel”, com acesso simultâneo a até 4 módulos simultaneamente, alargando o barramento com a memória de forma a melhor atender os 4 núcleos. As quad-channel estarão inicialmente restritas aos servidores, mas pode ser que a Intel utilize o sistema em alguma série destinada a entusiastas (como os Core 2 Extreme). A questão é que usar 4 módulos de memória é muito custoso e o ganho de desempenho em relação a utilizar apenas dois tende a ser pequeno, de forma que não devemos ver o recurso se popularizar nos PCs domésticos em um futuro próximo.
Assim como o Conroe e o Penryn, o Nehalem utilizará um sistema de cache compartilhado, onde todos os núcleos possuem um cache comum. Ainda não está claro se será mantida a arquitetura atual, onde cada núcleo possui um cache L1 próprio e o cache L2 é compartilhado, ou se será adotado um cache de 3 níveis, onde cada núcleo possui um pequeno cache L2 próprio e um grande cache L3 é compartilhado por todos.
Ao contrário do deselegante Kentsfield, onde todos os núcleos operam sempre à mesma frequência e usando a mesma tensão, o Nehalem oferecerá um sistema de gerenciamento independente, onde cada núcleo pode operar a uma frequência condizente com seu nível de utilização. Dentro deste conceito, a idéia do cache de três níveis, onde cada núcleo possui caches L1 e L2 exclusivos me parece fazer mais sentido, pois permite que os núcleos não utilizados, ou mesmo o próprio cache L3 (que consumiria boa parte da energia do processador) sejam completamente desligados, sem prejuízo para o desempenho dos núcleos que continuarem ativos.
Podemos esperar uma configuração similar à do Athlon X2, onde temos um único controlador de memória, compartilhado entre todos os núcleos e uma interface de gerenciamento encarregada de distribuir a carga entre eles e monitorar o nível de carregamento de cada um.
Buscando melhorar o aproveitamento dos 4 núcleos e maximizar o desempenho do processador nos momentos de inatividade, onde apenas um ou dois deles estiverem ativos, o Nehalem utilizará uma versão aperfeiçoada do Hyper-Threading, usado no Pentium 4.
O Nehalem utilizará uma arquitetura mais modular, o que facilitará o desenvolvimento de versões com mais ou menos núcleos. Além da versão com 4 núcleos, existirão versões com 2 núcleos e 8 núcleos, embora ainda não esteja claro se a versão com 8 núcleos será um design octo-core “nativo”, ou se será a combinação de dois processadores quad-core dentro do mesmo encapsulamento.
Além da questão do gerenciamento de energia, a arquitetura escalável do Nehalem permitirá o lançamento de versões mais simples, com apenas 1 ou 2 núcleos, que podem ser usadas nas linhas de processadores de baixo custo. É de se esperar que, caso realmente lançada, a versão com apenas 1 núcleo não seja destinada a desktop, mas sim a sistemas móveis como os UMPCs e MIDs. Como de praxe, serão lançadas versões com configurações variadas de cache, de acordo com o preço e público alvo, como atualmente.
A Intel divulgou também planos para produzir versões do Nehalem com aceleradores gráficos integrados, de forma similar ao Fusion da AMD. O principal problema é que, ao contrário da AMD (que agora possui a ATI), a Intel não possui sequer um acelerador gráfico competitivo. A Intel poderia desenvolver uma versão um pouco mais rápida do GMA3500 (o vídeo onboard utilizado no chipset G53) e integrá-la ao processador ao invés de no chipset, mas isso não seria uma grande evolução, já que o desempenho do vídeo integrado continuaria sendo baixo.
No final de 2009 ou (mais provavelmente) início de 2010 está previsto o lançamento do Westmere (também chamado de Nehalem-C), uma versão aprimorada do Nehalem, produzido usando a atécnica de 32 nanômetros que sucederá a de 45 nanômetros usada no Penryn. Ele será sucedido pelo Sandy Bridge (anteriormente chamado Gesher), uma nova arquitetura, sobre a qual pouco se sabe além de vagos anúncios que dão a entender que ele possuirá 8 núcleos nativamente, onde cada núcleo possuirá cache L1 e L2 próprios e todos compartilharão um grande cache L3 (o que reforça a tese do uso do design de 3 níveis no Nehalem) e de que ele será capaz de operar a 4.0 GHz ou mais.
Esta última informação merece uma análise mais cuidadosa, pois 4 GHz não está muito acima dos processadores atuais. Como as versões iniciais do Penryn operação na faixa dos 3.2 GHz, a meta de 4 GHz para o Sandy Bridge (que está duas gerações à frente) mostra que a própria Intel não acredita mais em grandes aumentos na frequência de operação das próximas famílias de processadores e está por isso investindo no desenvolvimento de projetos com 4 e 8 núcleos, além do desenvolvimento de novos conjuntos de instruções (como o SSE4), novos compiladores e outras ferramentas que facilitem o desenvolvimento de softwares capazes de extrair ganhos reais de desempenho dos novos processadores.
Uma coisa que é clara é que softwares não otimizados, que incluem a grande maioria dos que utilizamos hoje em dia, não rodarão muito mais rápido em um Nehalem ou Sandy Bridge do que rodam atualmente em um Core 2 Duo overclocado para 3.0 GHz ou mais. Será necessária toda uma safra de novos softwares para que o potencial de designs com 8 cores, como o Sandy Bridge possam mostrar seu potencial.
Com o Sandy Bridge, já estamos em 2011. A partir deste ponto as informações oficiais acabam e passamos a depender apenas de especulações. Duas tendências que poderia antecipar com uma razoável margem de certeza são a introdução de uma técnica de fabricação de 22 nanômetros (0.022 micron) em algum ponto entre 2011 e 2013 e a introdução de chips “modulares”, construídos a partir da combinação de um grande número de processadores x86, derivados da arquitetura do Nehalem e chips especializados em funções específicas, como processamento de vetores, unidades de processamento 3D (que complementarão, ou substituirão as placas 3D dedicadas) e assim por diante.
Uma amostra deste “admirável mundo novo” foi a demonstração de um chip com 80 núcleos dada pela Intel em fevereiro de 2007, desenvolvido com o objetivo de oferecer 1 teraflop de poder de processamento. Cada um dos 80 núcleos é um chip relativamente simples, otimizado para processar instruções de ponto flutuante. Cada chip possui um “roteador” que o interliga aos vizinhos. Esta estrutura permite que as instruções sejam distribuídas entre os núcleos de forma bastante similar ao que acontece dentro de um cluster com várias máquinas. A principal diferença é que tudo é feito dentro de um único chip.
Este slide exibido durante o Spring Intel Developer Forum de 2007 demonstra o conceito:
O chip de 80 núcleos é apenas um sistema de demonstração, que nunca virá a se tornar um produto. Embora o poder de processamento seja respeitável, a aplicação dele seria muito limitada, já que ele é capaz de processar apenas instruções de ponto flutuante. Futuros chips combinariam diversos tipos de unidades especializadas, formando um chip capaz de executar todo tipo de instruções.
O principal problema é que estes chips exigirão profundas modificações nos softwares, o que vai sem dúvidas retardar sua popularização. Não é difícil de imaginar que eles serão introduzidos inicialmente como o chips especializados, destinados a grandes servidores, para só depois de mais alguns anos descerem a pirâmide, chegando até os desktops.
Deixe seu comentário