Modelos do Nehalem/Core i7 e os próximos lançamentos da Intel

Modelos do Nehalem/Core i7 e os próximos lançamentos da Intel

Um dos motivos por trás das mudanças arquiteturais do Nehalem é o mercado de servidores. A arquitetura do Core 2 Duo e derivados é derivada do Banias, que foi desenvolvido como um chip de baixo consumo para portáteis. Eles oferecem uma relação desempenho/consumo muito boa e são competitivos em relação aos processadores da AMD, mas o legado mobile pesa em algumas situações, sobretudo com relação à virtualização e desempenho em banco de dados, dois nichos importantes dentro da área dos servidores, nos quais a AMD ainda permanecia forte em relação ao Penryn.

Com o Nehalem, a Intel trabalhou em eliminar estes gargalos de desempenho, criando uma arquitetura que pode ser beneficiada por aumentos nos caches e outras melhorias que serão introduzidas com a migração para a arquitetura de 32 nanômetros em 2010.

i7_html_m54b976ee

Os primeiros processadores baseados no Nehalem receberam o codenome Bloomfield. Inicialmente, ele deu origem a apenas três processadores, o i7-920, i7-940 e o i7-965 XE, que foram seguidos pelo i7-950 e o i7-975 XE:

Core i7-975 XE: 3.33 GHz, 8 MB, DDR3-1333, TDP de 130W, multiplicador destravado
Core i7-965 XE: 3.20GHz, 8MB, DDR3-1333, TDP de 130W, multiplicador destravado
Core i7-950: 3.06 GHz, 8 MB, DDR3-1066, TDP de 130W
Core i7-940: 2.93GHz, 8MB, DDR3-1066, TDP de 130W
Corei 7-920: 2.66GHz, 8MB, DDR3-1066, TDP de 130W

Como pode ver, os três processadores oferecem basicamente as mesmas características, mudando apenas o clock, que por sinal continua estacionado na casa dos 3 GHz, marca que foi atingida na época do Pentium 4. Isso acontece devido à simples questão da dissipação térmica. Seria possível fabricar processadores com clock muito maior com tecnologia atual, mas o consumo e a dissipação térmica seriam inviáveis, como ficou bem claro no final da era Pentium 4.

Um bom exemplo disso é a decisão da Intel em utilizar transístores CMOS estáticos no Nehalem, em vez de empregar circuitos domino logic, como em todos os processadores anteriores (até o Penryn). Em resumo, o domino logic permite obter circuitos capazes de operar a frequências muito mais altas, mas que em troca consomem mais energia, enquanto o CMOS resulta em circuitos de baixo consumo.

Esta mudança não trás nenhum benefício do ponto de vista do desempenho (pelo contrário, ela limita um pouco as frequências suportadas, atrapalhando quem pretende fazer overclocks mais agressivos) mas ela é positiva do ponto de vista da eficiência, permitindo que o processador opere dentro da marca dos 130 watts de TDP mesmo quando em full-load.

Em outras palavras, a Intel optou por se concentrar em otimizar a arquitetura e em reduzir o consumo dos processadores, em vez de simplesmente tentar ganhar na base da força bruta, aumentando o clock.

Como em outros processadores da Intel, o TDP das especificações indica apenas o consumo máximo dos processadores, servindo como uma referência para os fabricantes de coolers, fontes e placas-mãe, por isso acaba não sendo muito significativo. Em situações normais de uso, os recursos de gerenciamento de energia entram em ação, mantendo o consumo em níveis bem mais baixos.

Outra observação importante é com relação à frequência da memória. A Intel foi bastante conservadora ao adotar o DDR3-1066 como padrão nos modelos fora da série XE, muito embora a maioria dos módulos no mercado suportem frequências muito maiores.

Isso tem um motivo: a preocupação em popularizar rapidamente os módulos DDR3, abrindo assim o caminho para o crescimento da plataforma. A popularização de qualquer nova tecnologia passa pelo crescimento da produção e a queda do custo e módulos DDR3-1066 são muito mais simples e baratos de se produzir do que módulos mais rápidos.

Outro motivo por trás da decisão tem a ver com as tensões. Quase todos os módulos capazes de operar a 2 GHz ou mais utilizam tensões acima de 2 volts, muito acima da tensão nominal dos módulos DDR3 que é de apenas 1.5V. Assim como no caso dos processadores, aumentar a tensão da memória permite que os módulos sejam capazes de operar a frequências um pouco mais altas, mas trás como desvantagens o aumento no consumo elétrico e uma redução substancial na vida útil dos módulos.

A corrida em torno de módulos DDR3 mais rápidos, destinados ao público entusiasta fez com que os fabricantes passassem a vender módulos overclocados, privilegiando a frequência e o desempenho em benchmarks, em detrimento da vida útil dos módulos.

Com o i7, a Intel resolveu “começar de novo”, incentivando os fabricantes a produzirem módulos mais lentos, porém capazes de trabalharem dentro das tensões nominais. Naturalmente, é possível usar módulos mais rápidos ou mesmo fazer overclock da memória; entretanto, a Intel passou a advertir que o uso de tensões acima de 1.65V nos processadores da plataforma Core i7 pode danificar o controlador de memória depois de algum tempo de uso, inutilizando o processador.

Continuando, temos o Lynnfield, que será um Core i7 de baixo custo. Muitos dos recursos introduzidos pelo Nehalem, incluindo a possibilidade de usar 4 processadores (nada menos do que 16 núcleos) são destinados ao mercado de servidores, onde cresce a demanda por máquinas capazes de rodarem centenas de máquinas virtuais simultaneamente e de processarem bancos de dados com vários gigabytes em tempo hábil.

Em um desktop, o uso de múltiplos processadores não faz muito sentido (afinal, poucos aplicativos são capazes se utilizar todo o potencial de 4 núcleos, o que dizer de 16), o que faz com que a discussão recaia mais sobre os ganhos de desempenho dos Core i7 em relação aos processadores anteriores. As mudanças introduzidas pelo Nehalem são positivas, mas o mais importante acaba sendo o custo.

O Lynnfield é uma versão desktop do Nehalem, com um controlador de memória dual-channel e sem suporte ao uso de múltiplos processadores. Com um canal a menos no controlador de memória, o número de contatos foi reduzido, o que levou a Intel a desenvolver mais um novo soquete, o LGA1156, que será o sucessor direto do LGA775 atual. Essas mudanças simplificam a arquitetura, tornando os chipsets (e, consequentemente, as placas-mãe) mais baratos e eliminando a tentação de usar três módulos de memória em vez de dois.

Outra mudança importante é a inclusão de 16 linhas PCI Express dentro do próprio processador, o que faz com que o Lynnfield execute todas as funções que na plataforma i7 são executadas pelo X58.

Embora não traga mudanças com relação ao desempenho, essa mudança permitiu que a Intel simplificasse a plataforma, adotando uma solução single-chip para o chipset.

Outra pequena vantagem da integração é uma ligeira redução no consumo elétrico total, já que ao serem movidos para dentro do processador, os transístores do controlador PCI Express passaram a ser fabricados usando a mesma técnica de 45 nanômetros que ele.

Você poderia se perguntar por que a Intel esperou para incorporar as linhas PCI Express no Lynnfield, em vez de simplesmente incorporá-las já no Bloomfield. A resposta é um detalhe simples: o Lynnfield possui apenas 16 linhas, enquanto o Bloomfield e o X58 oferecem 36 linhas no total. Caso incorporasse as 36 linhas diretamente no processador, o Bloomfield teria um volume de transístores muito maior e a Intel teria dificuldades em manter o TDP de 130 watts para o processador, daí o uso do X58.

Outras características internas do processador, como os caches e o suporte a SMT (com exceção do modelo de 2.66 GHz) continuam iguais, fazendo com que o desempenho clock por clock do Lynnfield e do Nehalem seja muito similar. O Lynnfield suportará também o Turbo Boost, com frequências ainda não confirmadas.

Naturalmente, a Intel precisa diferenciar as duas plataformas, por isso os modelos baseados no Lynnfield utilizarão clocks mais baixos, justificando a redução no custo.

O Lynnfield será vendido a partir de setembro. O lançamento marca o fim da linha para os processadores LGA775 atuais, que serão relegados às linhas de baixo custo e eventualmente descontinuados.

Isso ainda não é motivo para deixar de montar um micro com um Pentium E ou um Celeron, já que processadores de baixo custo baseados na nova arquitetura devem ser lançados apenas no final de 2009 e não se popularização antes de 2010. Entretanto, se você está pensando em comprar um Core 2 Quad baseado no Penryn, é mais aconselhável adiar a compra.

As primeiras placas serão baseadas no chipset P55, que é basicamente uma versão atualizada do antigo chip ICH10 que era usado como ponte sul nos chipsets anteriores, que passa a ser ligado diretamente ao processador através e um link DMI. Seguindo a mudança, o chip passou a ser chamado de Platform Controller Hub (PCH), indicando a redistribuição das funções.

Uma das mudanças é que as placas passam a ser bem mais simples, sem a tradicional ponte norte do chipset e o dissipador no meio da placa:

i7_html_mb381852

O slot adicional entre os slots de memória e o conector da fonte (você o encontrará em muitas placas com o P55 e o X58) permite instalar um módulo de memória NVRAM, destinado a funcionar como um cache adicional para operações de acesso a disco. Ele é uma espécie de versão turbinada do Readyboost, que serve como uma alternativa para melhorar o desempenho de acesso a disco, sem precisar comprar um SSD. Essa é uma tecnologia proprietária da Intel (batizada de Braidwood), por isso não espere vê-la em placas para processadores AMD.

Um leitor atento poderia perguntar por que a Intel manteve o uso do chipset separado, em vez de integrar todas as interfaces diretamente no processador, como fez com as linhas PCI Express.

Sob o ponto de vista técnico, não teriam muitos problemas em fazer isso, já que o P55 tem pouco mais de 5 milhões de transístores, o que corresponde a menos de 1% do total de transístores do processador. Entretanto, a idéia teria um problema prático, que é a questão das trilhas.

A ponte sul do chipset, que é basicamente o que sobrou no P55, serve como um “hub” para as trilhas que vão para os slots e portas da placa-mãe. Temos então algumas poucas trilhas (correspondentes ao barramento DMI) entre o processador e o P55 que se ramificam em todas as demais. Removendo o chipset, todas essas trilhas precisariam ir diretamente para o processador, o que aumentaria muito o número de contatos no soquete e complicaria o layout das placas.

Outro motivo, talvez mais importante que a questão técnica, é que a Intel ganha muito dinheiro vendendo chipsets, uma renda que seria perdida caso eles fossem eliminados completamente. Embora o P55 seja brutalmente mais simples que o P45 (usado nas placas para os Core 2 Duo), a Intel o vende para os fabricantes por aproximadamente o mesmo preço (cerca de 45 dólares), o que resulta em uma margem de lucro fabulosa.

Como comentei no início, o Nehalem é o primeiro de uma nova série de processadores baseados na nova arquitetura, uma família que inclui diversos outros modelos, que serão lançados ao longo dos próximos meses:

Nehalem-EX: Esta é a versão destinada a servidores. Ele será um processador 8-core nativo, com 24 MB de cache L3, que suportará o uso de 2 ou 4 processadores (ou seja, até 32 núcleos por placa), tirando proveito do uso do QPI. Devido ao aumento no número de trilhas necessárias para realizar a comunicação entre os processadores, ele utilizará mais um novo soquete, o LGA-1567.

Clarkdale: Esta será uma versão dual-core do Nehalem produzida usando uma técnica de 32 nanômetros e com um chipset de vídeo integrado (mais uma função movida do chipset para o processador), servindo como um substituto direto para o Pentium E e os Core 2 Duo.

Graças à técnica de produção de 32 nanômetros, tanto o custo de produção quanto o consumo elétrico serão bem mais baixos que o dos processadores atuais, o que deve levar a Inter a fazer a mudança rapidamente. A expectativa é que a Intel anuncie os primeiros processadores baseados na plataforma antes do final de 2009.

Duas observações com relação ao chipset de vídeo é que ele será um derivado do GMA X4500, usado nos chipsets atuais (e não um derivado do Lahhabee) e que ele será um chip separado incluído dentro do encapsulamento do processador e não realmente um componente interno, incluído na mesma pastilha de silício.

Arrandale: Esta é uma versão mobile do Clarkdale, também dual-core, mas com um TDP mais baixo. Ele é destinado a substituir o Core 2 Duo nos notebooks, complementando o lançamento da nova geração do Atom (baseada no Pinetrail), que avançará sobre os netbooks.

Clarksfield: Esta é a versão quad-core destinada a notebooks, também produzida usando a técnica de 32 nanômetros. A principal diferença em relação aos processadores para desktop serão o TDP e as frequências de operação bem mais baixas.

Existe uma boa dose de polêmica em torno da utilidade de um processador quad-core em um notebook, já que eles são predominantemente usados para tarefas de produtividade e alguns jogos, tarefas onde os processadores dual-core são tradicionalmente a melhor opção. Apesar disso, a Intel parece determinada a popularizar os processadores quad-core em todas as frentes, incluindo aí os notebooks.

A boa notícia é que o uso do PCU e do Turbo Boost deve garantir que os chips mantenham um desempenho e um consumo elétrico equilibrado, mesmo em aplicativos que não se beneficiam dos 4 núcleos. Em outras palavras, os dois núcleos adicionais podem não ajudar muito, mas pelo menos também não vão atrapalhar.

Gulftown: Este é o codenome do sucessor do Bloomfield, produzido usando a técnica de 32 nanômetros, destinado a placas LGA-1366. Ele manterá o uso de 4 núcleos, mas trará mais cache e possivelmente outras melhorias relacionadas ao desempenho.

A migração para a técnica de 32 nanômetros resultará em transístores com pouco mais de metade do tamanho dos produzidos usando a técnica de 45 nanômetros, o que oferecerá bastante espaço para a inclusão de novos componentes. É nesse ponto que a arquitetura modular do Nahalem começará a realmente pagar dividendos.

Inicialmente o Gulftown substituirá os modelos da série XE como processador de alto desempenho, eventualmente ganhando versões mais acessíveis. Foi anunciada também uma versão com 6 cores, que deve ser lançada no início de 2010.

Estas versões de 32 nanômetros do Nehalem são coletivamente chamadas de Westmere, que é o nome código da nova plataforma, da mesma forma que o Bloomfield, Lynnfield & cia. são sub-versões dentro da família Nehalem.

i7_html_780668d2

Para 2010 está prevista uma versão com GPU integrada, o Sandy Bridge. Diferente do Clarkdale, onde a GPU será apenas um segundo chip dentro do encapsulamento do processador, no Sandy Bridge a GPU será movida para dentro do núcleo, resultando em uma solução muito mais elegante.

Junto com o Sandy Bridge, teremos o lançamento dos primeiros produtos baseados no Lahhabee, a nova arquitetura para o processamento paralelo que a Intel vem anunciando desde 2007.

A primeira amostra da arquitetura foi a demonstração de um chip com 80 núcleos, desenvolvido com o objetivo de oferecer 1 teraflop de poder de processamento. Cada um dos 80 núcleos é um chip relativamente simples, otimizado para processar instruções de ponto flutuante. Cada chip possui um “roteador” que o interliga aos vizinhos. Esta estrutura permite que as instruções sejam distribuídas entre os núcleos de forma bastante similar ao que acontece dentro de um cluster com várias máquinas. A principal diferença é que tudo é feito dentro de um único chip:

i7_html_203206b6

Com o tempo, foi revelado que este chip massivamente paralelo era uma versão prévia do Lahhabee, com o qual a Intel pretende entrar no ramo de placas 3D de alto desempenho, concorrendo com a nVidia e a AMD/ATI.

Assim como no caso do Atom, a inspiração para a nova arquitetura veio do antigo Pentium. Cada um dos processadores do Lahhabee é essencialmente um Pentium 1 modernizado, com duas unidades de execução e a capacidade de processar 4 threads (em vez de apenas dois, como no Nehalem) em cada uma. Elas são complementadas por uma unidade de processamento de vetores, composta por 16 unidades distintas, capazes de processar instruções de ponto flutuante de 32 bits e 256 KB de cache L2, que complementam os 64 KB de cache L1. Diferente dos processadores tradicionais, que são otimizados para o processamento de instruções seqüenciais, ele é especializado em processamento paralelo, assim como os chipsets 3D.

Desenvolver uma CPU otimizada para o processamento de gráficos pode parecer estranho, mas essa é basicamente a mesma coisa que a ATI e nVidia vêm fazendo desde a introdução dos shaders programáveis, duas gerações atrás.

Ao olhar o diagrama de blocos de um G80 (usado nas GeForce 8xxx), você notará que ele é composto por 8 clusters de unidades de processamento de vetores, que são a base do chipset. Cada uma possui seu próprio cache e a comunicação entre elas é feita de uma maneira não muito diferente da que a Intel desenvolveu para o Lahhabee:

i7_html_m52c41ead

Uma única unidade não ofereceria um desempenho digo de nota, mas ao combinar algumas dúzias delas (foram anunciados planos de usar de 16 a 32 unidades na geração inicial de produtos) a Intel terá em mãos um chipset de vídeo bastante poderoso.

As primeiras versões nada mais serão do que placas 3D PCI-Express regulares, que concorrerão com os lançamentos da nVidia e da ATI, mas os aceleradores devem logo substituir também os chipsets de vídeo integrado, resultando em processadores com aceleradores 3D relativamente poderosos incluídos diretamente no núcleo.

Sobre o Autor

Redes Sociais:

Deixe seu comentário

X