Definição de DDR2

Por Carlos E. Morimoto. Há 2007-08-22 [OnlyText].

Seguindo a tendÃªncia inaugurada pelas memÃ³rias DDR, as DDR2 novamente duplicam a taxa de transferÃªncia, realizando agora 4 operaÃ§Ãµes por ciclo. Novamente, as cÃ©lulas de memÃ³ria continuam trabalhando na mesma freqÃ¼Ãªncia anterior e o acesso inicial continua demorando aproximadamente o mesmo tempo. Entretanto, as demais operaÃ§Ãµes dentro do burst passam a ser realizadas em apenas um quarto de ciclo de clock. Usando memÃ³rias DDR2, um burst de 8 leituras demoraria apenas 6.75 ciclos de clock (5-Â¼-Â¼-Â¼-Â¼-Â¼-Â¼-Â¼), contra 8.5 ciclos nas DDR e 12 nas SDR.

A diferenÃ§a Ã© maior em aplicativos que precisam manipular grandes blocos de dados e menor em aplicativos que lÃªem pequenos blocos de dados espalhados. Em nenhuma situaÃ§Ã£o prÃ¡tica a transferÃªncia chega realmente a dobrar. Dizer que as "DDR2 sÃ£o duas vezes mais rÃ¡pidas" Ã© apenas uma figura de linguagem. :)

Em 2005, quando os primeiros mÃ³dulos DDR2-533 chegaram ao mercado, eles rapidamente ganharam a fama de "lentos", pois eram comparados a mÃ³dulos DDR-400 ou DDR-466, que jÃ¡ estavam entrincheirados. Embora um mÃ³dulo DDR2 ganhe de um DDR da mesma freqÃ¼Ãªncia em todos os quesitos (um DDR2-800 contra um DDR-400, por exemplo), o mesmo nÃ£o acontece se comparamos mÃ³dulos de freqÃ¼Ãªncias diferentes. Um DDR2-533 opera a apenas 133 MHz, por isso acaba realmente perdendo para um DDR-400 (200 MHz) na maioria das aplicaÃ§Ãµes, pois a ganho de realizar 4 operaÃ§Ãµes por ciclo acaba nÃ£o sendo suficiente para compensar a diferenÃ§a na freqÃ¼Ãªncia de operaÃ§Ã£o das cÃ©lulas de memÃ³ria. Vale lembrar que um mÃ³dulo DDR2-533 trabalha com tempos de latÃªncia similares a um mÃ³dulo DDR-266.

Realizar bursts de leituras rÃ¡pidas pode nÃ£o ser a forma mais perfeita de criar memÃ³rias mais rÃ¡pidas (por causa do lento ciclo inicial), mas Ã© sem dÃºvida a mais simples e barata. A freqÃ¼Ãªncia de operaÃ§Ã£o das memÃ³rias aumenta de forma gradual, conforme sÃ£o melhoradas as tÃ©cnicas de produÃ§Ã£o. Realizar mais leituras por ciclo de clock Ã© a Ãºnica forma simples de melhorar a taxa de transferÃªncia dos mÃ³dulos.

Assim como no caso dos processadores, nÃ£o Ã© possÃvel criar um processador capaz de operar ao dobro do clock de uma hora para a outra, mas Ã© possÃvel criar um processador dual-core, por exemplo. No caso das memÃ³rias Ã© mais simples, pois vocÃª pode ler vÃ¡rios endereÃ§os simultaneamente (ou quase), fazendo apenas mudanÃ§as nos circuitos controladores.

Dependendo da fonte, vocÃª pode ler tanto que as memÃ³rias DDR2 operam ao dobro da freqÃ¼Ãªncia que as DDR quanto que elas realizam quatro transferÃªncias por ciclo em vez de duas. Nenhuma das duas explicaÃ§Ãµes estÃ£o erradas, mas ambas sÃ£o incompletas.

Como disse, as cÃ©lulas de memÃ³ria continuam trabalhando na mesma freqÃ¼Ãªncia das memÃ³rias SDR e DDR, mas os buffers de entrada e saÃda, responsÃ¡veis por ler os dados, passaram a operar ao dobro da freqÃ¼Ãªncia. Ã‰ justamente esta freqÃ¼Ãªncia que Ã© "vista" pelo restante do sistema, de forma que a maioria dos programas de diagnÃ³stico mostra a freqÃ¼Ãªncia dobrada usada pelos circuitos de entrada e nÃ£o a freqÃ¼Ãªncia real das cÃ©lulas de memÃ³ria.

Devido a esta ambigÃ¼idade, nÃ£o Ã© errado dizer que os mÃ³dulos DDR2 operam ao dobro da freqÃ¼Ãªncia dos DDR (os buffers e outros circuitos de apoio realmente operam), nem que sÃ£o realizadas 4 leituras por ciclo (jÃ¡ que as cÃ©lulas de memÃ³ria continuam operando Ã mesma freqÃ¼Ãªncia).

Ao realizar uma leitura, o controlador de memÃ³ria gera quatro sinais distintos, que ativam a leitura de quatro endereÃ§os adjacentes (4-bit prefetch). As quatro leituras sÃ£o feitas simultaneamente e os dados sÃ£o entregues ao buffer, que se encarrega de despachÃ¡-los atravÃ©s do barramento principal.

Presumindo que o mÃ³dulo DDR2 do exemplo operasse a 100 MHz, terÃamos as cÃ©lulas de memÃ³ria ainda operando na mesma freqÃ¼Ãªncia, mas agora entregando 4 leituras de setores seqÃ¼enciais por ciclo. Os buffers e o barramento de dados operam agora a 200 MHz, de forma que as 4 leituras podem ser enviadas em 2 ciclos, com duas transferÃªncias por ciclo. Os dois ciclos do barramento sÃ£o realizados no mesmo espaÃ§o de tempo que apenas um ciclo das cÃ©lulas de memÃ³ria.

As cÃ©lulas de memÃ³ria podem ser grosseiramente comparadas a uma planilha eletrÃ´nica, com inÃºmeras linhas e colunas. NÃ£o existe uma grande dificuldade em ler vÃ¡rios endereÃ§os diferentes simultaneamente, desde que o fabricante consiga desenvolver os circuitos de controle necessÃ¡rios. GraÃ§as a isso, o desenvolvimento das memÃ³rias tem sido focado em realizar mais leituras pro ciclo, combinada com aumentos graduais nas freqÃ¼Ãªncias de operaÃ§Ã£o.

Quando as memÃ³rias DIMM surgiram, ainda na Ã©poca do Pentium II, os mÃ³dulos mais rÃ¡pidos operavam a 100 MHz (os famosos mÃ³dulos PC-100). Atualmente temos chips de memÃ³ria de atÃ© 300 MHz que, combinados com as 4 leituras por ciclo, resultam em mÃ³dulos com transferÃªncia teÃ³rica de atÃ© 9.6 GB/s:

DDR2-533 (133 MHz) = PC2-4200

DDR2-667 (166 MHz) = PC2-5300

DDR2-800 (200 MHz) = PC2-6400

DDR2-933 (233 MHz) = PC2-7500

DDR2-1066 (266 MHz) = PC2-8500

DDR2-1200 (300 MHz) = PC2-9600

O CAS latency dos mÃ³dulos DDR2 Ã© medido em termos de ciclos do circuito controlador, por isso sÃ£o normalmente o dobro do que nos mÃ³dulos DDR. Ã‰ como em "duas unidades" ou "quatro metades", no final dÃ¡ no mesmo ;). Um mÃ³dulo DDR2-800 com CAS latency 4 possui o mesmo tempo de acesso que um DDR-400 com CAS latency 2.

Normalmente, as especificaÃ§Ãµes das memÃ³rias DDR2 incluem nÃ£o apenas o CAS latency (tCL), mas tambÃ©m o RAS to CAS delay (tRCD), Row Precharge Time (tRP) e RAS Activate to Charge (tRAS). Estes mesmos valores podem ser encontrados nas especificaÃ§Ãµes de mÃ³dulos DDR e SDR, mas com as memÃ³rias DDR2 os fabricantes passaram a divulgÃ¡-los de forma mais aberta, usando qualquer reduÃ§Ã£o nos valores para diferenciar seus mÃ³dulos dos concorrentes. Temos entÃ£o mÃ³dulos DDR2-800 "4-4-4-12" ou "5-5-5-15", por exemplo.

O primeiro nÃºmero Ã© o CAS latency, que jÃ¡ conhecemos. O seguinte Ã© o RAS to CAS delay, que Ã© o tempo que o controlador precisa esperar entre o envio do endereÃ§o RAS e o CAS. Para realizar uma leitura, o controlador envia o sinal RAS, espera o tempo referente ao RAS to CAS delay, envia o sinal CAS, aguarda o nÃºmero de ciclos referente a ele e entÃ£o finalmente tem a leitura. Em um mÃ³dulo DDR2 4-4-4-12, tanto o tCL quanto o tRCD demoram 4 ciclos, de forma que o acesso inicial demoraria um total de 8 ciclos. Em um mÃ³dulo 5-5-5-15, o tempo subiria para 10 ciclos.

Ã‰ importante lembrar (mais uma vez ;) que aqui estamos falando de ciclos dos circuitos de acesso, que trabalham ao dobro da freqÃ¼Ãªncia. Os 8 ciclos de um mÃ³dulo DDR2 equivalem ao mesmo espaÃ§o de tempo consumido por 4 ciclos de um mÃ³dulo DDR ou SDR.

Junto com o ciclo inicial, o controlador pode realizar um burst de mais 7 leituras (totalizando 8). Cada uma destas leituras adicionais consome o equivalente a meio ciclo do controlador (ou a um quarto de ciclo das cÃ©lulas de memÃ³ria). Caso ele precise de mais dados dentro da mesma linha, ele repete o envio do sinal CAS e realiza um novo burst de leituras.

Note que o controlador sÃ³ precisa enviar o sinal RAS ao mudar a linha ativa, de forma que o tRCD sÃ³ entra na conta no primeiro acesso. Para os seguintes, temos apenas o tempo referente ao tCL. Caso o controlador precise realizar 24 leituras (dentro da mesma linha), num mÃ³dulo DDR2 4-4-4-12, terÃamos 11.5 ciclos (8+3.5) para as 8 primeiras leituras e mais 15 ciclos (4+3.5+4+3.5) para as 16 leituras subseqÃ¼entes. Ã‰ por causa dessa peculiaridade que os mÃ³dulos DDR e DDR2 nÃ£o possuem mais o "full-page mode" suportado pelas memÃ³rias SDRAM; ele deixou de ser necessÃ¡rio.

O Row Precharge Time (tRP) entra em aÃ§Ã£o quando o controlador precisa alternar entre diferentes linhas. Cada linha inclui 512 endereÃ§os de memÃ³ria, o equivalente a 4 KB de dados. As linhas sÃ£o divididas em 4 ou 8 pÃ¡ginas, de forma que um mÃ³dulo DDR2 de 1 GB teria 8 pÃ¡ginas de 32.768 linhas, ou 4 pÃ¡ginas de 65.536 linhas. Com tantas linhas e pÃ¡ginas diferentes, nÃ£o Ã© difÃcil imaginar que o chaveamento entre elas Ã© muito freqÃ¼ente. Quando falo em linhas e pÃ¡ginas, tenha em mente que essa Ã© apenas a forma como o controlador de memÃ³ria "enxerga" o mÃ³dulo. Fisicamente, mesmo os bits de uma mesma linha estÃ£o espalhados pelos vÃ¡rios chips do mÃ³dulo.

Antes de poder acessar uma determinada linha, o controlador de memÃ³ria precisa carregÃ¡-la (precharge). Isso consiste em recarregar os capacitores dentro das cÃ©lulas de memÃ³ria, facilitando a leitura dos dados. O Row Precharge Time (tRP) Ã© justamente o tempo necessÃ¡rio para fazer o carregamento, necessÃ¡rio antes de chavear para outra linha, seja no mesmo banco, seja num banco diferente.

Sendo assim, mesmo que seja necessÃ¡rio ler um Ãºnico setor, a leitura demorarÃ¡ (em um mÃ³dulo 4-4-4-12) 4 ciclos para o tRP, 4 ciclos para o tRCD, 4 ciclos para o tCL, totalizando 12 ciclos. Estes 12 ciclos sÃ£o justamente o tempo referente ao RAS Activate to Charge (tRAS), que Ã© o tempo mÃnimo para realizar uma leitura completa. O tRAS Ã© sempre proporcional aos trÃªs primeiros valores, pois Ã© justamente a soma dos trÃªs. Ã‰ por isso que ele sempre Ã© mais alto em mÃ³dulos com CAS latency mais alto.

Ã‰ possÃvel reduzir o tRAS utilizando um recurso chamado Additive Latency, onde o comando para iniciar o precharge do banco seguinte pode ser enviado antes que a leitura atual termine. Isso faz com que o tempo total da leitura seguinte seja reduzido em 1 ou atÃ© mesmo 2 ciclos. Esse Ã© o caso dos mÃ³dulos 5-4-4-11 ou 4-4-4-11, por exemplo. Em outros casos Ã© necessÃ¡rio um ciclo adicional para fechar o banco, que aumenta o tRAS em vez de diminuir. De qualquer forma, o tRAS Ã© dos quatro o parÃ¢metro que menos influi no desempenho, pois sÃ³ faz alguma diferenÃ§a real quando o sistema precisa realizar sÃ©ries de acessos rÃ¡pidos, a linhas diferentes.

Bem, esta Ãºltima parte exigiu uma explicaÃ§Ã£o mais complexa que o habitual. Como vocÃª pode ver, os tempos de acesso dos mÃ³dulos DDR2 Ã© um pouco mais complexo do que pode parecer Ã primeira vista.

Entretanto, o mais importante dos 4 valores continua sendo o primeiro (o bom e velho CAS latency, ou tCL), jÃ¡ que o tRCD e o tRP sÃ£o quase sempre iguais a ele e o tRAS Ã© a soma dos trÃªs. Ou seja, se o CAS latency Ã© mais baixo, automaticamente os demais valores tambÃ©m sÃ£o.

Veja também