Definição de ECC

Por Carlos E. Morimoto. Há 2005-06-26 [OnlyText].

Por melhor que seja a qualidade, todos os tipos de memÃ³ria sÃ£o passÃveis de erros, que podem ser causados por inÃºmeros fatores, desde variaÃ§Ãµes na tensÃ£o da tomada que nÃ£o sÃ£o completamente absorvidos pela fonte de alimentaÃ§Ã£o, estÃ¡tica, diversos tipos de interferÃªncias eletromagnÃ©ticas e, por incrÃvel que possa parecer, atÃ© mesmo raios cÃ³smicos, que num PC domÃ©stico causam um soft-error em mÃ©dia a cada poucos meses: http://www-1.ibm.com/servers/eserver/pseries/campaigns/chipkill.pdf

Ao contrÃ¡rio dos "hard-errors", que sÃ£o danos fÃsicos nos mÃ³dulos de memÃ³ria, causados por eletricidade estÃ¡tica ou outros tipos de descargas, os soft-erros sÃ£o erros momentÃ¢neos, onde um ou alguns poucos bits sÃ£o alterados, sem que os chips de memÃ³ria sejam danificados.

Eles podem causar os mais diversos efeitos colaterais, como travamentos de programas, pequenos danos em arquivos salvos e assim por diante. Num desktop eles nÃ£o costumam ser catastrÃ³ficos, mas podem causar efeitos sÃ©rios em sistemas que manipulam informaÃ§Ãµes sensÃveis, como no caso dos bancos, por exemplo, onde um soft-error poderia mudar o saldo da sua conta bancÃ¡ria. ;)

Para aumentar o grau de confiabilidade dos sistemas, foram criados mÃ©todos de diagnÃ³stico e correÃ§Ã£o de erros. Tudo comeÃ§ou com os sistemas de paridade, usados em muitos mÃ³dulos de 30 e 72 vias.

A paridade Ã© um mÃ©todo mais antigo, que somente Ã© capaz de identificar alteraÃ§Ãµes nos dados depositados nas memÃ³rias, sem condiÃ§Ãµes de fazer qualquer tipo de correÃ§Ã£o. A paridade consiste na adiÃ§Ã£o de mais um bit para cada byte de memÃ³ria, que passa a ter 9 bits, tendo o Ãºltimo a funÃ§Ã£o de diagnosticar alteraÃ§Ãµes nos dados.

A operaÃ§Ã£o de checagem dos dados na paridade Ã© bem simples: sÃ£o contados o nÃºmero de bits "1" de cada byte. Se o nÃºmero for par, o bit de paridade assume o valor "1" e caso seja Ãmpar, o 9Âº bit assume o valor "0". Quando requisitados pelo processador, os dados sÃ£o checados pelo circuito de paridade que verifica se o nÃºmero de bits "1" corresponde ao depositado no 9Âº bit.

Caso seja constatada alteraÃ§Ã£o nos dados, ele envia ao processador uma mensagem de erro. Claro que esse mÃ©todo nÃ£o Ã© 100% eficaz, pois nÃ£o Ã© capaz de detectar a alteraÃ§Ã£o de um nÃºmero de bits que mantenha a paridade. Caso, por exemplo, dois bits zero retornassem alterados para bits um, o circuito de paridade nÃ£o notaria a alteraÃ§Ã£o nos dados. Felizmente, a possibilidade da alteraÃ§Ã£o de dois ou mais bits ao mesmo tempo Ã© remota. Veja:

Exemplo de Byte de dados NÃºmero de Bits "1" no Byte Bit de paridade

00000000 0 1

10110011 5 0

00100100 2 1

11111111 8 1

O uso da paridade nÃ£o torna o computador mais lento, pois os circuitos responsÃ¡veis pela checagem dos dados sÃ£o independentes do restante do sistema. Seu Ãºnico efeito colateral Ã© o encarecimento dos mÃ³dulos de memÃ³ria, que em vez de 8 ou 16 chips, passam a ter 9 ou 18, tornando-se pelo menos 12% mais caros.

AlÃ©m do aumento no custo, o grande problema da paridade Ã© que ela apenas permite identificar erros, mas sem corrigi-los. Isso acaba fazendo com que ela tenha pouca utilidade, pois ao receber um erro suas Ãºnicas opÃ§Ãµes sÃ£o ignorÃ¡-lo, ou parar tudo e reiniciar o micro. Conforme os mÃ³dulos de memÃ³ria foram tornando-se mais confiÃ¡veis, os mÃ³dulos com paridade entraram em desuso.

Em seguida temos o ECC, o sistema atual, que permite nÃ£o apenas identificar, mas tambÃ©m corrigir erros simples. O ECC acaba sendo a soluÃ§Ã£o perfeita, pois permite que um servidor continue funcionando, sem interrupÃ§Ãµes e de forma confiÃ¡vel, mesmo com um grande nÃºmero de soft-errors, causados por fatores diversos.

O nÃºmero de bits necessÃ¡rios para implementar o ECC decresce conforme aumenta a largura do barramento usado pelo mÃ³dulo. Em um mÃ³dulo de 32 bits (como os antigos mÃ³dulos de 72 vias), sÃ£o necessÃ¡rios 7 bits adicionais para cada 32 bits de memÃ³ria, mas nos mÃ³dulos DIMM de 64 bits atuais, sÃ£o necessÃ¡rios apenas 8 bits para cada 64 bits de memÃ³ria, ou seja, o mesmo que seria necessÃ¡rio para usar paridade.

Os mÃ³dulos DIMM com ECC sÃ£o fÃ¡ceis de identificar, pois eles possuem 5, 9 ou 18 chips, em vez de 4, 8 ou 16. O uso de ECC Ã© mais comum em mÃ³dulos registered, que sÃ£o especÃficos para servidores, mas tambÃ©m Ã© possÃvel encontrar alguns mÃ³dulos unbuffered com ECC.

Quanto maior a quantidade de bits destinados ao ECC, mais complexos serÃ£o os cÃ³digos armazenados, e maior serÃ¡ a possibilidade de um eventual erro ser corrigido. Apesar de ainda nÃ£o ser muito usado em memÃ³rias RAM, justamente devido Ã boa confiabilidade das memÃ³rias atuais, o ECC Ã© item obrigatÃ³rio em discos rÃgidos e CD-ROMs, pois neles o corrompimento de dados Ã© muito comum. Ã‰ justamente o uso do ECC que permite que estas mÃdias sejam confiÃ¡veis.

Nos CD-ROMs, por exemplo, sÃ£o usados nada menos do que 276 bytes de cÃ³digos de correÃ§Ã£o de erros para cada setor de 2048 bytes. Em um HD, cada setor armazena, alÃ©m dos 512 bytes de dados, mais algumas dezenas de bytes contendo os cÃ³digos ECC. A criaÃ§Ã£o dos bytes de ECC, assim como sua utilizaÃ§Ã£o posterior Ã© feita pela placa lÃ³gica, um processo automÃ¡tico que Ã© feito de forma completamente transparente ao sistema operacional.

Quando um setor Ã© lido pela cabeÃ§a de leitura, juntamente com os dados sÃ£o lidos alguns dos cÃ³digos ECC, que visam apenas verificar se os dados que estÃ£o sendo lidos sÃ£o os mesmos que foram gravados, uma tÃ©cnica que lembra o sistema de paridade antigamente usado na memÃ³ria RAM. Caso seja verificado um erro, sÃ£o usados os demais cÃ³digos para tentar corrigir o problema. Na grande maioria dos casos, esta primeira tentativa Ã© suficiente. Estes erros transitÃ³rios, que sÃ£o corrigidos com a ajuda dos cÃ³digos ECC sÃ£o chamados de "soft errors" e nÃ£o causam nenhum efeito colateral alÃ©m de um delay de alguns milissegundos na leitura.

Caso nÃ£o seja possÃvel corrigir o erro usando o ECC, a controladora faz uma nova tentativa de leitura do setor, pois Ã© grande a possibilidade do erro ter sido causado por alguma interferÃªncia ou instabilidade momentÃ¢nea. Caso o erro persista, ela farÃ¡ vÃ¡rias tentativas sucessivas, reduzindo a velocidade de rotaÃ§Ã£o dos discos e comparando o resultado de vÃ¡rias leituras, de forma a tentar recuperar os dados gravados no setor. Esse processo gera aquele ruÃdo caracterÃstico de HD sendo "mastigado" e quase sempre indica o aparecimento de um badblock.

Veja também