Logo Hardware.com.br
urbanus
urbanus Super Participante Registrado
518 Mensagens 53 Curtidas

[Resolvido] HD novo com erros.

#1 Por urbanus 12/06/2012 - 22:33
Comprei um produto que tem me deixado muito decepcionado com a HP, o servidor Proliant Microserver.
Pouco tempo após iniciar a operação o conector da VGA da mobo esta com mal contato. Tive que adicionar uma placa de video "off board" pois não sei onde coloquei a nota fiscal.
Como se não bastasse o HD parece que esta falhando. Segue o log do smartctl:

root@gesund:/home/jec# smartctl --all /dev/sda
smartctl 5.40 2010-10-16 r3189 [x86_64-slackware-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model: VB0160EAVEQ
Serial Number: 9VY8FM07
Firmware Version: HPG0
User Capacity: 160,041,885,696 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 6
Local Time is: Tue Jun 12 22:26:16 2012 BRT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 617) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 31) minutes.
SCT capabilities: (0x103d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 114 100 006 Pre-fail Always - 74627455
3 Spin_Up_Time 0x0023 098 097 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 221
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x002f 067 060 030 Pre-fail Always - 6213326
9 Power_On_Hours 0x0032 095 095 000 Old_age Always - 4419
10 Spin_Retry_Count 0x0033 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 111
180 Unused_Rsvd_Blk_Cnt_Tot 0x002b 100 100 000 Pre-fail Always - 923
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
184 End-to-End_Error 0x0032 100 100 097 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 097 000 Old_age Always - 78
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 069 062 045 Old_age Always - 31 (Min/Max 30/35)
194 Temperature_Celsius 0x0022 031 040 000 Old_age Always - 31 (0 19 0 0)
195 Hardware_ECC_Recovered 0x003a 052 047 000 Old_age Always - 74627455
196 Reallocated_Event_Count 0x0032 100 100 036 Old_age Always - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 4363 -
# 2 Extended offline Interrupted (host reset) 70% 4013 -
# 3 Extended offline Completed without error 00% 2078 -
# 4 Extended offline Completed without error 00% 1582 -

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Vejam os valores de Raw_Read_Error_Rate e Hardware_ECC_Recovered muito elevados. Devo começar a fazer backup dos dados?
quemsou_naodigo
quemsou_naod... Cyber Highlander Registrado
28.8K Mensagens 1.8K Curtidas
#2 Por quemsou_naod...
12/06/2012 - 22:44
Esse HD tem 4419 horas, mal dá 6 meses de funcionamento direto. Foi ligado/desligado apenas 221 vezes. É um HD novo.
Os valores que são valores reais são os que são definidos como "Count" e não "Rate". Os valores Rate costumam variar muito, li sobre isso num fórum de um desses softwares que fazem a leitura do SMART. Nem sempre o que está em "rate" representa a contagem real.

Observe os valores: Value é o valor atual, Worst é o pior valor já registrado e Thresh é o valor em que isso começa a ficar preocupante, que é estabelecido pelo fabricante.

Raw Error Read está em 114, o pior valor foi 100. 006 é o valor indicado como problemático, definido pelo fabricante.
Hardware ECC Recovered está em 52, o mínimo registrado foi 47 e o valor ruim é 000.
Observe que a contagem é descrescente.

Eu diria que esse HD está normal.
Leiam: Guia de Utilização (Novo Fórum) e Regras de Conduta.
---------------------------------------------
LinuxUser #468957
urbanus
urbanus Super Participante Registrado
518 Mensagens 53 Curtidas
#3 Por urbanus
12/06/2012 - 23:18
Compare com esse HD do meu computador pessoal:

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 47
3 Spin_Up_Time 0x0027 157 155 021 Pre-fail Always - 3116
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 896
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 071 071 000 Old_age Always - 21416
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 878
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 149
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 896
194 Temperature_Celsius 0x0022 106 094 000 Old_age Always - 37
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 70
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
Qual parece em melhores condições?

Raw Read Error Rate : Errors occured while reading raw data from a disk. Indicate problem with the disk surface or the read/write heads. It's a critical attribute.
Assim podemos entender que estão havendo erros na leiura do disco, que embora acima do limite (threshold) que permite prever uma falha grave, existem falhas muito numerosas em um HD novo.

Observe novo resultado, poucos minutos após o primeiro:

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 114 100 006 Pre-fail Always - 74707701
3 Spin_Up_Time 0x0023 098 097 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 221
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x002f 067 060 030 Pre-fail Always - 6213858
9 Power_On_Hours 0x0032 095 095 000 Old_age Always - 4420
10 Spin_Retry_Count 0x0033 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 111
180 Unused_Rsvd_Blk_Cnt_Tot 0x002b 100 100 000 Pre-fail Always - 23563
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
184 End-to-End_Error 0x0032 100 100 097 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 097 000 Old_age Always - 78
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 069 062 045 Old_age Always - 31 (Min/Max 30/35)
194 Temperature_Celsius 0x0022 031 040 000 Old_age Always - 31 (0 19 0 0)
195 Hardware_ECC_Recovered 0x003a 052 047 000 Old_age Always - 74707701
196 Reallocated_Event_Count 0x0032 100 100 036 Old_age Always - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0



Os valores estao aumentando.
Vendo câmera Nikon D3000, pouco uso, lente 18-55mm, por R$ 800,00 + frete.
Kraftwerk
Kraftwerk Cyber Highlander Registrado
29.4K Mensagens 9.4K Curtidas
#4 Por Kraftwerk
13/06/2012 - 00:20
Olá amigo.anjinho.gif

Veja se esse tópico te ajuda na interpretação desses valores

Até mais.bebi_demais.gif
Christo Nihil Praeponere
"Quem procura a Verdade, consciente ou não, procura Deus"
"Aprovemos Leis que proíbam o Comunismo, o Fascismo, o Nazismo, o Socialismo e qualquer doutrina totalitária."
"Quando dominam os justos, alegra-se o povo; quando governa o ímpio, o povo geme." Provérbios, 29:2
quemsou_naodigo
quemsou_naod... Cyber Highlander Registrado
28.8K Mensagens 1.8K Curtidas
#5 Por quemsou_naod...
13/06/2012 - 06:48
Wikipedia
(Vendor specific raw value.) Stores data related to the rate of hardware read errors that occurred when reading data from a disk surface. The raw value has different structure for different vendors and is often not meaningful as a decimal number.


Ou seja, se não sabemos o que esse valor define, não dá para fazer comparações entre HD nem muito menos determinar algo por esse valor. Não é decimal. Por isso usamos as outras colunas para analisar os dados.

Agora, se ao invés de rate (vendor specific) fosse "count", eu já teria feito backup há muito tempo. smile.png

Certa vez comprei um Seagate novo. Rodei o SMART nele após a instalação do Windows. Os dois valores que te preocupam aí (Hardware ECC e Raw Read Error Rate) estavam altíssimos em um HD novo, mas percebi que eram valores completamente variáveis, que cresciam e decresciam sem seguir um padrão aparente. Dei uma pesquisada e vi que não é possível tomar o valor "rate" como uma contagem ("count") propriamente dita.
Leiam: Guia de Utilização (Novo Fórum) e Regras de Conduta.
---------------------------------------------
LinuxUser #468957
urbanus
urbanus Super Participante Registrado
518 Mensagens 53 Curtidas
#6 Por urbanus
13/06/2012 - 17:14
De fato, apesar do "RAW_VALUE" aumentar sem parar, o valor informado esta sempre acima do "threshold".
Notei na seguinte linha que o HD não esta na base de dados do smartctl e talvez explique essas leituras elevadas:

Device is: Not in smartctl database [for details use: -P showall]

Outra explicação no site do projeto smartmontools:

How can I get the attribute information in human readable format?

smartctl provides human readable format as far as possible. If the exact meaning of the RAW value is not known, there is nothing we can do.
Vendo câmera Nikon D3000, pouco uso, lente 18-55mm, por R$ 800,00 + frete.
quemsou_naodigo
quemsou_naod... Cyber Highlander Registrado
28.8K Mensagens 1.8K Curtidas
#7 Por quemsou_naod...
13/06/2012 - 18:34
Seria interessante testar outro software para fazer a leitura. Mas estou vendo que é um servidor (não pode ser desligado por qualquer coisa) e acho que não há nada desse tipo para Linux, além do smartmontools. Uma solução seria roda um Live-CD de algum kit de ferramentas desses, como Hiren's Boot CD, e executar algum software de lá que faça a leitura.
Leiam: Guia de Utilização (Novo Fórum) e Regras de Conduta.
---------------------------------------------
LinuxUser #468957
urbanus
urbanus Super Participante Registrado
518 Mensagens 53 Curtidas
#8 Por urbanus
13/06/2012 - 19:49
quemsou_naodigo disse:
Seria interessante testar outro software para fazer a leitura. Mas estou vendo que é um servidor (não pode ser desligado por qualquer coisa) e acho que não há nada desse tipo para Linux, além do smartmontools. Uma solução seria roda um Live-CD de algum kit de ferramentas desses, como Hiren's Boot CD, e executar algum software de lá que faça a leitura.

É um servidor em produção que hospeda páginas web, e pessoas acessam ele a qualquer hora pela net. Providenciei backup de dados críticos a cada 30 minutos em outro HD de uma máquina na rede agendado pelo crontab. Vou monitorar periodicamente.
Vou considerar o tópico resolvido, pois parece não haver problema.
Fica o alerta para a qualidade questionável desses servidores HP Proliant Microserver.
Vendo câmera Nikon D3000, pouco uso, lente 18-55mm, por R$ 800,00 + frete.
quemsou_naodigo
quemsou_naod... Cyber Highlander Registrado
28.8K Mensagens 1.8K Curtidas
#9 Por quemsou_naod...
13/06/2012 - 19:53
urbanus disse:

Vou considerar o tópico resolvido, pois parece não haver problema.
Fica o alerta para a qualidade questionável desses servidores HP Proliant Microserver.

Vou acrescentar: A HP utiliza um HD de fabricação própria (ou não, deve ser só etiqueta e firmware modificado), que tem péssimo desempenho. Procurei reviews tempos atrás, não exatamente o mesmo modelo, e descobri que o HD que eu buscava tinha desempenho pior do que quase todos os outros HDs de desktop avaliados.
Servidores deveriam ser mais rápidos, não?

Era um comparativo do Tom's Hardware (eu acho...). Se achar de novo eu posto aqui.
Leiam: Guia de Utilização (Novo Fórum) e Regras de Conduta.
---------------------------------------------
LinuxUser #468957
urbanus
urbanus Super Participante Registrado
518 Mensagens 53 Curtidas
#10 Por urbanus
13/06/2012 - 21:30
quemsou_naodigo disse:
Vou acrescentar: A HP utiliza um HD de fabricação própria (ou não, deve ser só etiqueta e firmware modificado), que tem péssimo desempenho. Procurei reviews tempos atrás, não exatamente o mesmo modelo, e descobri que o HD que eu buscava tinha desempenho pior do que quase todos os outros HDs de desktop avaliados.
Servidores deveriam ser mais rápidos, não?

Era um comparativo do Tom's Hardware (eu acho...). Se achar de novo eu posto aqui.


Segundo pesquisei o HD é fabricado pela Seagate. O desempenho dele não é ruim, tem 7200 rpm.
Encontrei uma explicação que me convenceu. Não são exatamente erros, mas contagem de setores. Leitura adicional me fez entender que discos de alta densidade têm esse tipo de comportamento, e enquanto o Hardware_ECC_Recovered for igual ao Raw_Read_Error_Rate, e os valores estiverem acima do threshold, nenhuma preocupação.
Vendo câmera Nikon D3000, pouco uso, lente 18-55mm, por R$ 800,00 + frete.
© 1999-2024 Hardware.com.br. Todos os direitos reservados.
Imagem do Modal