{"id":51,"date":"2008-09-01T17:04:35","date_gmt":"2008-09-01T17:04:35","guid":{"rendered":"http:\/\/www.apmuga.com\/wordpress\/falhas-em-discos-rigidos\/"},"modified":"2017-02-10T04:25:18","modified_gmt":"2017-02-10T04:25:18","slug":"falhas-em-discos-rigidos","status":"publish","type":"post","link":"https:\/\/www.apmuga.com\/wordpress\/falhas-em-discos-rigidos\/","title":{"rendered":"Falhas em discos rigidos"},"content":{"rendered":"<p align=\"left\">Em 2007, o Google publicou na confer\u00eancia &#8220;<a href=\"http:\/\/labs.google.com\/papers\/disk_failures.pdf\" target=\"_blank\">Proceedings of the 5th USENIX Conference on File and Storage Technologies (FAST\u201907)&#8221; <\/a>um artigo muito elucidativo sobre falhas de disco. Os dados foram obtidos das suas quintas de servidores com uma popula\u00e7\u00e3o de 100.000 discos o que permite recolher m\u00e9tricas com algum peso em termos estat\u00edsticos.<\/p>\n<p>Tendo eu alguma cota parte de gestor de sistema, este artigo captou o meu interesso e partilho aqui um resumo deste.<\/p>\n<p>&nbsp;<\/p>\n<p>O Google tem perto de 100.000 discos r\u00edgidos, muitos destes PATA e SATA, os mesmos que utilizamos no nossos computadores pessoais e um facto que sobressai \u00e9 que temos agora melhores discos para uso &#8220;caseiro&#8221; do que para uso profissional (FC e SCSI). O artigo apresenta resultados surpreendentes em cinco \u00e1reas:<\/p>\n<ul>\n<li>A viabilidade do MTBF dos fabricantes<\/li>\n<li>A inutilidade da estat\u00edstica do SMART<\/li>\n<li>Carga e tempo de vida do dispositivo relacionados com falhas<\/li>\n<li>Temperatura relacionado com falhas<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3><\/h3>\n<h3>A viabilidades do MTBF dos fabricantes<\/h3>\n<p>MTBF, Mean Time Between Failure, \u00e9 uma medida estat\u00edstica que indica tempo m\u00e9dio entre falhas. Quando um fabricante especifica\u00a0 300.000\u00a0MTBF, isto significa que temos uma probabilidade de falha de 50% antes das 300.000 horas. \u00a0Se formos positivos, significa que temos 50% do disco n\u00e3o falhar antes durante 34 anos e 4 meses (300.000\/365 dias\/24 horas). Quando ir\u00e1 falhar? esta m\u00e9trica nada diz sobre o assunto. Num ambiente ideal, se tivermos 600.000 discos, poder\u00edamos contar com uma falha por hora. No entanto o bom senso diz que o n\u00famero de falha ir\u00e1 aumentar quando mais perto da m\u00e9dia estivermos. O google AFR, Anunal Failure Rate, apresenta um cen\u00e1rio diferente.<\/p>\n<p>&nbsp;<\/p>\n<p style=\"text-align: center;\"><a href=\"http:\/\/www.apmuga.com\/wordpress\/wp-content\/uploads\/2008\/09\/google_harddrive_1png.png\"><img decoding=\"async\" class=\"alignnone size-full wp-image-450\" src=\"http:\/\/www.apmuga.com\/wordpress\/wp-content\/uploads\/2008\/09\/google_harddrive_1png.png\" alt=\"\" width=\"100%\" srcset=\"https:\/\/www.apmuga.com\/wordpress\/wp-content\/uploads\/2008\/09\/google_harddrive_1png.png 762w, https:\/\/www.apmuga.com\/wordpress\/wp-content\/uploads\/2008\/09\/google_harddrive_1png-300x219.png 300w\" sizes=\"(max-width: 762px) 100vw, 762px\" \/><\/a><\/p>\n<p>Vou\u00a0continuar esta an\u00e1lise\u00a0depois de explicar como s\u00e3o obtidas as m\u00e9tricas dos fabricantes.<\/p>\n<p>&nbsp;<\/p>\n<h3>MTBF definido pelos fabricantes<\/h3>\n<p>N\u00e3o \u00e9 vi\u00e1vel testar um dispositivo de forma &#8220;real&#8221;. Teoricamente falando seriam preciso mais de\u00a068 anos para poder concluir que o MTBF \u00e9 de 34 anos ao tentar replicar discos como uso &#8220;normal&#8221;. Dito isso, a estat\u00edstica fornece ferramentas para acelerar o processo da seguinte forma. Os fabricantes, na fase de concep\u00e7\u00e3o\/testes, pegam em muitos discos e d\u00e3o lhes um uso intensivo at\u00e9 estes falharem. Com base no uso intensivo dado e no uso padr\u00e3o esperado para os discos, \u00e9 conseguido uma projec\u00e7\u00e3o no tempo de como os equipamentos ir\u00e3o comportar-se. Este teste acelerado \u00e9 usado tanto na inform\u00e1tica como tamb\u00e9m na aeroespacial, electrodom\u00e9sticos como no sector autom\u00f3vel. O problema \u00e9 que estes testes n\u00e3o representam realmente as condi\u00e7\u00f5es reais submetidas aos equipamentos:<\/p>\n<p>&nbsp;<\/p>\n<p><span style=\"color: #0000ff;\">Since failures are sometimes the result of a combination of components (i.e., a particular drive with a particular controller or cable, etc), . . . a good number of drives . . . could be still considered operational in a different test harness. We have observed . . . situations where a drive tester consistently \u201cgreen lights\u201d a unit that invariably fails in the field.<\/span><br \/>\n&nbsp;<\/p>\n<h3>Utilidade do SMART<\/h3>\n<p>O SMART \u00e9 uma interface presente nos discos que recolha, analise e tenta prever falhas no disco r\u00edgido. \u00c9 muito \u00fatil para verificar, por exemplo, a temperatura. O SMART recolha e cria um registo de erros internos occoridos. No entanto, o SMART foca-se em falhas mec\u00e2nicas e n\u00e3o electr\u00f3nicas, como por exemplo falha de alimenta\u00e7\u00e3o de um circuito interno. Como tal, muitas falhas n\u00e3o s\u00e3o analisadas. Pelos dados recolhidos no Google, 36% das avarias n\u00e3o foram identificadas pelo SMART o que torna este in\u00fatil para previs\u00e3o de falha. Continua \u00fatil porque permite detectar algumas falhas mas n\u00e3o devemos depender exclusivamente dele. No entanto o Google consegui fazer uma correla\u00e7\u00e3o entre falhas detectadas no SMART e falha no equipamento nos seguintes par\u00e2metros:<\/p>\n<ul>\n<li>scan errors<\/li>\n<li>reallocation count<\/li>\n<li>offline reallocation<\/li>\n<li>probational count<\/li>\n<\/ul>\n<p>Uma correla\u00e7\u00e3o obtida \u00e9, depois da primeira falha de scan, \u00e9 39 vezes mais prov\u00e1vel de um disco falhar nos pr\u00f3ximos 60 dias do que um disco em perfeitas condi\u00e7\u00f5es.<\/p>\n<p>&nbsp;<\/p>\n<h3>Excesso de carga = Tempo de vida reduzida?<\/h3>\n<p>Seria l\u00f3gico esperar que com uma maior carga de trabalho os discos tenderiam para ter um tempo de vida reduzido. Mas nos resultados obtidos n\u00e3o \u00e9 isso que se verifica.<\/p>\n<p><span style=\"color: #0000ff;\">After the first year, the AFR of high utilization drives is at most moderately higher <\/span><span style=\"color: #0000ff;\">than that of low utilization drives. <\/span><span style=\"color: #0000ff;\">The three-year group in fact appears to have the opposite of the expected behavior, <\/span><span style=\"color: #0000ff;\">with low utilization drives having slightly higher failure rates than high ulization ones.<\/span><\/p>\n<pre>\u00a0<a href=\"http:\/\/www.apmuga.com\/wordpress\/wp-content\/uploads\/2008\/09\/google_harddrive_2.png\"><img decoding=\"async\" class=\"size-full wp-image-452 aligncenter\" src=\"http:\/\/www.apmuga.com\/wordpress\/wp-content\/uploads\/2008\/09\/google_harddrive_2.png\" alt=\"\" width=\"100%\" srcset=\"https:\/\/www.apmuga.com\/wordpress\/wp-content\/uploads\/2008\/09\/google_harddrive_2.png 746w, https:\/\/www.apmuga.com\/wordpress\/wp-content\/uploads\/2008\/09\/google_harddrive_2-300x217.png 300w\" sizes=\"(max-width: 746px) 100vw, 746px\" \/><\/a><img decoding=\"async\" src=\"http:\/\/www.apmuga.com\/wordpress\/wp-content\/uploads\/2008\/09\/utilization_afr.png\" alt=\"Carga de utiliza\u00e7\u00e3o e AFR\" \/><\/pre>\n<p>Os resultados s\u00e3o bem claros, os primeiros meses s\u00e3o cruciais quando h\u00e1 excesso de carga. Com o passar do tempo, os discos com excesso de carga tendem normalizar e ter apenas uma taxa moderadamente superior.<\/p>\n<p>&nbsp;<\/p>\n<h3>Temperatura e falhas<\/h3>\n<p>O bom senso diz que quando mais quente &#8230; pior. Os fabricantes d\u00e3o uma gama de opera\u00e7\u00f5es entre 0\u00ba e 60\u00ba C e normalmente temos os discos por volta dos 35\u00baC (+\/-5 \u00baC). No entanto os valores obtidos mostram que \u00e9 o dobro pior ter discos arrefecidos abaixo dos 20\u00baC do que acima dos 50\u00baC.<\/p>\n<p style=\"text-align: center;\"><a href=\"http:\/\/www.apmuga.com\/wordpress\/wp-content\/uploads\/2008\/09\/google_harddrive_3.png\"><img decoding=\"async\" class=\"alignnone size-full wp-image-453\" src=\"http:\/\/www.apmuga.com\/wordpress\/wp-content\/uploads\/2008\/09\/google_harddrive_3.png\" alt=\"\" width=\"100%\" srcset=\"https:\/\/www.apmuga.com\/wordpress\/wp-content\/uploads\/2008\/09\/google_harddrive_3.png 476w, https:\/\/www.apmuga.com\/wordpress\/wp-content\/uploads\/2008\/09\/google_harddrive_3-300x192.png 300w\" sizes=\"(max-width: 476px) 100vw, 476px\" \/><\/a><\/p>\n<p>Aqui tenho que admitir que fiquei surpreendido. Isto acaba por ser uma boa not\u00edcia aos datacenters e aos gestores de servidores j\u00e1 que ficam com mais espa\u00e7o de manobra em rela\u00e7\u00e3o as instala\u00e7\u00f5es.<\/p>\n<p>&nbsp;<\/p>\n<p><strong>Notas finais:<\/strong><\/p>\n<p>N\u00e3o tentar ter um sistema ultra gelado mas sim apenas manter \u00a0um ambiente normal e controlado (35\u00baC +-5\u00baC).<\/p>\n<p>Quando se tem uma drive com carga excessiva, tomar cuidado nos primeiros\u00a0 6 meses.<\/p>\n<p>Realizar backups regulares e quando houver ind\u00edcios de erros no SMART, mudar para um novo disco.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Em 2007, o Google publicou na confer\u00eancia &#8220;Proceedings of the 5th USENIX Conference on File and Storage Technologies (FAST\u201907)&#8221; um artigo muito elucidativo sobre falhas de disco. Os dados foram obtidos das suas quintas de servidores com uma popula\u00e7\u00e3o de 100.000 discos o que permite recolher m\u00e9tricas com algum peso em termos estat\u00edsticos. Tendo eu [&hellip;]<\/p>\n","protected":false},"author":3,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[22],"tags":[28],"_links":{"self":[{"href":"https:\/\/www.apmuga.com\/wordpress\/wp-json\/wp\/v2\/posts\/51"}],"collection":[{"href":"https:\/\/www.apmuga.com\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.apmuga.com\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.apmuga.com\/wordpress\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/www.apmuga.com\/wordpress\/wp-json\/wp\/v2\/comments?post=51"}],"version-history":[{"count":9,"href":"https:\/\/www.apmuga.com\/wordpress\/wp-json\/wp\/v2\/posts\/51\/revisions"}],"predecessor-version":[{"id":460,"href":"https:\/\/www.apmuga.com\/wordpress\/wp-json\/wp\/v2\/posts\/51\/revisions\/460"}],"wp:attachment":[{"href":"https:\/\/www.apmuga.com\/wordpress\/wp-json\/wp\/v2\/media?parent=51"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.apmuga.com\/wordpress\/wp-json\/wp\/v2\/categories?post=51"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.apmuga.com\/wordpress\/wp-json\/wp\/v2\/tags?post=51"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}