パソコンに搭載されたハードディスクはいつ壊れるのでしょうか。今まで「ハードディスクは必ず壊れる」を前提に、故障に備えたバックアップの重要性が語られてきました。
ハードディスクには、SMARTという情報が記録され、エラーを知ることができます。しかし、一般パソコンユーザーが、この情報をもとにして交換の判断を下すには、厳しいものがありました。
プロの人は一体、ハードディスクの故障の兆候をどのように知るのでしょうか。そこで、「BackBlaze社」というプロのレポートを参考にして、健康状態のチェックと対処方法を解説します。
BackBlazeは、オンラインバックアップサービスの会社で、パソコンのデータを丸ごとバックアップしてクラウド上に保存するといったサービスを提供しています。2019年には、運営するデータセンターで十万台越えのハードディスクを運用しています。
今回は、BackBlazeの2016年のレポートを参考に、同社データセンターで稼働する67814台(2016年)のHDDのSMARTを、2014年以来記録し、HDDの故障とSMARTの関係性を分析したものです。(参考 BackBlaze: What SMART Stats Tell Us About Hard Drives October 6,2016)
ハードディスクやSSDには、SMARTと呼ばれる情報が記録されています。トータルの使用時間、使用中に起こったエラーの種類などが、ドライブの自己診断で記録されています。この情報を見ることでハードディスクの状態を把握します。
SMARTを確認するには、フリーソフトのCrystalDiskInfoを使用します。ここで詳細は省きますが、項目(属性)ごとに「生の値」のカラムで記録された情報を確認します。IDはSMARTを識別する数値で16進数で表記されていて、記事中で「SMART 〇〇」と書く場合は10進数表記になり、両方混在するので注意します。分かりやすいようにカッコ内に16進数も書いて説明します。
BackBlazeによると、ハードディスクの故障に関係する重要なSMARTは、5つあるといいます。膨大なハードディスクのSMARTより、故障とSMARTエラーの関係性を解析し、5つを最も重視しています。これ以外にも故障に関係するSMARTはありますが、BackBlazeは5個に絞っています。
属性(ID) | 項目名 |
---|---|
SMART 5 (05) | 代替処理済セクタ数 |
SMART 187 (BB) | 訂正不可能エラー数 |
SMART 188 (BC) | コマンドタイムアウト |
SMART 197 (C5) | 代替処理保留中のセクタ数 |
SMART 198 (C6) | 回復不可能セクタ数 |
5つのSMARTと故障率の関連性について以下のグラフで示しています。故障したドライブのうち、5つのSMARTの1つまたは複数で異常を示していたものは76.7%ありました。5つのSMARTは故障との関連性が高いと言えます。
もし5つのSMARTのうち、1つでも値が0では無くなったなら、故障が近いことを示しているので、バックアップと交換をします。値は大きくなると不良セクタやエラーの回数が増えていることを意味しますが、数値が大きいか小さいかよりも、非ゼロになったときが重要ということです。なぜなら、非ゼロになった途端に故障率が増加するからです。
また、5つのSMARTに1つまたは複数の異常があっても、故障せずに稼働しているものは4.2%ありました。比較的低いと思いますが、サーバー環境で動作しているハードディスクなので4.2%でも頷けます。
SMART 5は、前から重要視されていた属性で「代替処理済セクタ数」を表します。あるセクタ上にデータエラーがあり、他のセクタに移された場合にカウントされます。値はセクタ数を表しています。ドライブの寿命が近いことを示しており、早めの交換が必要です。
SMART 187 「訂正不可能エラー数」は、ハードウェアECCを使用して修正できなかった読み取りエラー数を表しています。通常は0で、1以上の値になるとハードディスクが故障する割合が増えます。SMART 187は即交換の赤信号で故障との関連性が高い属性です。まだ動いていたとしても、バックアップしてHDDの交換を考えましょう。SMART 187(BB)は、ハードディスク(Seagateにある属性)のメーカーによっては無い場合もあります。SMARTは各社が自由に実装するので、CrystalDiskInfoで調べても見つけられないことがあります。
「コマンドタイムアウト」を示すSMART 188。書き込みのレスポンスが異常に遅くなっているために起こるエラー。主な原因はドライブのデータケーブルや電源ケーブルにありますが、故障との関連性も知られています。値はゼロが理想的。
「代替処理保留中のセクタ数」は、エラーの起こっているセクタで、まだ削除されずに残っているセクタ数を表しています。SMART 197の値が減ると、SMART 5の値が増加します。この値が1以上になっているなら、近いうちにCrystalDiskInfoを起動してSMART 197を再びチェックします。もし、値が0でないなら、ドライブの交換が必要になります。
SMART 198 「回復不可能セクタ数」は、エラーが起きているセクタで修復不可能なセクタの数を示します。1以上の場合、ドライブの交換を考えます。
上に示した円グラフを見ると、故障ドライブのうち、23.3パーセントは、SMARTの警告が無く故障していました。前兆なく壊れることを示していて、結構大きな割合になっています。
また、経験上、パソコンからハードディスクを外して保管していても故障することがあり、SMARTのチェックだけでは故障の兆候をつかみきれません。
こうした故障から身を守るには、文書、写真などのバックアップを毎日とることです。データのみではなく、ウィンドウズといった作業環境も守るには、ウィンドウズがインストールされているシステムドライブもバックアップの対象にします。
さて、故障には、5つのSMARTにエラーが出る場合と、何のエラーも出ない場合があることを学びました。データを失うリスクを減らすには、普段から毎日のバックアップが必要になります。バックアップソフトを使用してバックアップを取ると、いざというときデータの復旧が可能です。また、ハードディスクを交換するタイミングは、CrystalDiskInfoでSMARTをチェックして、5つのSMARTに1つでもエラーが出たら交換を考えます。