障害は続く part.2

今度は別案件向けの1台単体構成のserverにdisk障害。
19:15頃nagiosから警告メールが来て確認するとwebは辛うじて動いていて肝心のdocrootを見せず404、sshでも接続できない状態だったので、hardwareかnetwork系の問題だろうとiDCに出向き確認。
するとこんなerrorがconsoleに。

Aug  4 14:37:34 hogehoge kernel: sd 0:1:0:0: SCSI error: return code = 0x08000002
Aug  4 14:37:34 hogehoge kernel: sda: Current: sense key: Aborted Command
Aug  4 14:37:34 hogehoge kernel:     Additional sense: No additional sense information
Aug  4 14:37:34 hogehoge kernel: end_request: I/O error, dev sda, sector 70059055
Aug  4 14:37:53 hogehoge kernel: sd 0:1:0:0: SCSI error: return code = 0x08000002
Aug  4 14:37:53 hogehoge kernel: sda: Current: sense key: Aborted Command
Aug  4 14:37:53 hogehoge kernel:     Additional sense: No additional sense information
Aug  4 14:37:53 hogehoge kernel: end_request: I/O error, dev sda, sector 70059055
Aug  4 14:38:50 hogehoge kernel: sd 0:1:0:0: SCSI error: return code = 0x08000002
Aug  4 14:38:50 hogehoge kernel: sda: Current: sense key: Aborted Command
Aug  4 14:38:50 hogehoge kernel:     Additional sense: No additional sense information
Aug  4 14:38:50 hogehoge kernel: end_request: I/O error, dev sda, sector 70547879

consoleでのloginがままならず、x3250のresetボタンを押すも再起動失敗、ならばと電源ボタンを押してcold boot、これでfsckまで漕ぎつけfileを潰しまくった挙句起動成功。
その後も同様のerrorが出続けるのでこのdiskを使い続けることを断念、一旦officeに戻り代替のx3450にdebian installをして再度iDCに搬入。

iDCにoutsourceしているnetscreen設定だが時間帯的にサポートが期待できず、自分で設定して手間取るがなんとかやっつけたところで朝。
道が混んで移動で時間を無駄にしないうちにと自宅に戻り、その後シコシコとapps側の設定を手伝う。
眠くて作業ミスしかねない感じになったんで2時間弱仮眠後出社、DB系の復旧と簡単な再試験を実施して復旧完了、ほぼ24時間経過。

その後の調査だが、syslogが飛ぶ、apacheaccess.logも途中でアクセスできなくなるなど苦戦。
侵入されてしまった可能性を疑いヒヤヒヤしたが、最初のdisk error時刻にMySQLがerrorを吐いているのをdaemon.logで発見し、DB.table名から追ってたまたま弊社側web制作担当者が同居させていた開発環境内の管理appにアクセスして確かに挙動が変だったという証言まで得られたので、とりあえず侵入がきっかけではないと断定。

しかし、LAMPのappsでdiskが壊れるなんて聞いたことがないのでやっぱり納得は行かず、disk障害なんてそんなものか...。
SATAのraid1を信じていたんだが、今回LEDの類いは一切異常を示していなかったので、file systemの可能性がなくなる訳ではないって好例。