里ワンオフ眠ミミの購入権獲得後も特に大きな反動もなく今回は大丈夫かな?と思ってた矢先に来ましたよ。
まずは昼過ぎにウイルス発生。
しかし何時もと様子は違い、最終的な作業終了時刻はなんと翌日早朝 4時。
これだけでも十分地雷だが、その間にサーバー障害発生。
こっちは 20時20分頃から 26時過ぎ頃までだったが、障害内容が痛すぎる。
なんと 4,000通ほどのメールキューを抱えたまま
クラッシュしてダウン。
ping も飛びませんよえぇ。
しかも SDS (SunDiskSuite) でミラーしてるディスクは、シリアル繋いで最後に吐いていたコンソールログを見る限りではどっちも死んでるみたい。
最悪朝日を見る可能性もあったが、最終的にはバックプレーンの交換でリストア作業は回避。
どっちも死んでいたと思われたのは、バックプレーンの故障により両方のディスクのオンライン・オフラインが繰り返されたことにより双方でエラーが発生したため。
d5 は d15/d25 = Maintenance/Last errer になっていたので、
# metadetach -f d5 d15
# metattach d5 d15
接続したら勝手に再構築を始めるので、metastat [ミラーセット名] で進捗状況を確認。
しかし Last Erred の方はちょっと面倒で、Maintenance 側を切断・接続して再構築した後、今度は Last Erred 側を切断・接続して再構築を行わないと、ミラーセットがいつまで経っても Needs Maintenance になったままになる。
ちなみにサブミラーのステータスは、
- Okay:
問題なし。
- Maintenance:
真っ先に交換すべき対象。
- Last Erred:
エラーが発生しながらも I/O 処理が続いている状態。
複数の (RAID-1 では全ての、かも) ディスクで障害が発生している時にこのステータスになる。
この場合は Last Erred のディスクで I/O 処理が続いているので、先に Maintenance のディスクを交換してミラーを再構築した後、Last Erred のディスクを交換してミラーを再構築を行うこと。
でないと Last Erred のディスクで I/O 処理が続いていたので、その間のデータが失われる。
詳しい概要については Solaris10 System Administrator Collection の「
RAID-1 および RAID-5 ボリューム内のコンポーネントの交換と有効化の概要」を参照。
胃が痛かった一番の原因は、なんといってもメールキュー 4,000通が配送されないまま残っていたこと。
こいつらが消えたらメールロストとなり、ごめんなさいじゃ済まない大事になる可能性も。
メールキューそのものは FC で接続された外部ディスクにあるから消えることはないと思うが、リストア作業が発生したときにオペミスで消えてしまうことも考えられるので安心は出来ない。
最終的には問題なく再処理も出来たので良かったが、過去数年における仕事の中でも第 1位の胃が痛くなる障害ですた。
幸福と不幸の等価交換、恐るべし。((((;゚Д゚))))
└ G兄
└ G兄
└ G兄
└ G兄
└ G兄
└ G兄
└ G兄
└ G兄
└ 山銀
└ G兄