·
Double-Takeサーバを再起動
Double-Takeが稼働しているファイルサーバから「Kernel memory was exhausted.」とアラートが発報されていたので再起動した。
こういうHAとかレプリケーションとかクラスタリングのサーバを再起動するときは手順に気を使う。
順番としてはフェイルオーバーを解除して、LAN接続を切って、レプリケーションを解除して、予備系サーバ、主系サーバの順で再起動して、逆手順で接続していく。
これ、マニュアル化されてたとしてもその意味理解できてないと手順間違えたときにデータが簡単に壊れる。
- フェイルオーバ切るのは作業中にフェイルオーバしないように。よって、2でLAN接続が切れた時点でフェイルオーバさせないために前にやる。
- LAN接続を切るのは作業中の予備系、主系の差分を少なくするために。よって、3でレプリケーション解除する前にやる。
- レプリケーションを解除するのはいきなり予備系を再起動すると予備系に書き込まれるデータが損失する可能性があるため、といってもおそらく上手くやってくれるが念のため。よって、4の予備系再起動の前にやる。
- 予備系、主系の順で再起動。主系再起動した時点でレプリケーションが始まるから3やった意味がなくなるのでこの順。
というわけでこの順になる。
Double-Takeに限らず、仮想化でもストレージでも「HAだから落ちないよ!」なんてのはマーケティング上の話であって、少なくともそれを技術者が過信しちゃダメ。
この記事へのコメント
※ このコメントは旧ブログシステム(tDiary)からの移行です。
hajimeさんからのコメント(2011-09-13 14:58:01)
3.0から3.1にバージョンアップしたのでテスト。