memcached障害から学んだこと

今利用しているmemcachedの障害でBlogが一時的につながらない状況になってました。
理由はmemcachedの障害。

障害時間は不明
Twitterで落ちている連絡をいただきました^^;;

私はマスターサーバのIPを/etc/hostsに書いてあるので気がつかなかった。

SPOF(Single Point of Failure)があるとやっぱりまずいね。

復旧方法はmemcachedの再構築
再構築って言っても前に構築してあったmemcachedのAMI(Amazon Machine Image)からの起動で完了。
yumで最新版についでにあげました。
AWS便利だねーーー

SSHでもLoginできない障害ってかなりCriticalですよね。
AWS Web Consoleから強制終了をさせました。

でもmemcachedの障害でWeb閲覧ができなくなるのは致命的
本当にmemcachedの障害だけが原因なのかなぁ(要調査)
それによってはmemcachedを冗長構成する必要があるかを確認

これ以上サーバを増やしたくないぞ
nginxのサーバにmemcachedを入れてから対応しようかなぁー
でもMicro InstanceだとMemoryが少ないし
悩ましい・・・・

復旧したつもりでサービスインしたら実は設定項目の変更していなかった
wp-content/object-cache.phpの$buckets = array(‘memcached_IP);を変更するの忘れていました。
memcachedが起動していなかったら大変なことになるんだねーー^^;;

つーことでまじめにmemcachedの冗長化を考えます。

memcachedが落ちている間のサーバ負荷がすげー高かった

# w
20:06:36 up 4:31, 1 user, load average: 4.19, 1.96, 1.21

この負荷はmemcachedが落ちたことが原因なのかなぁ