memcached障害から学んだこと
今利用しているmemcachedの障害でBlogが一時的につながらない状況になってました。
理由はmemcachedの障害。
障害時間は不明
Twitterで落ちている連絡をいただきました^^;;
私はマスターサーバのIPを/etc/hostsに書いてあるので気がつかなかった。
SPOF(Single Point of Failure)があるとやっぱりまずいね。
復旧方法はmemcachedの再構築
再構築って言っても前に構築してあったmemcachedのAMI(Amazon Machine Image)からの起動で完了。
yumで最新版についでにあげました。
AWS便利だねーーー
SSHでもLoginできない障害ってかなりCriticalですよね。
AWS Web Consoleから強制終了をさせました。
でもmemcachedの障害でWeb閲覧ができなくなるのは致命的
本当にmemcachedの障害だけが原因なのかなぁ(要調査)
それによってはmemcachedを冗長構成する必要があるかを確認
これ以上サーバを増やしたくないぞ
nginxのサーバにmemcachedを入れてから対応しようかなぁー
でもMicro InstanceだとMemoryが少ないし
悩ましい・・・・
復旧したつもりでサービスインしたら実は設定項目の変更していなかった
wp-content/object-cache.phpの$buckets = array(‘memcached_IP);を変更するの忘れていました。
memcachedが起動していなかったら大変なことになるんだねーー^^;;
つーことでまじめにmemcachedの冗長化を考えます。
memcachedが落ちている間のサーバ負荷がすげー高かった
# w
20:06:36 up 4:31, 1 user, load average: 4.19, 1.96, 1.21
この負荷はmemcachedが落ちたことが原因なのかなぁ