amazon EC2固まる

先月末releaseした某案件向けの環境(lennyのAMI)がウンともスンと言わなくなる。全portで接続不能となるもManagement Console上はrunningと表示されている。
release時に開発がバタバタで、監視もロクに仕込めずな環境だったんで、murphy's lawそのもの。

遅まきながらGold Supportに加入しtech supportと電話で話したところ、外側から見る限りinstanceには問題がなく、instance内部でnetworkをstuckさせる原因が何かあるはず & API rebootでは通常中身は失われないよとのこと、実際問題rebootするしかやれそうなこともないと判断し、乾坤一擲rebootしあっさり復旧。

その後開発担当のK君に調べてもらったところ、cronでphpのmaxlifetime越えの古いsession fileをpurgeするscriptの走った時刻がまさに固まった時刻とのことだったんで、恐らくコイツが原因だったんだろうと...。
しかしそんなんでOS全体が固まるなんて納得行かんよね...ということで暫らく経過観察。