ML不調


朝イチで監視サービスからfml用サーバー不調の警告が。

約40分後に回復するが、メールが集中してCPUを使い切っている状態だったよう。



特定のMLに集中していたためメールボムかと不安になるが、その後の調査で客先のメールサーバーが不調でこの時間帯に週末を挟んでしばらくぶりに復旧し、queに溜ってたメールが一斉配信されたためらしいと判明。



と同時にこちらの設定上でもfmlからのエラーメール用のアドレス(****-admin)を受信拒否しているため、こちらのqueにも相当数のエラーメールが放置されているのを改善すべく、各担当者のaddressに送信するよう運用方針を変更。

# 今迄何となく放置していたのだが、方針を決める良いきっかけになった。