2018/3/2 の theboss.tech 障害について

2018/3/2 10:00 頃より、筆者の運営する Mastodon インスタンス theboss.tech にて、ホーム TL が流れないなどの障害が発生しました。 2018/3/3 0:00 頃に復旧作業を行い、障害は解消しました。長時間の障害となり、利用者の皆様にはご迷惑をおかけしました。申し訳ございませんでした。

概要

10:30 頃に、ホーム TL が止まっているとの報告がありました。 12:00 頃に筆者も障害を確認し、精緻な調査はできませんでしたが、リモートからのトゥート受信ができていないようでした。またストリーミングの処理も怪しいようでした。他のインスタンスより確認したところ、リモートへの配信はできているようでした。

Sidekiq を確認したところ、デフォルトキューが実行中 0 にもかかわらず待機中が 5000 件近くある状態となっていました。

この時、筆者は外出中でメンテナンス手段を持っておらず、復旧を行うことができませんでした。

復旧・調査

dockerd プロセスが cpu を使い切っているようでした。 docker-compose down を試しましたが、エラーが返ってきて停止できず、 OS 自体をリブートしました。リブート後は正常動作を取り戻し、 Sidekiq ジョブの消化に時間がかかったものの、復旧しました。

後からエラーログを調べようとしましたが、ログが残っておらず調査ができませんでした。

今後の対策

複数台構成など考えられますが、とりいそぎ ssh を使わず、スマホから雑に再起動などを行う手順を用意しておきたいところです。 (今思えば、カゴヤの web コンパネから再起動をかければよかった話です)


See also