なんでかっていうと、ソフトウェアの問題ならともかくハードウェアなんでしょう?「障害を予期して」なんて昨日は書いちゃったけど、ハードウェアだったらまぁ無理。本当は二重化してなきゃいけないんだけど、資金の都合で出来ないんだったらもう仕方がない。障害が起きるという前提で、そこからどうするかが求められるわけですよね。ええ。
一番大事なのは素早い復旧。初動の問題については川上さんも言及されてるけど、復旧に掛かった時間を考えると初動が1時間早かったら問題にならなかったかって言うと別にそういうわけではなさそう。
次に、障害情報に関する告知。これは戀塚さん関連のまとめにもあるけどちょっと遅すぎ。別に戀塚さんが動いたから解決したわけではないのだろうけど、でも印象としてはそうなっちゃってる。その間に右往左往したユーザーにとって見れば「運営は修正する気がない!」。何時間も動けなかったんだったら仕方がないけど、既に復旧作業を始めていたにもかかわらず「作業始めるのが遅い」と思われていたんだとしたらそれは何というか本当に勿体ない。現場のエンジニアの人たちのことを考えると心が痛い。広報もっと頑張れよ。
最後にプレミアムの扱い。夏野さんの発言は放っておくとしても、プレミアム回線にだけ障害が起きた場合、一般回線を空けてそこにプレミアム回線を振り分ける…という仕組みはできないもんなのだろうか。ただの混雑とは種類が違う作業になるんだろうけど、想定しておくべきなんじゃないのかな。
何が悔しいのかというと。
他の人はどうか知らないけど、僕の認識では「ドワンゴ」「ニワンゴ」というのは技術屋の集まりで、基本的にあらゆることを技術的アプローチで解決していって素晴らしいサービスを作り上げたと思ってるんだけど、その技術屋集団が起こりうる障害にたいして諦めるしかない、と思っているところ。現場はそうは思ってないかも知れないし忸怩たる思いかも知れないけれども、現状ある解決策に対する資金面での判断は「無理」なわけで、逆に言えば資金に適う解決策がないってこと。それが何か悔しい。
技術で障害を回避するのが不可能だったとしてもその後のアプローチを技術的に改善することは出来たはずで、結構そういうところの技術ってあるはずなのに出来なかったってことは、単に「やらなかった」ってことなのかなぁという。そういう技術屋が負けた感を勝手に感じていて、それが悔しいというか、残念というか。
いや、それでも何とかしてくれると僕は信じてる。むしろ、3ヶ月後くらいに同種の障害が起きて欲しいなとも思ってたりしてw
そこで見事な対応がなされたら、技術者としてはもの凄いカタルシスを感じるよ。