仮想 通貨 現在k8 カジノ「気付けない」「気付いても対処できない」障害をヤプリのSREグループはどう回避したのか仮想通貨カジノパチンコ劇場 版 ま ど マギ パチンコ アプリ
パチスロ デビル メイク ライ クロスk8 カジノ
秋田 市 パチンコ イベント 障害は起きないに越したことはないが、残念ながらいつかは発生してしまうものだ。そのため監視で予兆を発見し、迅速に対処できる体制を構築することが重要になる。ただ、そこで懸念されるのは「構築した監視体制が適切かどうか」だ。
どのような監視でもサーバがシャットダウンする、サービスが落ちるといった非常事態を見逃すことはないだろう。しかし、「半年間でCPU使用率のアベレージが上昇している」といった微妙な変化は検知しにくい。気にしなくてもいいかもしれないが、もしかしたら重大な障害につながる予兆かもしれない。
Cloud Operator Days Tokyo 2022のセッション「顧客影響に気付けるアラート設計と原因特定が素早くできるSREへ ヤプリが乗り越えてきた監視運用の失敗と改善」では、そういった“監視の課題”に直面したヤプリと取り組みについて紹介した。
ヤプリのSREグループが直面した監視の課題
ヤプリの望月真仁氏(SREグループ マネジャー)はSRE(Site Reliability Engineering)グループとして監視業務に携わっている。
ヤプリの望月真仁氏
同社が提供する「Yappli」はノーコードでアプリの開発、運用、分析ができるアプリプラットフォームだ。導入社数は600社以上、アプリケーションの累計ダウンロード数は1億以上に達し、アップデート回数は年間200回を超えるという。同社は事業拡大とともに2019年にSREグループを新設し、2020年にかけてベースとなる監視の考え方、仕組みを構築した。それ以来、大きな障害がなかったため「われわれのサービスは安定している」と安心していた。
だが実は、見えないところで問題が進行していた。ある日、Aサービスのサーバのうち2台のプロセスで障害が発生し、残ったサーバもアクセスのスパイクに耐え切れず利用不可になった。さらに翌週にはBサービスのサーバがアクセスのスパイクに耐え切れず利用不可となった。
望月氏は当時を振り返り「インフラを起因とする障害が立て続けに発生し、アプリケーションの重要機能が使えなくなった。SREグループとしてはなかなか”しびれる”状況だった」と語る。障害の再発防止のため、望月氏らSREグループは早速、振り返りを実施。ポストモーテムも使ってさまざまな監視の課題を洗い出したところ、5つの課題があることが分かった。
現実と監視体制にギャップがある
1つ目の課題は「障害の緊急性にふさわしいレベルで通知されていなかった」こと。
#CmsMembersControl .CmsMembersControlIn {width:100%;background:url(https://image.itmedia.co.jp/images/spacer.gif) #DDD;opacity:0.05;filter:progid:DXImageTransform.Microsoft.Alpha(Enabled=1,Style=0,Opacity=5);z-index:1;}続きを閲覧するには、ブラウザの JavaScript の設定を有効にする必要があります。仮想通貨カジノパチンコフットサル レディース 大会