豚吐露@wiki

転生大規模サービス運用担当者

最終更新:

ohden

- view
管理者のみ編集可

転生したら大規模サービス運用担当者になっていた件~AzureでSaaS提供に奮闘する男の物語~

本田昴大 株式会社フィックスポイント


いかにして運用担当となったのか?

Kompira AlertHub
大量のalertからactionを行う。
Kompira Pigeon
障害発生時tel連絡。
Kompira Sonar
サーバー・ネットワーク情報を自動収集し、構成情報を管理する
Kompira Greak
運用のためのセキュアなリモート操作環境の構築

Konpira on Azure


あれ、僕なんかやっちゃいました? lightside

未経験→先入観が無い→怖さを知らない。

システム監視on Azure
→LogicApps+ContainerInstances=低コストなシステム監視
 →機能的には不足する部分もあるが...
 →LogicApps ≒ StepFunction on AWS

あれ、僕なんかやっちゃいました? darkside

ServerBusの権限設定
→送信者ロールが受信者ロールを内包すると勘違い
 →受信者ロールを削除
  →削除後テストはok
   →ロール伝搬のタイムラグは最大30分
    →30分後に障害発生。

負荷集中による障害
→1:30から500万件の要求。
 →スケーリング
 →壊れることはない

Azure ADで大規模障害
→Azure回復まで待つしか無い。
→プラットホームの冗長化

コンテナのノード数間違えて、ほとんどのコンテナ殺した...


これからのこと

運用の今後

SREチーム設立
→Site Reliability Enginerering
 →サービス信頼性の指標の決定及び計測
 →自動化による運用負荷の軽減
 →運用プロセスの改善・成熟
  →New Relic、argo



更新日: 2023年08月17日 (木) 23時00分43秒

名前:
コメント:

すべてのコメントを見る
記事メニュー
目安箱バナー