豚吐露@wiki
転生大規模サービス運用担当者
最終更新:
ohden
-
view
転生したら大規模サービス運用担当者になっていた件~AzureでSaaS提供に奮闘する男の物語~
本田昴大 株式会社フィックスポイント
いかにして運用担当となったのか?
Kompira AlertHub
大量のalertからactionを行う。
Kompira Pigeon
障害発生時tel連絡。
Kompira Sonar
サーバー・ネットワーク情報を自動収集し、構成情報を管理する
Kompira Greak
運用のためのセキュアなリモート操作環境の構築
Konpira on Azure
あれ、僕なんかやっちゃいました? lightside
未経験→先入観が無い→怖さを知らない。
システム監視on Azure
→LogicApps+ContainerInstances=低コストなシステム監視
→機能的には不足する部分もあるが...
→LogicApps ≒ StepFunction on AWS
→LogicApps+ContainerInstances=低コストなシステム監視
→機能的には不足する部分もあるが...
→LogicApps ≒ StepFunction on AWS
あれ、僕なんかやっちゃいました? darkside
ServerBusの権限設定
→送信者ロールが受信者ロールを内包すると勘違い
→受信者ロールを削除
→削除後テストはok
→ロール伝搬のタイムラグは最大30分
→30分後に障害発生。
→送信者ロールが受信者ロールを内包すると勘違い
→受信者ロールを削除
→削除後テストはok
→ロール伝搬のタイムラグは最大30分
→30分後に障害発生。
負荷集中による障害
→1:30から500万件の要求。
→スケーリング
→壊れることはない
→1:30から500万件の要求。
→スケーリング
→壊れることはない
Azure ADで大規模障害
→Azure回復まで待つしか無い。
→プラットホームの冗長化
→Azure回復まで待つしか無い。
→プラットホームの冗長化
コンテナのノード数間違えて、ほとんどのコンテナ殺した...
これからのこと
運用の今後
SREチーム設立
→Site Reliability Enginerering
→サービス信頼性の指標の決定及び計測
→自動化による運用負荷の軽減
→運用プロセスの改善・成熟
→New Relic、argo
→Site Reliability Enginerering
→サービス信頼性の指標の決定及び計測
→自動化による運用負荷の軽減
→運用プロセスの改善・成熟
→New Relic、argo
更新日: 2023年08月17日 (木) 23時00分43秒