豚吐露＠wiki

ヤプリ

最終更新：2023年08月17日 22:56

ohden

- view

管理者のみ編集可

顧客影響に気づけるアラート設計と原因特定が素早くできるSREへヤプリが乗り越えてきた監視運用の失敗と改善

望月真仁株式会社ヤプリ SREグループマネージャー
佐々木千枝 New Relic 株式会社オブザーバビリティ技術本部部長

障害の分類
　気づける←→気づけない
　理解できる←→理解できない
actionableな監視

気づこう

オライリー監視入門

ユーザー視点の監視：ユーザーが使えてるか？大事。
→UX

理解しよう

エンジニアスキルに頼るしかない状態
→データドリブンなトラシュー
　→システムからデータを収集
　　→集めたい情報→武器
　　　　M：メトリクス
　　　　E：イベント
　　　　L：ログ
　　　　T：トレース

NewRelic：
ヤプリ：
SRE：

監視ツールの選定ポイント

アクセスのスパイク
主機能の障害を２週連続で起こした
→①障害の緊急性にふさわしいレベルで通知されなかった
→②障害サーバからアラート通知がなかった
→③特定のエンジニアしか対応できない障害だった
→④状況把握、原因調査に時間がかかった
→⑤事前の予兆に気付けなかった

検知
障害対応
プロアクティブ

①
監視NewRelicからslackのinfo/warn/errorへ通知
　→errorチャンネルのみalert
　→利用者：クーポン、ポイントカード、スタンプが使えない
　　→CPU使用率が高い程度の認識

Appium→外形監視

ping形式の外形監視：上手く障害を検知できない

ScriptedAPI：E2E監視
→JS利用して監視
　→requestを自由に加工
　→assertで独自の条件
　→条件分岐自由に設定
　→ユーザ操作をシナリオ化

②飛んでほしい通知が飛んでなかった
→通知見直し
　→levelに加えサービスごとの通知を追加
　　→必要なaction毎の通知分類

③
最初に気づいたエンジニアが何をしたら良いかわからない。
→対処方法はわかるが、その権限が無かった

④
旧：PHP on EC2
新：Go on Fargate

APM
→特定条件で大量loopが発生する不具合発生
　→根本原因は別にあった

真の原因：table lock
→解除待ち大量発生
　→conn枯渇
　　→DB接続不良をトリガに任意レスポンスを出す
　　　→任意レスポンスをトリガに大量loop
　　　　→DB connがより枯渇
　　　　　→悪循環

APM大事
→目立った事象に囚われず多角的視野が必要

⑤
予兆1：CPU使用率が日々上昇、一方徐々にCPU使用率が低下する鯖があった
予兆2：半年前と比較し全体的なCPU使用率が高くなっていた
→いずれもしきい値の範囲内。
　→見える化：ダッシュボード

監視環境のupdate

監視サービスの移行
→NewRelicへ移行

SLI/SLO監視

検証環境も監視対象とし、検証環境で事前に課題を見つける
→予算がいくらあっても足りない
　→NewRelicOne

更新日： 2023年08月17日 (木) 22時56分35秒

「ヤプリ」をウィキ内検索

[Amazon商品]

豚吐露＠wiki

記事メニュー

言語

●JavaScript/ECMAScript
　jQuery
　TypeScript
　RequireJS
　D3.js
　Vue.js
　Lodash/Underscore
　Vite
　Svelte
　Axios
　Playwright
●nodeJS
●C#/ASP.Net
　VisualStudio
　VisualWebDeveloper
　IIS
●C/C++
　VisualC++
　WindowsSDK
●Objective-C
●Java
　Hibernate
●Perl
●Ruby
　RubyOnRails
●Python
　Flask
●Flex/ActionScript
●Scala
●VBS(VisualBasicScript)
●LegacyASP(VisualBasicScript)
●PHP
　FuelPHP 1.6
●SQL/Database
●sh script
●bat(バッチファイル)
●SVG
●正規表現
●CSS
●StyleSheet(XSLT)
●GoogleAppsScript
●markup
　markdown
　textile
　Mermaid
●JSON

Database

●Database/SQL全般
●PostgreSQL
●MySQL
●SQLite
●Oracle
●SQL Server
●Realm

Application

●JBossAS
●Postfix
●iptables
●samba
●Doxygen
●WebLogic
●Opera
●Eclipse
●Selenium
●Redo
●XenServer
●nmap
●Jenkins
●Folder2Iso
●Thunderbird
●Fritzing
●Docker
●PlantUML
●Mermaid
●TeraTerm
●Microsoft Office Excel
●Vivaldi
●7zip
●sed
●DVD Decrypter
●anyenv

Editor/Office

●LibreOffice
●Visio
●サクラエディタ
●Visual Studio Code
●vim

VM

●VMWare ESXi
●VirtualBox
●Hyper-V
●Vagrant
●proxmox

構成管理

●SubVersion
●git
●Mercurial
●BitKeeper

脆弱性検査ツール

●Vuls
●Trivy
●Dockle
●BlackDuck

Framework

●FuelPHP 1.6
●Hibernate

CMS

●FlatPress
●concrete5

静的解析

●静的解析ツール

OS/ミドルウェア/Platform

●linux(debian系)
●linux(redhut系)
●Windows
●Mac OS X
●iOS
●Android
●MeeGo
●RaspberryPi
●Arduino

Network

●Network全般

Cloud/VPS/Service

●heroku
●render
●Fly.io
●vultr
●WebARENA Indigo
●お名前.com VPS(KVM)
●＠wiki

●OnlineService

Hardware

●SBC
　RaspberryPi
　Arduino
　SPRESENSE
●IoT
　スマートメーター
●回路
●memory

●Hardware情報
●FPGA
●S-ATA
●USB充電
●Serial通信

●半導体

data/etc

●GNSS
●CTF
●StartSSL
●outlook.com
●font
●MVNO
●文字コード
●音声読み上げ
●desmos

●セミナー/勉強会
●構成管理
●開発手法
●品質管理
●プレゼンテーション
●全文検索

●情報処理技術者試験
●AWS認定試験
●azure認定試験
●etc...
●メモφ(．．*)メモメモ...

●ネタ

●bookmark

●Game
●Snowboard
●チャリ
●子育て
●広島東洋カープ
●料理

●倉庫

アクセス数

総数
今日
昨日

-
-
-

更新日： 0000-00-00 00:00:00

人気記事ランキング

最近更新されたページ

人気Wikiランキング

atwikiでよく見られているWikiのランキングです。新しい情報を発見してみよう！

全体ページランキング

最近アクセスの多かったページランキングです。話題のページを見に行こう！

名前:
コメント:

ヤプリ

顧客影響に気づけるアラート設計と原因特定が素早くできるSREへ ヤプリが乗り越えてきた監視運用の失敗と改善