2021年9月2日に、『mercari / merpay SRE Tech Talk』 を開催しました。
この記事では、当日の内容を簡単に紹介します!詳しくはYouTube上にある配信アーカイブをご視聴ください。
イベント概要
mercari / merpay SRE Tech Talk では、メルカリ・メルペイのサービスが拡大する中で、サービスの信頼性と拡張性を高めるためにメルカリ Microservices SRE/Core SREチーム、メルペイSREチームがそれぞれ行っている最新の取り組みについてご紹介します。
イベント詳細はイベントページを参照してください。
セッション内容
メルカリ / メルペイのSREの現在の取り組みについて、各社2コマずつ、計4つのTalk Sessionを行いました。
- Session1 メルペイSREチームのオンコール @tkuchiki
- Session2 メルカリにEmbedded SREとして入社して(数ヶ月でやったこと) shmizumo
- Session3 Embedded SRE for Merpay T
- Session4 Mercari Core SREチームの紹介 @ichirin2501
登壇者
今回の登壇者は、以下のメルカリ・メルペイの SRE 4名です。
- メルペイ @tkuchiki (SRE Team)
- メルカリ @shmizumo(Microservice SRE Team)
- メルペイ @T(SRE Team)
- メルカリ @ichirin2501(Core SRE Team)
モデレータは メルペイ @tjun(SRE Team, Engineering Manager) が務めました。
Session1 メルペイSREチームのオンコール @tkuchiki
メルペイの @tkuchiki によるセッションは、「メルペイSREチームのオンコール」と題して、メルペイのオンコール体制や取り組み方、アラートログやDashboardの確認共有方法、そしてどのように改善していくかをお話しました。
参考記事
- Merpay Tech Fest 2021_メルペイにおけるSLOの活用事例 – 信頼性を定義しよう / Use case of SLOs in Merpay Let’s Define Reliability – Speaker Deck
- メルペイのシステム運用とPlaybookの共通管理への挑戦
Session2 メルカリにEmbedded SREとして入社して(数ヶ月でやったこと) shmizumo
メルカリの @shmizumo によるセッションは、「メルカリにEmbedded SREとして入社して(数ヶ月でやったこと)」と題して、SLOの可視化についてやCDN障害時などの Kubernetes の過剰なスケールイン対策( Horizontal Pod Autoscaler の設定等で)などマイクロサービス寄りのお話を中心に発表されました。
また、メルカリの1つのチームで複数のマイクロサービスを管理する課題に対して"team-kit"という社内モジュール(Terraform等の設定によってチームの権限を割り当てる役割のもの)での対応方法について解説しました。
Embedded SRE for Merpay T
メルペイの @Tによるセッションは、「Embedded SRE for Merpay」と題して、メルペイにおける Embedded SRE のチームの紹介や役割、Embedded SREを実際にやってみた所感や今後についてお話しました。
セッション中では説明だけでなく、より詳細な内容はテックブログの記事も一緒に紹介していました。詳しくは以下の参考記事リストを参照してください。
参考記事
- The Many Shapes of Site Reliability Engineering | by Rob Cummings | Slalom Build | Medium
- 開発チームとともに歩むSREチームが成し遂げたいこと | メルカリエンジニアリング
- メルペイSREチームのこれまでとこれから | メルカリエンジニアリング
- メルペイのAML/CFTシステムを支える技術 | メルカリエンジニアリング
- Mercari Microservices Platformの進捗(2019年) | メルカリエンジニアリング
- Mercari Microservices Platform における Terraform 0.12 対応 | メルカリエンジニアリング
Mercari Core SREチームの紹介 @ichirin2501
メルカリの @ichirin2501によるセッションは、「Mercari Core SREチームの紹介 」と題して、タイトル通りMercari Core SREチームの紹介と、現在行っているプロジェクトである "Ishikari to Tokyo (I2T) Data Center Migration" についてお話しました。
Q&A / Free talk
最後に、全員のセッションに対する質疑応答や、SREにまつわる技術フリートークの時間を設けました。
Q&Aの内容の一部は以下のとおりです。
- Q. on-call中の時間外の対応について
- Q. 理想のオンコール体制は?
- Q. 複数のマイクロサービスに跨いた障害のエラーアラートはどう設定していますか?
- Q. TiDB vs. Spanner (vs. Cockroach DB) の比較の所感について
- Q. メルカリに入社して苦労した点は?
- Q. Embedded SREはSREと開発者の両方の知識が必要そうですがどうやってキャッチアップ・学習していますか?
- Q. 対応手順の自動化についての検討は?
- Q. お金に関わるマイクロサービスのエラーバジェットはどう設定されていますか?
- Q. 複数サービスで大規模障害になったときに誰がコントロールするか取り決めがあったりしますか?
- Q. 今後挑戦したい技術領域は?
- Q, APIの正確性に関するSLOは監視していますか?どのように監視していますか?
最後に
メルカリグループは SRE Tech Talk をはじめとしたエンジニア向けのイベントを定期的に開催しています。イベント開催案内を受け取りたい方は、connpassグループのメンバーになってくださいね!