mercari / merpay SRE Tech Talk を開催しました。 #mercari_techtalk

2021年9月2日に、『mercari / merpay SRE Tech Talk』 を開催しました。

この記事では、当日の内容を簡単に紹介します!詳しくはYouTube上にある配信アーカイブをご視聴ください。

イベント概要

mercari / merpay SRE Tech Talk では、メルカリ・メルペイのサービスが拡大する中で、サービスの信頼性と拡張性を高めるためにメルカリ Microservices SRE/Core SREチーム、メルペイSREチームがそれぞれ行っている最新の取り組みについてご紹介します。

イベント詳細はイベントページを参照してください。

セッション内容

メルカリ / メルペイのSREの現在の取り組みについて、各社2コマずつ、計4つのTalk Sessionを行いました。

  • Session1 メルペイSREチームのオンコール @tkuchiki
  • Session2 メルカリにEmbedded SREとして入社して(数ヶ月でやったこと) shmizumo
  • Session3 Embedded SRE for Merpay T
  • Session4 Mercari Core SREチームの紹介 @ichirin2501

登壇者

今回の登壇者は、以下のメルカリ・メルペイの SRE 4名です。

  • メルペイ @tkuchiki (SRE Team)
  • メルカリ @shmizumo(Microservice SRE Team)
  • メルペイ @T(SRE Team)
  • メルカリ @ichirin2501(Core SRE Team)

モデレータは メルペイ @tjun(SRE Team, Engineering Manager) が務めました。

Session1 メルペイSREチームのオンコール @tkuchiki

メルペイの @tkuchiki によるセッションは、「メルペイSREチームのオンコール」と題して、メルペイのオンコール体制や取り組み方、アラートログやDashboardの確認共有方法、そしてどのように改善していくかをお話しました。

参考記事

Session2 メルカリにEmbedded SREとして入社して(数ヶ月でやったこと) shmizumo

メルカリの @shmizumo によるセッションは、「メルカリにEmbedded SREとして入社して(数ヶ月でやったこと)」と題して、SLOの可視化についてやCDN障害時などの Kubernetes の過剰なスケールイン対策( Horizontal Pod Autoscaler の設定等で)などマイクロサービス寄りのお話を中心に発表されました。

また、メルカリの1つのチームで複数のマイクロサービスを管理する課題に対して"team-kit"という社内モジュール(Terraform等の設定によってチームの権限を割り当てる役割のもの)での対応方法について解説しました。

Embedded SRE for Merpay T

メルペイの @Tによるセッションは、「Embedded SRE for Merpay」と題して、メルペイにおける Embedded SRE のチームの紹介や役割、Embedded SREを実際にやってみた所感や今後についてお話しました。

セッション中では説明だけでなく、より詳細な内容はテックブログの記事も一緒に紹介していました。詳しくは以下の参考記事リストを参照してください。

参考記事

Mercari Core SREチームの紹介 @ichirin2501

メルカリの @ichirin2501によるセッションは、「Mercari Core SREチームの紹介 」と題して、タイトル通りMercari Core SREチームの紹介と、現在行っているプロジェクトである "Ishikari to Tokyo (I2T) Data Center Migration" についてお話しました。

Q&A / Free talk

最後に、全員のセッションに対する質疑応答や、SREにまつわる技術フリートークの時間を設けました。

Q&Aの内容の一部は以下のとおりです。

  • Q. on-call中の時間外の対応について
  • Q. 理想のオンコール体制は?
  • Q. 複数のマイクロサービスに跨いた障害のエラーアラートはどう設定していますか?
  • Q. TiDB vs. Spanner (vs. Cockroach DB) の比較の所感について
  • Q. メルカリに入社して苦労した点は?
  • Q. Embedded SREはSREと開発者の両方の知識が必要そうですがどうやってキャッチアップ・学習していますか?
  • Q. 対応手順の自動化についての検討は?
  • Q. お金に関わるマイクロサービスのエラーバジェットはどう設定されていますか?
  • Q. 複数サービスで大規模障害になったときに誰がコントロールするか取り決めがあったりしますか?
  • Q. 今後挑戦したい技術領域は?
  • Q, APIの正確性に関するSLOは監視していますか?どのように監視していますか?

最後に

メルカリグループは SRE Tech Talk をはじめとしたエンジニア向けのイベントを定期的に開催しています。イベント開催案内を受け取りたい方は、connpassグループのメンバーになってくださいね!

メルカリ/Mercari – connpass