Searching...
SoBrief
ไทย
EnglishEnglish
EspañolSpanish
简体中文Chinese
繁體中文Chinese (Traditional)
FrançaisFrench
DeutschGerman
日本語Japanese
PortuguêsPortuguese
ItalianoItalian
한국어Korean
РусскийRussian
NederlandsDutch
العربيةArabic
PolskiPolish
हिन्दीHindi
Tiếng ViệtVietnamese
SvenskaSwedish
ΕλληνικάGreek
TürkçeTurkish
ไทยThai
ČeštinaCzech
RomânăRomanian
MagyarHungarian
УкраїнськаUkrainian
Bahasa IndonesiaIndonesian
DanskDanish
SuomiFinnish
БългарскиBulgarian
עבריתHebrew
NorskNorwegian
HrvatskiCroatian
CatalàCatalan
SlovenčinaSlovak
LietuviųLithuanian
SlovenščinaSlovenian
СрпскиSerbian
EestiEstonian
LatviešuLatvian
فارسیPersian
മലയാളംMalayalam
தமிழ்Tamil
اردوUrdu
The Site Reliability Workbook
ทดลองใช้งานเต็มรูปแบบ 3 วัน
ปลดล็อกการฟังและอื่นๆ อีกมากมาย!
ดำเนินการต่อ

ประเด็นสำคัญ

1. SLO คือเข็มทิศสำหรับการตัดสินใจเรื่องความน่าเชื่อถือ

เมื่อคุณมีแนวทางพื้นฐานแล้ว การตั้งค่า SLO เบื้องต้นและกระบวนการปรับปรุงให้เหมาะสมจะเป็นเรื่องง่ายขึ้น

SLO ช่วยกำหนดลำดับความสำคัญ Service Level Objectives (SLO) เป็นหัวใจสำคัญของ SRE เพราะช่วยสร้างกรอบการตัดสินใจโดยใช้ข้อมูลจริง เพื่อกำหนดว่าควรลงทุนทรัพยากรวิศวกรรมที่จำกัดไปที่ไหน แทนที่จะตั้งเป้าหมายความน่าเชื่อถือ 100% ที่เป็นไปไม่ได้ SLO จะตั้งเป้าหมายที่สมเหตุสมผลตามความต้องการของผู้ใช้และเป้าหมายทางธุรกิจ ทำให้ทีมสามารถบาลานซ์ระหว่างการพัฒนาฟีเจอร์ใหม่กับงานด้านความน่าเชื่อถือได้อย่างเหมาะสม งบประมาณความผิดพลาด (error budget) ที่ได้จาก SLO จะบอกขอบเขตเวลาที่ระบบสามารถล่มหรือช้าลงได้โดยยังยอมรับได้ เป็นสัญญาณชัดเจนว่าเมื่อใดที่ความน่าเชื่อถือควรมีความสำคัญมากกว่าการเพิ่มฟีเจอร์ใหม่

เริ่มต้นง่าย ๆ แล้วปรับปรุงบ่อย ๆ การนำ SLO มาใช้ไม่จำเป็นต้องสมบูรณ์ตั้งแต่วันแรก เริ่มจากการเลือก Service Level Indicators (SLI) ที่สำคัญซึ่งสะท้อนเส้นทางการใช้งานหลักของผู้ใช้ เช่น ความพร้อมใช้งานหรือความหน่วงเวลา แล้ววัดผลจากข้อมูลเหล่านั้น ใช้ข้อมูลนี้ตั้งเป้าหมาย SLO เบื้องต้น แม้จะอิงจากประสิทธิภาพปัจจุบัน ขั้นตอนที่สำคัญที่สุดคือการทำให้ผู้มีส่วนได้ส่วนเสียเห็นพ้องต้องกันในเป้าหมายเหล่านี้และยอมรับการใช้ error budget ในการตัดสินใจ

SLO ช่วยเสริมพลังให้ทีม SLO ที่ชัดเจนและนโยบาย error budget ที่โปร่งใสช่วยให้ทีม SRE และทีมพัฒนามีข้อมูลเชิงวัตถุประสงค์ในการปฏิเสธความต้องการที่ไม่สมเหตุสมผล หรือใช้เป็นเหตุผลในการลงทุนเวลาในโครงการด้านความน่าเชื่อถือ พวกเขาจะเปลี่ยนการถกเถียงที่เป็นเรื่องส่วนตัวเกี่ยวกับ “ความน่าเชื่อถือที่พอเหมาะคือเท่าไหร่” ให้กลายเป็นการสนทนาเชิงข้อมูลที่อิงผลกระทบต่อผู้ใช้และคุณค่าทางธุรกิจ ความเข้าใจร่วมนี้ช่วยส่งเสริมความร่วมมือที่ดีขึ้นและทำให้งานด้านความน่าเชื่อถือได้รับความสำคัญอย่างเหมาะสม

2. วัดประสบการณ์ผู้ใช้ ไม่ใช่แค่ตัวชี้วัดระบบ

ผู้ใช้ของคุณ ไม่ใช่ระบบมอนิเตอร์ เป็นผู้ตัดสินความน่าเชื่อถือ

โฟกัสที่ความพึงพอใจของผู้ใช้ เป้าหมายสูงสุดของ SRE คือการสร้างความพึงพอใจให้ผู้ใช้ด้วยการให้บริการที่น่าเชื่อถือ นั่นหมายความว่าตัวชี้วัดที่สำคัญที่สุดคือสิ่งที่สะท้อนประสบการณ์ของผู้ใช้อย่างตรงไปตรงมา ไม่ใช่แค่ตัวชี้วัดสุขภาพภายในระบบ เช่น การใช้ CPU หรือพื้นที่ดิสก์ แม้จะมีประโยชน์สำหรับการแก้ไขปัญหา แต่ไม่ได้บอกว่าผู้ใช้สามารถใช้งานบริการได้อย่างมีประสิทธิภาพหรือไม่

SLI สะท้อนประสบการณ์ Service Level Indicators (SLI) ควรถูกเลือกเพื่อวัดแง่มุมของบริการที่สำคัญต่อผู้ใช้ ตัวอย่างที่พบบ่อยได้แก่:

  • ความพร้อมใช้งาน (คำขอที่สำเร็จ / คำขอทั้งหมด)
  • ความหน่วงเวลา (คำขอที่เร็วกว่า X มิลลิวินาที / คำขอทั้งหมด)
  • ความถูกต้อง (ผลลัพธ์ที่ถูกต้อง / ผลลัพธ์ทั้งหมด)
  • ความสดใหม่ (ข้อมูลที่อัปเดตล่าสุด / ข้อมูลทั้งหมด)

วัดใกล้ผู้ใช้ที่สุด เพื่อจับประสบการณ์ผู้ใช้อย่างแม่นยำ ควรวัด SLI ใกล้กับผู้ใช้มากที่สุด เช่น การเก็บข้อมูลจากฝั่งไคลเอนต์หรือบันทึกของโหลดบาลานเซอร์ ซึ่งมักดีกว่าการวัดจากล็อกของเซิร์ฟเวอร์แอปพลิเคชัน เพราะรวมถึงผลกระทบของเครือข่ายและปัญหาฝั่งหน้าเว็บด้วย ควรเปรียบเทียบข้อมูล SLI กับช่องทางรับฟังเสียงผู้ใช้ เช่น ตั๋วซัพพอร์ตหรือโซเชียลมีเดียเป็นประจำ เพื่อให้มั่นใจว่าตัวชี้วัดสอดคล้องกับความรู้สึกของผู้ใช้จริง

3. กำจัดงานซ้ำซากด้วยวิศวกรรมอย่างเด็ดขาด

สำหรับ SRE งานปฏิบัติการที่ต้องทำด้วยมือและเป็นภาระที่ถูกกำหนดโดยโครงสร้างถือเป็นสิ่งที่น่ารังเกียจ

งานซ้ำซากขัดขวางความก้าวหน้า งานซ้ำซาก (toil) หมายถึงงานที่ต้องทำด้วยมือ ทำซ้ำได้ และสามารถทำให้อัตโนมัติได้ เป็นงานที่ไม่มีคุณค่าถาวรและเพิ่มขึ้นตามขนาดของบริการ แม้งานปฏิบัติการบางส่วนจะจำเป็น แต่ถ้างานซ้ำซากมากเกินไปจะทำให้ SRE ไม่มีเวลาทำงานวิศวกรรมเพื่อปรับปรุงระบบและลดงานซ้ำซากในอนาคต Google จึงจำกัดงานปฏิบัติการรวมถึง toil ไว้ไม่เกิน 50% เพื่อให้มีเวลาทำโครงการเชิงกลยุทธ์

ระบุ วัด และทำให้อัตโนมัติ ขั้นตอนแรกในการกำจัด toil คือการระบุว่างานใดเป็น toil สำหรับทีมของคุณ และวัดเวลาที่ใช้กับงานเหล่านั้น เพื่อให้มีข้อมูลเชิงวัตถุประสงค์สำหรับจัดลำดับความสำคัญในการทำให้อัตโนมัติโดยพิจารณาจากเวลาที่ประหยัดและผลตอบแทนจากการลงทุน อย่าทำแค่อัตโนมัติงานนั้น ๆ แต่ต้องแก้ไขสาเหตุรากฐานที่ทำให้งานต้องทำด้วยมือ

กลยุทธ์ลด toil:

  • ปฏิเสธ toil: วิเคราะห์ต้นทุนของการทำงานเทียบกับไม่ทำ
  • ทำให้อัตโนมัติ: สร้างเครื่องมือจัดการงานซ้ำซ้อนโดยโปรแกรม
  • ให้บริการตนเอง: เปิดโอกาสให้ผู้ใช้ทำงานเองผ่าน API หรือ UI
  • เพิ่มความเป็นมาตรฐาน: ทำให้ระบบและกระบวนการเหมือนกันทั่วองค์กรเพื่อให้ง่ายต่อการอัตโนมัติ
  • ใช้ SLO: ให้ error budget ช่วยกำหนดว่าเมื่อใดต้องมีการแทรกแซงด้วยมือ

การกำจัด toil เป็นกระบวนการต่อเนื่องที่ต้องได้รับการสนับสนุนจากผู้บริหารและวัฒนธรรมที่ให้คุณค่ากับการอัตโนมัติเป็นฟีเจอร์หนึ่งของระบบ

4. ออกแบบให้เรียบง่ายเพื่อเพิ่มความน่าเชื่อถือ

ระบบที่ซับซ้อนแต่ใช้งานได้ มักเกิดจากการพัฒนามาจากระบบที่เรียบง่ายและใช้งานได้

ความเรียบง่ายลดความล้มเหลว ระบบที่เรียบง่ายมีความน่าเชื่อถือโดยธรรมชาติเพราะมีส่วนประกอบน้อย การโต้ตอบระหว่างส่วนประกอบน้อย และง่ายต่อการเข้าใจ ดูแล และแก้ไข ขณะที่ความซับซ้อนเพิ่มโอกาสเกิดความล้มเหลวและทำให้การแก้ปัญหายากขึ้น

ความเรียบง่ายต้องครอบคลุมทุกส่วน พยายามทำให้เรียบง่ายไม่ใช่แค่ในโค้ด แต่รวมถึงสถาปัตยกรรมระบบ การพึ่งพา การตั้งค่า และกระบวนการปฏิบัติการ ทีม SRE มีมุมมองแบบองค์รวมของระบบในสภาพแวดล้อมจริง จึงเหมาะสมที่จะเป็นผู้นำในการผลักดันความเรียบง่ายตั้งแต่ต้น โดยเข้าร่วมการทบทวนการออกแบบตั้งแต่เนิ่น ๆ เพื่อระบุและลดความเสี่ยงจากความซับซ้อน

กลยุทธ์คืนความเรียบง่าย:

  • ลบส่วนประกอบหรือฟีเจอร์ที่ไม่จำเป็นออก
  • มาตรฐานเทคโนโลยีและกระบวนการทั่วทั้งองค์กร
  • ปรับปรุงส่วนที่ซับซ้อนทีละน้อย
  • ให้ความสำคัญกับโครงการลดความซับซ้อนและเฉลิมฉลองการลบโค้ด
  • วาดแผนภาพระบบเพื่อระบุการโต้ตอบที่ซับซ้อน เช่น การขยายผลหรือการพึ่งพาวนรอบ

ความซับซ้อนเป็นภาระที่ผู้ดูแลระบบต้องแบกรับ ไม่ใช่ผู้สร้างมัน การต่อสู้กับความซับซ้อนอย่างจริงจังจึงเป็นสิ่งจำเป็นเพื่อสุขภาพและความยั่งยืนของระบบในระยะยาว

5. เชี่ยวชาญการตอบสนองเหตุการณ์และเรียนรู้จากความล้มเหลวทุกครั้ง

ทุกคนต้องการให้บริการของตนทำงานได้ราบรื่นตลอดเวลา แต่โลกนี้ไม่สมบูรณ์แบบและเหตุขัดข้องย่อมเกิดขึ้นได้

โครงสร้างช่วยลดความวุ่นวาย เหตุการณ์ขัดข้องเป็นสิ่งที่หลีกเลี่ยงไม่ได้ การมีขั้นตอนตอบสนองเหตุการณ์ที่ชัดเจน โดยอิงกับกรอบงานเช่น Incident Command System (ICS) เป็นสิ่งสำคัญสำหรับการประสานงาน การสื่อสารที่มีประสิทธิภาพ และการควบคุมสถานการณ์ในช่วงวิกฤต บทบาทที่ชัดเจน (ผู้บัญชาการเหตุการณ์, หัวหน้าการสื่อสาร, หัวหน้าปฏิบัติการ) และช่องทางสื่อสารช่วยลดความสับสน

ให้ความสำคัญกับการบรรเทาผลกระทบ ในช่วงเหตุการณ์ เป้าหมายหลักคือหยุดผลกระทบต่อผู้ใช้ให้เร็วที่สุด (mitigation) แม้ว่าสาเหตุรากฐานจะยังไม่ทราบ เครื่องมือบรรเทาทั่วไป เช่น การย้อนกลับหรือการระบายทราฟฟิก ควรเตรียมไว้ล่วงหน้า การวิเคราะห์สาเหตุและแก้ไขถาวรจะทำหลังจากเหตุการณ์สิ้นสุดแล้ว

บทเรียนจาก postmortem ทุกเหตุการณ์ไม่ว่าจะเล็กหรือใหญ่เป็นโอกาสเรียนรู้ วัฒนธรรม postmortem แบบไม่โทษใครเป็นสิ่งจำเป็นเพื่อสร้างความไว้วางใจและทำให้ทีมมุ่งเน้นที่ปัญหาระบบแทนที่จะโทษบุคคล รายงาน postmortem ที่ดีควรเป็น:

  • ข้อเท็จจริงและเป็นกลาง
  • มีรายละเอียดพร้อมผลกระทบที่วัดได้
  • มีรายการงานที่ชัดเจน ลำดับความสำคัญ และเจ้าของงาน
  • แบ่งปันอย่างกว้างขวางเพื่อการเรียนรู้ขององค์กร

การฝึกซ้อมตอบสนองเหตุการณ์อย่างสม่ำเสมอช่วยสร้างความชำนาญและเตรียมทีมให้พร้อม ลดเวลาตอบสนอง (MTTR) และเวลาตรวจจับ (MTTD)

6. ทำให้อัตโนมัติการเปลี่ยนแปลงและการเปิดตัวอย่างปลอดภัย (Canarying)

Canarying คือการเปิดตัวการเปลี่ยนแปลงบางส่วนในช่วงเวลาจำกัดและประเมินผล

การเปลี่ยนแปลงคือความเสี่ยงหลัก แม้จำเป็นต่อความก้าวหน้า แต่การเปลี่ยนแปลง (โค้ด การตั้งค่า ข้อมูล) เป็นสาเหตุหลักของเหตุขัดข้อง การทำกระบวนการปล่อยซอฟต์แวร์ให้อัตโนมัติ (CI/CD) เป็นขั้นตอนแรก เพื่อให้ได้บิลด์ที่ทำซ้ำได้ ทดสอบแล้ว และปล่อยอัตโนมัติ แต่สภาพแวดล้อมทดสอบไม่สามารถเลียนแบบสภาพแวดล้อมจริงได้อย่างสมบูรณ์

Canarying ช่วยลดความเสี่ยง Canarying คือการเปิดรับทราฟฟิกส่วนเล็ก ๆ ในระบบจริงกับการเปลี่ยนแปลงใหม่และประเมินผลก่อนเปิดตัวเต็มรูปแบบ ช่วยตรวจจับข้อบกพร่องในสภาพแวดล้อมที่ควบคุมได้ ลดผลกระทบวงกว้างและประหยัด error budget ขนาดและระยะเวลาของ canary ควรสอดคล้องกับรูปแบบทราฟฟิกและให้เวลาพอสำหรับตัวชี้วัดนิ่งตัว

ประเมินตัวชี้วัดที่เกี่ยวข้อง การประเมิน canary อาศัยการเปรียบเทียบตัวชี้วัดระหว่างกลุ่ม canary กับกลุ่มควบคุม เลือกตัวชี้วัดที่บ่งชี้ปัญหาที่ผู้ใช้รับรู้ได้ (เช่น SLI) และสัมพันธ์กับการเปลี่ยนแปลงที่ทดสอบ หลีกเลี่ยงตัวชี้วัดที่ได้รับผลกระทบจากปัจจัยภายนอกหรือไม่ชัดเจน เช่น

  • รหัสตอบกลับ HTTP (ยกเว้นข้อผิดพลาดฝั่งลูกค้า)
  • ค่าร้อยละของความหน่วงเวลา
  • การตรวจสอบความถูกต้องเฉพาะแอปพลิเคชัน

ผนวกการประเมิน canary เข้ากับกระบวนการปล่อยอัตโนมัติ เพื่อให้สามารถย้อนกลับอัตโนมัติหาก canary ล้มเหลว

7. บริหารจัดการโหลดอย่างครบวงจรเพื่อระบบที่ขยายตัวได้

ไม่มีบริการใดที่พร้อมใช้งาน 100% ตลอดเวลา: ลูกค้าอาจไม่เอาใจใส่ ความต้องการอาจเพิ่มขึ้น 50 เท่า บริการอาจล่มเมื่อเจอทราฟฟิกพุ่ง หรือสายเคเบิลใต้น้ำอาจถูกดึงขึ้น

การจัดการโหลดมีหลายมิติ การทำให้บริการพร้อมใช้งานและมีประสิทธิภาพภายใต้โหลดที่เปลี่ยนแปลงและไม่คาดคิดต้องใช้กลยุทธ์หลากหลาย ไม่ใช่แค่เครื่องมือเดียว การบาลานซ์โหลด การปรับขนาดอัตโนมัติ และการปฏิเสธโหลดส่วนเกินต้องทำงานร่วมกันอย่างกลมกลืน การตั้งค่าที่ผิดพลาดอาจทำให้เกิดความล้มเหลวเป็นลูกโซ่

บาลานซ์โหลดชี้นำทราฟฟิก ระบบเช่น Google Cloud Load Balancing (GCLB) ใช้เทคนิค anycast และการกำหนดเส้นทางขั้นสูง (Maglev, GFE) เพื่อส่งคำขอของผู้ใช้ไปยังแบ็กเอนด์ที่ใกล้และมีสุขภาพดีพร้อมความจุ ช่วยลดความหน่วงและเลี่ยงความล้มเหลวโดยไม่กระทบผู้ใช้

ปรับขนาดอัตโนมัติปรับความจุ Autoscaling เพิ่มหรือลดจำนวนอินสแตนซ์ตามตัวชี้วัดโหลด เช่น การใช้ CPU หรือคำขอต่อวินาที ช่วยใช้ทรัพยากรอย่างมีประสิทธิภาพและรองรับทราฟฟิกพุ่ง การตั้งค่าต้องกำหนดขีดจำกัด จัดการอินสแตนซ์ที่ไม่พร้อมใช้งาน และพิจารณาผลกระทบต่อระบบที่พึ่งพา

ปฏิเสธโหลดป้องกันระบบล่ม เมื่อระบบถูกกดดันเกินความจุ Load shedding ช่วยให้ระบบปฏิเสธทราฟฟิกส่วนเกินอย่างมีระเบียบแทนที่จะล่มทั้งหมด ปกป้องฟังก์ชันหลักของระบบสำหรับผู้ใช้ที่ยังให้บริการได้ สัญญาณปฏิเสธโหลดต้องถูกตีความอย่างถูกต้องโดยโหลดบาลานเซอร์และ autoscaler เพื่อป้องกันผลลัพธ์ที่ไม่พึงประสงค์

8. การออกแบบการตั้งค่ามีผลต่อสุขภาพการปฏิบัติการ

คุณภาพของอินเทอร์เฟซระหว่างมนุษย์กับคอมพิวเตอร์ในระบบตั้งค่ามีผลต่อความสามารถขององค์กรในการบริหารระบบนั้นอย่างน่าเชื่อถือ

การตั้งค่าเป็นอินเทอร์เฟซสำคัญ การตั้งค่าช่วยให้เปลี่ยนพฤติกรรมระบบได้รวดเร็วโดยไม่ต้องปล่อยโค้ดใหม่ การออกแบบมีผลอย่างมากต่อภาระงานปฏิบัติการ ความน่าเชื่อถือ และความสามารถในการตอบสนองเหตุการณ์ภายใต้ความกดดัน การตั้งค่าที่ออกแบบไม่ดีนำไปสู่ความผิดพลาด ความสับสน และเสียเวลา

แยกปรัชญาและกลไก ให้ความสำคัญกับ ปรัชญา ของการตั้งค่าก่อน:

  • การตั้งค่าควรถามคำถามกับผู้ใช้ให้น้อยที่สุดเท่าที่จำเป็น
  • คำถามควรใกล้เคียงกับเป้าหมายของผู้ใช้ ไม่

อัปเดตล่าสุด:

Report Issue

สรุปรีวิว

4.36 จาก 5
เฉลี่ยจาก 405 คะแนนจาก Goodreads และ Amazon.

The Site Reliability Workbook ได้รับคำวิจารณ์ในแง่บวกเป็นส่วนใหญ่ โดยผู้อ่านชื่นชมวิธีการที่เน้นการปฏิบัติจริงและตัวอย่างจากสถานการณ์จริง หลายคนมองว่าเป็นหนังสือเสริมที่มีคุณค่าสำหรับหนังสือ SRE ฉบับดั้งเดิม โดยให้ความเข้าใจลึกซึ้งเกี่ยวกับการนำแนวปฏิบัติ SRE ไปใช้ในองค์กรต่าง ๆ ผู้อ่านให้ความสำคัญกับเนื้อหาเกี่ยวกับ SLOs หน้าที่การรับผิดชอบในช่วงเวลาฉุกเฉิน และการวิเคราะห์หลังเหตุการณ์ แม้ว่าจะมีบางเสียงวิจารณ์เรื่องความซ้ำซ้อนและการอธิบายที่เรียบง่ายเกินไปในบางส่วน แต่โดยรวมแล้ว หนังสือเล่มนี้ถือเป็นแหล่งข้อมูลที่มีประโยชน์สำหรับผู้ที่สนใจหลักการ SRE ทั้งในแง่ของรายละเอียดทางเทคนิคและแนวทางการบริหารทีมรวมถึงวัฒนธรรมองค์กร

Your rating:
4.63
311 คะแนน
Want to read the full book?

คำถามที่พบบ่อย

What is The Site Reliability Workbook by Betsy Beyer about?

  • Practical SRE implementation: The book is a hands-on guide to applying Site Reliability Engineering (SRE) principles in organizations of all sizes, serving as a companion to Google’s original SRE book.
  • Bridging theory and practice: It focuses on turning SRE theory into actionable steps, with detailed case studies, real-world examples, and advice from Google and other companies.
  • Comprehensive coverage: Topics include SLOs, monitoring, alerting, toil reduction, incident response, configuration management, and organizational change, making it a foundational resource for SRE teams.

Why should I read The Site Reliability Workbook by Betsy Beyer?

  • Actionable guidance: The book offers step-by-step advice for implementing SRE practices, making it easier to adopt SRE regardless of company size or maturity.
  • Real-world case studies: Readers benefit from lessons learned at Google, Spotify, Evernote, The Home Depot, and more, showing how SRE adapts to different environments.
  • Bridges SRE and DevOps: It clarifies the relationship between SRE and DevOps, helping readers understand how to blend these approaches for better reliability and velocity.

What are the key takeaways from The Site Reliability Workbook by Betsy Beyer?

  • SLOs and error budgets: Service Level Objectives and error budgets are central to balancing reliability and feature development, guiding engineering priorities.
  • Toil reduction: Systematic identification and elimination of toil is essential for sustainable operations and team health.
  • Organizational change: Successful SRE adoption requires cultural shifts, incentive alignment, and structured change management, supported by real-world case studies.

How does The Site Reliability Workbook by Betsy Beyer define and implement Service Level Objectives (SLOs)?

  • Explicit reliability targets: SLOs are measurable goals for service reliability, such as availability or latency, defined from the user’s perspective.
  • Error budgets: SLOs introduce error budgets, quantifying acceptable unreliability and guiding decisions on when to prioritize reliability over new features.
  • Step-by-step implementation: The book provides practical advice on defining, measuring, and refining SLOs, including stakeholder alignment and using SLOs for decision-making.

What is toil, and how does The Site Reliability Workbook by Betsy Beyer recommend reducing it?

  • Definition of toil: Toil is repetitive, manual, automatable work that scales with service size and does not provide lasting value, such as manual server restarts.
  • Measurement and tracking: The book advises quantifying toil in hours or tickets, tracking it over time, and prioritizing reduction based on cost-benefit analysis.
  • Elimination strategies: Recommendations include automating toil, providing self-service tools, rejecting unnecessary toil, and securing management support for ongoing reduction efforts.

How does The Site Reliability Workbook by Betsy Beyer approach monitoring and alerting based on SLOs?

  • Metrics and logging: Emphasizes the importance of structured metrics and logs as data sources for effective monitoring.
  • Alerting on error budgets: Advises creating alerts based on error budget burn rates over multiple time windows to balance timely detection and noise reduction.
  • Special cases: Offers strategies for low-traffic services, such as artificial traffic generation or adjusting SLOs, to ensure meaningful alerting.

What are the best practices for on-call rotations in The Site Reliability Workbook by Betsy Beyer?

  • Balance and health: On-call duties should be balanced with project work, aiming for no more than two incidents per shift and at least 50% time on engineering projects.
  • Training and support: New on-call engineers should receive thorough training, mentoring, and access to clear playbooks to build confidence.
  • Flexibility and safety: Flexible scheduling, clear escalation paths, and a supportive team culture are essential for managing pager load and maintaining psychological safety.

How does The Site Reliability Workbook by Betsy Beyer recommend structuring incident response and postmortem culture?

  • Incident Command System: Recommends using structured frameworks with clear roles (Incident Commander, Communications Lead, etc.) for coordinated incident response.
  • Early declaration and drills: Encourages early incident declaration and regular simulation exercises to improve response effectiveness.
  • Blameless postmortems: Stresses the importance of blameless, actionable postmortems with clear ownership and leadership support to drive continuous improvement.

What configuration management principles are emphasized in The Site Reliability Workbook by Betsy Beyer?

  • Configuration as code: Treats configuration as a programming language problem, advocating for reusable domain-specific languages (DSLs) like Jsonnet.
  • Separation and safety: Recommends separating configuration philosophy (structure, abstraction) from mechanics (language, deployment) and supporting safe, gradual rollouts.
  • Tooling and validation: Advises integrating configuration with version control, automated validation, and tooling (linters, formatters) to reduce errors and complexity.

How does The Site Reliability Workbook by Betsy Beyer address load management, autoscaling, and canarying?

  • Holistic load management: Combines load balancing, autoscaling, and load shedding to maintain system stability and prevent cascading failures.
  • Autoscaling best practices: Suggests conservative scaling, setting bounds, and monitoring backend capacity to avoid overload and feedback loops.
  • Canarying releases: Details partial, time-limited deployments (canarying) to subsets of users, using metrics to evaluate impact before full rollout, and compares with blue/green deployments.

What organizational change management advice does The Site Reliability Workbook by Betsy Beyer provide for SRE adoption?

  • Change management models: Introduces frameworks like Lewin’s, Kotter’s, and ADKAR, relating them to SRE adoption challenges.
  • Case studies and lessons: Shares real-world examples of scaling SRE and adopting common tooling, highlighting the importance of communication, incentives, and incremental change.
  • Culture and incentives: Emphasizes aligning incentives, fostering blameless postmortems, and maintaining open communication to sustain SRE culture change.

How does The Site Reliability Workbook by Betsy Beyer recommend SRE teams engage with product development and manage team health?

  • Lifecycle engagement: Advises SRE involvement throughout the service lifecycle, from design to deprecation, for early and continuous collaboration.
  • Managing overload: Distinguishes between actual and perceived operational overload, offering strategies like triaging, prioritization, and workload regulation.
  • Scaling and sustaining: Provides guidance on managing multiple services, structuring distributed teams, and ending engagements, supported by case studies and best practices.

เกี่ยวกับผู้เขียน

เบ็ตซี่ เบเยอร์ เป็นนักเขียนทางเทคนิคประจำบริษัทกูเกิลในนครนิวยอร์ก โดยมีความเชี่ยวชาญเฉพาะด้านวิศวกรรมความน่าเชื่อถือของระบบ (Site Reliability Engineering) ผลงานก่อนหน้านี้ของเธอรวมถึงการจัดทำเอกสารสำหรับทีมศูนย์ข้อมูลและทีมปฏิบัติการฮาร์ดแวร์ของกูเกิล ก่อนจะมารับตำแหน่งปัจจุบัน เบเยอร์เคยเป็นอาจารย์สอนวิชาการเขียนเชิงเทคนิคที่มหาวิทยาลัยสแตนฟอร์ด ด้วยพื้นฐานการศึกษาที่หลากหลาย เธอสำเร็จการศึกษาด้านความสัมพันธ์ระหว่างประเทศและวรรณคดีอังกฤษจากมหาวิทยาลัยสแตนฟอร์ดและทูเลน เส้นทางอาชีพของเธอสะท้อนให้เห็นถึงการเปลี่ยนผ่านจากวงการวิชาการสู่การเขียนทางเทคนิคในอุตสาหกรรมเทคโนโลยี ซึ่งแสดงให้เห็นถึงความสามารถในการสื่อสารแนวคิดทางเทคนิคที่ซับซ้อนได้อย่างมีประสิทธิภาพ

หนังสือเล่มอื่นโดย เบ็ตซี ไบเออร์

Follow
ฟัง
Now playing
The Site Reliability Workbook
0:00
-0:00
Now playing
The Site Reliability Workbook
0:00
-0:00
1x
Queue
Home
Swipe
Library
Get App
Try Full Access for 3 Days
Listen, bookmark, and more
Compare Features Free Pro
📖 Read Summaries
Read unlimited summaries. Free users get 3 per month
🎧 Listen to Summaries
Listen to unlimited summaries in 40 languages
❤️ Unlimited Bookmarks
Free users are limited to 4
📜 Unlimited History
Free users are limited to 4
📥 Unlimited Downloads
Free users are limited to 1
Risk-Free Timeline
วันนี้: เข้าใช้งานได้ทันที
ฟังสรุปฉบับเต็มของหนังสือกว่า 26,000 เล่ม รวมกว่า 12,000 ชั่วโมงของเสียง!
วันที่ 2: แจ้งเตือนช่วงทดลองใช้
เราจะส่งการแจ้งเตือนว่าช่วงทดลองใช้ของคุณใกล้สิ้นสุดแล้ว
วันที่ 3: เริ่มต้นการสมัครสมาชิก
คุณจะถูกเรียกเก็บเงินในวันที่ Jun 16,
ยกเลิกได้ตลอดก่อนวันดังกล่าว
Consume 2.8× More Books
2.8× more books Listening Reading
Our users love us
600,000+ readers
Trustpilot Rating
TrustPilot
4.6 Excellent
This site is a total game-changer. I've been flying through book summaries like never before. Highly, highly recommend.
— Dave G
Worth my money and time, and really well made. I've never seen this quality of summaries on other websites. Very helpful!
— Em
Highly recommended!! Fantastic service. Perfect for those that want a little more than a teaser but not all the intricate details of a full audio book.
— Greg M
Save 62%
Yearly
$119.88 $44.99/year/yr
$3.75/mo
Monthly
$9.99/mo
Start a 3-Day Free Trial
3 days free, then $44.99/year. Cancel anytime.
Unlock a world of fiction & nonfiction books
26,000+ books for the price of 2 books
Read any book in 10 minutes
Discover new books like Tinder
Request any book if it's not summarized
Read more books than anyone you know
#1 app for book lovers
Lifelike & immersive summaries
30-day money-back guarantee
Download summaries in EPUBs or PDFs
Cancel anytime in a few clicks
Scanner
Find a barcode to scan

We have a special gift for you
Open
38% OFF
DISCOUNT FOR YOU
$79.99
$49.99/year
only $4.16 per month
Continue
2 taps to start, super easy to cancel
Settings
General
Widget
Loading...
We have a special gift for you
Open
38% OFF
DISCOUNT FOR YOU
$79.99
$49.99/year
only $4.16 per month
Continue
2 taps to start, super easy to cancel