Facebook Pixel
Searching...
فارسی
EnglishEnglish
EspañolSpanish
简体中文Chinese
FrançaisFrench
DeutschGerman
日本語Japanese
PortuguêsPortuguese
ItalianoItalian
한국어Korean
РусскийRussian
NederlandsDutch
العربيةArabic
PolskiPolish
हिन्दीHindi
Tiếng ViệtVietnamese
SvenskaSwedish
ΕλληνικάGreek
TürkçeTurkish
ไทยThai
ČeštinaCzech
RomânăRomanian
MagyarHungarian
УкраїнськаUkrainian
Bahasa IndonesiaIndonesian
DanskDanish
SuomiFinnish
БългарскиBulgarian
עבריתHebrew
NorskNorwegian
HrvatskiCroatian
CatalàCatalan
SlovenčinaSlovak
LietuviųLithuanian
SlovenščinaSlovenian
СрпскиSerbian
EestiEstonian
LatviešuLatvian
فارسیPersian
മലയാളംMalayalam
தமிழ்Tamil
اردوUrdu
Site Reliability Engineering

Site Reliability Engineering

How Google Runs Production Systems
توسط Betsy Beyer 2016 550 صفحات
4.22
2k+ امتیازها
گوش دادن
Listen to Summary

نکات کلیدی

1. مهندسی قابلیت اطمینان سایت تعادل بین قابلیت اطمینان و نوآوری را برقرار می‌کند

ماموریت اصلی SRE ایجاد سیستم‌های نرم‌افزاری مقیاس‌پذیر و قابل اطمینان است. این رویکرد شامل به‌کارگیری اصول مهندسی نرم‌افزار در عملیات است، با هدف خودکارسازی وظایف و بهبود قابلیت اطمینان سیستم. تیم‌های SRE از مهندسان با زمینه‌های متنوع، از جمله توسعه نرم‌افزار و مدیریت سیستم‌ها تشکیل شده‌اند. آن‌ها بر روی:

  • خودکارسازی وظایف تکراری
  • ساخت و نگهداری زیرساخت‌های مقیاس‌پذیر
  • پیاده‌سازی سیستم‌های نظارت و هشدار
  • طراحی برای تحمل خطا و بازیابی از بحران

با در نظر گرفتن عملیات به‌عنوان یک مشکل نرم‌افزاری، SRE به سازمان‌ها این امکان را می‌دهد که سیستم‌های بزرگ‌مقیاس را به‌طور مؤثرتری بسازند و نگهداری کنند. این رویکرد اجازه می‌دهد تا نوآوری سریع‌تری انجام شود در حالی که سطوح بالای قابلیت اطمینان حفظ می‌شود و تعادلی بین ثبات و چابکی در توسعه و مدیریت سیستم برقرار می‌گردد.

2. پذیرش ریسک برای بهینه‌سازی عملکرد خدمات

مدیریت ریسک جنبه‌ای حیاتی از SRE است. به‌جای هدف‌گذاری برای 100% قابلیت اطمینان، که اغلب غیرعملی و پرهزینه است، تیم‌های SRE بر روی مدیریت "بودجه خطا" تمرکز می‌کنند. این رویکرد شامل:

  • تعریف سطح قابل قبولی از زمان خرابی یا خطاها
  • استفاده از این بودجه برای اتخاذ تصمیمات آگاهانه درباره زمان معرفی ویژگی‌های جدید
  • تعادل بین نیاز به نوآوری و نیاز به ثبات

با پذیرش سطحی از ریسک، سازمان‌ها می‌توانند:

  • سریع‌تر در توسعه و پیاده‌سازی ویژگی‌های جدید حرکت کنند
  • هزینه‌های مرتبط با مهندسی بیش از حد برای قابلیت اطمینان را کاهش دهند
  • منابع را بر روی حوزه‌هایی متمرکز کنند که بیشترین ارزش را برای کاربران فراهم می‌آورند

این رویکرد فرآیند توسعه‌ای پویا و نوآورانه را تشویق می‌کند در حالی که سطح مناسبی از قابلیت اطمینان سیستم را حفظ می‌نماید.

3. اهداف سطح خدمات زمان‌های خرابی قابل قبول را تعریف می‌کنند

اهداف سطح خدمات (SLOs) ابزاری کلیدی در مدیریت قابلیت اطمینان سیستم هستند. آن‌ها اهداف خاص و قابل اندازه‌گیری برای عملکرد و در دسترس بودن سیستم را تعریف می‌کنند. تیم‌های SRE از SLOs برای:

  • تعیین انتظارات واضح برای رفتار سیستم
  • راهنمایی در تصمیم‌گیری درباره زمان اولویت‌بندی کارهای مربوط به قابلیت اطمینان
  • فراهم کردن چارچوبی برای اندازه‌گیری و بهبود عملکرد سیستم

SLOs معمولاً شامل معیارهایی مانند:

  • در دسترس بودن (مثلاً 99.9% زمان کارکرد)
  • تأخیر (مثلاً 95% از درخواست‌ها در کمتر از 100 میلی‌ثانیه تکمیل می‌شوند)
  • نرخ خطا (مثلاً کمتر از 0.1% از درخواست‌ها منجر به خطا می‌شوند)

با تعریف و پیگیری این اهداف، تیم‌ها می‌توانند تصمیمات مبتنی بر داده درباره زمان تمرکز بر بهبود قابلیت اطمینان در مقابل توسعه ویژگی‌های جدید اتخاذ کنند و تعادلی بین نوآوری و ثبات برقرار نمایند.

4. حذف کارهای تکراری از طریق خودکارسازی و مهندسی

کاهش کارهای تکراری هدفی اساسی از SRE است. کارهای تکراری به کارهای دستی و تکراری اطلاق می‌شود که ارزش ماندگاری ندارند. تیم‌های SRE به‌دنبال حداقل کردن کارهای تکراری از طریق:

  • خودکارسازی وظایف و فرآیندهای روتین
  • ساخت سیستم‌هایی که خودترمیمی دارند و نیاز به مداخله دستی حداقلی دارند
  • بهبود مستمر ابزارها و فرآیندها برای کاهش کار دستی

مزایای حذف کارهای تکراری شامل:

  • افزایش زمان برای کارهای مهندسی استراتژیک و با ارزش بالا
  • بهبود قابلیت اطمینان سیستم از طریق فرآیندهای خودکار و منظم
  • افزایش رضایت شغلی و کاهش خستگی شغلی در میان اعضای تیم

با تمرکز بر حذف کارهای تکراری، تیم‌های SRE می‌توانند توانایی خود را در مدیریت سیستم‌های پیچیده بدون افزایش خطی تعداد کارکنان گسترش دهند و عملیات مؤثرتری را فراهم آورند.

5. پیاده‌سازی سیستم‌های نظارت و هشدار مؤثر

نظارت و هشدار قوی برای حفظ قابلیت اطمینان سیستم ضروری است. سیستم‌های مؤثر باید:

  • دیدگاه بلادرنگی از عملکرد و سلامت سیستم فراهم کنند
  • هشدارهای قابل اقدام تولید کنند که نیاز به مداخله انسانی دارند
  • از خستگی هشدار جلوگیری کنند با کاهش نویز و مثبت‌های کاذب

اجزای کلیدی یک سیستم نظارت و هشدار خوب شامل:

  • شاخص‌های سطح خدمات (SLIs) به‌خوبی تعریف‌شده که رفتارهای حیاتی سیستم را اندازه‌گیری می‌کنند
  • جمع‌آوری و تحلیل خودکار معیارهای سیستم
  • مسیرهای هوشمند هشدار و رویه‌های تشدید
  • داشبوردهایی که اطلاعات وضعیت سیستم را به‌صورت اجمالی ارائه می‌دهند

با پیاده‌سازی نظارت و هشدار مؤثر، تیم‌های SRE می‌توانند به‌سرعت مشکلات را شناسایی و به آن‌ها پاسخ دهند قبل از اینکه بر کاربران تأثیر بگذارد و سطوح بالای قابلیت اطمینان و عملکرد سیستم را حفظ کنند.

6. تمرین بررسی‌های بدون سرزنش برای یادگیری از شکست‌ها

بررسی‌های بدون سرزنش ابزاری حیاتی برای یادگیری از حوادث و بهبود قابلیت اطمینان سیستم هستند. این رویکرد بر روی:

  • شناسایی علل ریشه‌ای حوادث بدون نسبت دادن سرزنش شخصی
  • تشویق به ارتباط باز و صادقانه درباره شکست‌ها
  • توسعه بهبودهای قابل اقدام برای جلوگیری از حوادث مشابه در آینده

عناصر کلیدی بررسی‌های مؤثر شامل:

  • زمان‌بندی دقیق حادثه
  • تحلیل عوامل مؤثر
  • موارد اقدام واضح برای بهبود سیستم
  • به اشتراک‌گذاری درس‌های آموخته‌شده در سراسر سازمان

با ترویج فرهنگ بررسی‌های بدون سرزنش، سازمان‌ها می‌توانند محیطی ایجاد کنند که در آن شکست‌ها به‌عنوان فرصت‌هایی برای یادگیری و بهبود دیده شوند و منجر به سیستم‌ها و تیم‌های مقاوم‌تر گردد.

7. تعادل بار و مدیریت بار اضافی برای قابلیت اطمینان حیاتی است

تعادل بار مؤثر برای حفظ عملکرد سیستم تحت سطوح مختلف ترافیک ضروری است. استراتژی‌های کلیدی شامل:

  • پیاده‌سازی الگوریتم‌های تعادل بار هوشمند در سمت مشتری
  • استفاده از محدودسازی تطبیقی برای جلوگیری از بار اضافی
  • طراحی سیستم‌ها با قابلیت‌های کاهش تدریجی

ملاحظات مهم برای تعادل بار و مدیریت بار اضافی:

  • تقسیم مناسب برای توزیع بار در سرورهای پشتی
  • پیاده‌سازی اولویت‌بندی درخواست‌ها بر اساس اهمیت
  • طراحی مکانیزم‌های تلاش مجدد که وضعیت بار اضافی را تشدید نکند

با پیاده‌سازی مکانیزم‌های قوی تعادل بار و مدیریت بار اضافی، تیم‌های SRE می‌توانند اطمینان حاصل کنند که سیستم‌ها حتی تحت شرایط بار بالا نیز پاسخگو و در دسترس باقی می‌مانند و قابلیت اطمینان و تجربه کاربری کلی را بهبود می‌بخشند.

8. طراحی سیستم‌ها برای جلوگیری و کاهش شکست‌های زنجیره‌ای

جلوگیری از شکست‌های زنجیره‌ای برای حفظ قابلیت اطمینان سیستم در مقیاس حیاتی است. استراتژی‌های کلیدی شامل:

  • طراحی سیستم‌ها با ایزولاسیون و مهار خطا مناسب
  • پیاده‌سازی قطع‌کننده‌های مدار برای جلوگیری از گسترش بار اضافی
  • استفاده از مکانیزم‌های کاهش تدریجی و کنترل‌شده

ملاحظات طراحی مهم:

  • تخصیص و مدیریت منابع برای جلوگیری از خستگی
  • پیاده‌سازی مکانیزم‌های تلاش مجدد با تأخیر تصادفی
  • طراحی برای عدم دسترسی مؤدبانه به خدمات

با تمرکز بر جلوگیری و کاهش شکست‌های زنجیره‌ای، تیم‌های SRE می‌توانند سیستم‌های مقاوم‌تری بسازند که می‌توانند در برابر شکست‌های جزئی مقاومت کنند بدون اینکه در دسترس بودن و عملکرد کلی سیستم تحت تأثیر قرار گیرد.

9. پرورش فرهنگ مهندسی نرم‌افزار در تیم‌های SRE

ترویج شیوه‌های مهندسی نرم‌افزار در تیم‌های SRE برای ساخت سیستم‌های مقیاس‌پذیر و قابل اطمینان ضروری است. این رویکرد شامل:

  • تشویق SREها به صرف بخش قابل توجهی از زمان خود بر روی کارهای توسعه
  • به‌کارگیری اصول مهندسی نرم‌افزار در وظایف عملیاتی
  • توسعه ابزارها و خودکارسازی برای بهبود قابلیت اطمینان و کارایی سیستم

مزایای این رویکرد شامل:

  • بهبود توانایی برای مقیاس‌پذیری عملیات بدون افزایش خطی تعداد کارکنان
  • افزایش توانایی حل مسائل پیچیده سیستم
  • افزایش رضایت شغلی و فرصت‌های توسعه شغلی برای SREها

با پرورش فرهنگ قوی مهندسی نرم‌افزار در تیم‌های SRE، سازمان‌ها می‌توانند سیستم‌های مقاوم‌تر و مقیاس‌پذیرتری بسازند و همچنین استعدادهای برتر مهندسی را جذب و حفظ کنند.

آخرین به‌روزرسانی::

FAQ

What's Site Reliability Engineering: How Google Runs Production Systems about?

  • Focus on Reliability: The book explores Site Reliability Engineering (SRE), a discipline that applies software engineering principles to infrastructure and operations to create scalable and reliable systems.
  • Google's Approach: It details Google's use of SRE to manage its services, emphasizing reliability, automation, and engineering practices.
  • Real-World Examples: The book includes case studies from Google's experiences, illustrating how SRE principles improve service reliability and operational efficiency.

Why should I read Site Reliability Engineering: How Google Runs Production Systems?

  • Learn from Experts: Authored by experienced Google SREs, it offers insider knowledge on managing large-scale systems.
  • Applicable Practices: The principles can be adapted to organizations of all sizes, making it relevant for anyone in IT operations.
  • Comprehensive Resource: It serves as both a theoretical guide and a practical manual, covering topics from monitoring to capacity planning.

What are the key takeaways of Site Reliability Engineering: How Google Runs Production Systems?

  • Emphasis on Reliability: Reliability is the most fundamental feature of any product, as unreliable systems are not useful.
  • Error Budgets: Introduces error budgets to balance innovation and reliability, allowing calculated risks while maintaining service levels.
  • Automation and Toil Reduction: Stresses the importance of automation in reducing operational toil, enabling teams to scale effectively.

What are the best quotes from Site Reliability Engineering: How Google Runs Production Systems and what do they mean?

  • "Hope is not a strategy.": Emphasizes the need for concrete plans and actions rather than relying on optimism.
  • "The price of reliability is the pursuit of the utmost simplicity.": Suggests that simpler systems are more reliable, as complexity introduces more failure points.
  • "If a human operator needs to touch your system during normal operations, you have a bug.": Highlights the goal of automation to minimize human intervention.

How does Site Reliability Engineering: How Google Runs Production Systems define and manage risk?

  • Risk as a Continuum: SREs assess the appropriate level of reliability needed for different services, aligning reliability targets with business goals.
  • Error Budgets: Quantify acceptable unreliability, balancing the need for new features with maintaining reliability.
  • Service Level Objectives (SLOs): Define expected service reliability, guiding risk management and engineering efforts.

What is the role of an SRE as described in Site Reliability Engineering: How Google Runs Production Systems?

  • Operational Responsibility: SREs handle availability, latency, performance, efficiency, change management, monitoring, emergency response, and capacity planning.
  • Engineering Focus: Apply software engineering principles to solve operational problems, allowing for efficient and scalable solutions.
  • Collaboration with Development Teams: Work closely with product development to ensure reliability is built into software from the start.

How does Google ensure reliability in its systems according to Site Reliability Engineering: How Google Runs Production Systems?

  • Monitoring Systems: Comprehensive monitoring tracks performance and health, allowing quick issue detection.
  • Incident Management: A robust process includes preparation, detection, response, and post-incident analysis for continuous improvement.
  • Capacity Planning: Anticipates future demands to ensure systems handle expected loads without performance degradation.

What is the significance of monitoring in Site Reliability Engineering: How Google Runs Production Systems?

  • Foundation of Reliability: Essential for understanding system health and performance, enabling issue detection before user impact.
  • Four Golden Signals: Latency, traffic, errors, and saturation are key metrics providing a comprehensive view of service performance.
  • Alerting Systems: Alerts must be actionable and relevant, ensuring on-call engineers focus on real issues.

What is the blameless postmortem process described in Site Reliability Engineering: How Google Runs Production Systems?

  • Focus on Learning: Analyzes incidents without assigning blame, understanding what went wrong and preventing future issues.
  • Structured Approach: Involves gathering data, identifying root causes, and documenting findings to share knowledge.
  • Cultural Integration: Reinforces that failures are learning opportunities, fostering a culture of improvement.

How does Google handle overload situations in its systems according to Site Reliability Engineering: How Google Runs Production Systems?

  • Graceful Degradation: Strategies for serving degraded responses allow continued operation under stress.
  • Load Shedding: Drops less critical requests during overloads, ensuring essential services remain operational.
  • Monitoring and Alerts: Early detection of overload conditions enables proactive response before escalation.

What is the concept of toil in Site Reliability Engineering: How Google Runs Production Systems?

  • Definition of Toil: Mundane, repetitive operational work providing no enduring value, scaling linearly with service growth.
  • Impact on SRE Workload: SREs should spend no more than 50% of their time on operational work, focusing on engineering projects.
  • Eliminating Toil: Strategies include automating repetitive tasks and improving system design to minimize manual intervention.

How does Google ensure reliability during product launches according to Site Reliability Engineering: How Google Runs Production Systems?

  • Launch Coordination Engineering: A dedicated team oversees product launches, mitigating risks associated with new releases.
  • Pre-Launch Checklists: Detailed checklists prepare teams for potential issues, ensuring necessary steps are taken before launch.
  • Gradual Rollouts: Monitors new feature impacts on performance, allowing quick rollbacks if issues arise.

نقد و بررسی

4.22 از 5
میانگین از 2k+ امتیازات از Goodreads و Amazon.

کتاب مهندسی قابلیت اطمینان سایت نظرات متفاوتی را به خود جلب کرده است. خوانندگان از بینش‌های ارزشمند آن در مورد شیوه‌های گوگل تقدیر می‌کنند، اما کیفیت ناهماهنگ و تکراری آن را مورد انتقاد قرار می‌دهند. بسیاری این کتاب را برای درک مدیریت سیستم‌های بزرگ مقیاس ضروری می‌دانند، در حالی که برخی دیگر احساس می‌کنند که محتوای آن بیش از حد به گوگل وابسته است. جنبه‌های مثبت شامل مشاوره‌های عملی در زمینه نظارت، بودجه‌های خطا و بررسی‌های پس از حادثه است. انتقادات بیشتر بر طول کتاب، سبک نوشتاری ناهماهنگ و گاهی اوقات خودپسندانه آن متمرکز است. با وجود این معایب، این کتاب به‌طور گسترده‌ای به‌عنوان منبعی تأثیرگذار برای متخصصان SRE و DevOps شناخته می‌شود و دیدگاه‌های منحصر به فردی در مورد حفظ خدمات قابل اطمینان در مقیاس بزرگ ارائه می‌دهد.

درباره نویسنده

بتسی بایر یک نویسنده فنی در شرکت گوگل در شهر نیویورک است که در زمینه‌ی مهندسی قابلیت اطمینان سایت تخصص دارد. سابقه‌ی او شامل نوشتن مستندات برای تیم‌های مرکز داده و عملیات سخت‌افزار گوگل در مراکز داده‌ی توزیع‌شده در سطح جهانی می‌باشد. پیش از این نقش، بایر به عنوان مدرس نوشتن فنی در دانشگاه استنفورد فعالیت می‌کرد. تحصیلات او متنوع است و شامل مدرک‌های روابط بین‌الملل و ادبیات انگلیسی از دانشگاه‌های استنفورد و تولین می‌باشد. این ترکیب از تخصص فنی و مهارت‌های ادبی به او این امکان را می‌دهد که مفاهیم پیچیده‌ی مهندسی را به‌طور مؤثر در کار خود در گوگل منتقل کند و فاصله‌ی بین مخاطبان فنی و غیر فنی را پر کند.

0:00
-0:00
1x
Dan
Andrew
Michelle
Lauren
Select Speed
1.0×
+
200 words per minute
Home
Library
Get App
Create a free account to unlock:
Requests: Request new book summaries
Bookmarks: Save your favorite books
History: Revisit books later
Recommendations: Get personalized suggestions
Ratings: Rate books & see your ratings
Try Full Access for 7 Days
Listen, bookmark, and more
Compare Features Free Pro
📖 Read Summaries
All summaries are free to read in 40 languages
🎧 Listen to Summaries
Listen to unlimited summaries in 40 languages
❤️ Unlimited Bookmarks
Free users are limited to 10
📜 Unlimited History
Free users are limited to 10
Risk-Free Timeline
Today: Get Instant Access
Listen to full summaries of 73,530 books. That's 12,000+ hours of audio!
Day 4: Trial Reminder
We'll send you a notification that your trial is ending soon.
Day 7: Your subscription begins
You'll be charged on Apr 8,
cancel anytime before.
Consume 2.8x More Books
2.8x more books Listening Reading
Our users love us
100,000+ readers
"...I can 10x the number of books I can read..."
"...exceptionally accurate, engaging, and beautifully presented..."
"...better than any amazon review when I'm making a book-buying decision..."
Save 62%
Yearly
$119.88 $44.99/year
$3.75/mo
Monthly
$9.99/mo
Try Free & Unlock
7 days free, then $44.99/year. Cancel anytime.
Scanner
Find a barcode to scan

Settings
General
Widget
Appearance
Loading...
Black Friday Sale 🎉
$20 off Lifetime Access
$79.99 $59.99
Upgrade Now →