Searching...
Русский
EnglishEnglish
EspañolSpanish
简体中文Chinese
FrançaisFrench
DeutschGerman
日本語Japanese
PortuguêsPortuguese
ItalianoItalian
한국어Korean
РусскийRussian
NederlandsDutch
العربيةArabic
PolskiPolish
हिन्दीHindi
Tiếng ViệtVietnamese
SvenskaSwedish
ΕλληνικάGreek
TürkçeTurkish
ไทยThai
ČeštinaCzech
RomânăRomanian
MagyarHungarian
УкраїнськаUkrainian
Bahasa IndonesiaIndonesian
DanskDanish
SuomiFinnish
БългарскиBulgarian
עבריתHebrew
NorskNorwegian
HrvatskiCroatian
CatalàCatalan
SlovenčinaSlovak
LietuviųLithuanian
SlovenščinaSlovenian
СрпскиSerbian
EestiEstonian
LatviešuLatvian
فارسیPersian
മലയാളംMalayalam
தமிழ்Tamil
اردوUrdu
Seeking SRE

Seeking SRE

Conversations about Running Production Systems at Scale
автор David N. Blank-Edelman 2018 945 страниц
4.16
100+ оценки
Слушать
Listen to Summary
Try Full Access for 7 Days
Unlock listening & more!
Continue

ключевых вывода

1. Принципы SRE могут быть применены без выделенных команд SRE

"SRE — это то, что происходит, когда вы просите инженера-программиста разработать операционную функцию."

Адаптивный подход. Принципы SRE могут быть внедрены в организациях различного размера и структуры, даже без выделенных команд SRE. Основная идея заключается в применении практик программной инженерии к операциям, с акцентом на автоматизацию, надежность и масштабируемость.

Культурные изменения. Внедрение принципов SRE требует изменения культуры, подчеркивающего общую ответственность за надежность как в разработке, так и в операциях. Это можно достичь путем:

  • Внедрения практик SRE в существующие команды
  • Содействия межфункциональному сотрудничеству
  • Поощрения менталитета "вы это построили — вы это и запускаете"
  • Формирования культуры безобвинительных постоянных улучшений

2. Эффективный SRE сосредоточен на автоматизации повторяющихся задач и снижении трудозатрат

"Трудозатраты — это работа, связанная с управлением производственным сервисом, которая, как правило, является ручной, повторяющейся, автоматизируемой, тактической, не имеющей долговременной ценности и которая линейно увеличивается по мере роста сервиса."

Идентификация трудозатрат. Трудозатраты охватывают повторяющиеся, ручные задачи, которые не добавляют долгосрочной ценности. Примеры включают:

  • Ручные развертывания
  • Повторяющиеся изменения конфигурации
  • Рутинные проверки систем
  • Ручные ответы на общие оповещения

Стратегии автоматизации. Для снижения трудозатрат SRE сосредотачиваются на:

  • Создании инструментов самообслуживания для общих задач
  • Внедрении инфраструктуры как кода
  • Создании автоматизированных тестов и конвейеров развертывания
  • Разработке инструкций и руководств для рутинных процедур
  • Использовании ИИ и машинного обучения для предсказательной поддержки

3. Машинное обучение улучшает SRE, предсказывая проблемы и автоматизируя ответы

"Машинное обучение относится к статистическим методам, используемым для создания алгоритмов, которые учатся улучшать производительность со временем, с увеличенным акцентом на использование компьютеров для статистической оценки сложных функций и доказательства доверительных интервалов вокруг этих функций."

Предсказательная поддержка. Модели машинного обучения могут анализировать паттерны в системных метриках, логах и исторических данных, чтобы предсказать потенциальные проблемы до их возникновения. Это позволяет SRE:

  • Проактивно устранять узкие места в производительности
  • Предсказывать потребности в ресурсах для планирования емкости
  • Выявлять аномалии, которые могут указывать на угрозы безопасности или сбои системы

Автоматизированные ответы. Системы на базе машинного обучения могут:

  • Автоматически масштабировать ресурсы в зависимости от предсказанного спроса
  • Внедрять механизмы самовосстановления для общих проблем
  • Оптимизировать конфигурации системы в реальном времени
  • Обеспечивать интеллектуальное оповещение и триаж инцидентов

4. Инженерия надежности баз данных критически важна для целостности и долговечности данных

"Уровень базы данных — это уровень с наименьшей толерантностью к риску и, следовательно, одна из величайших возможностей для роста через культуру инженерии надежности."

Стратегии защиты данных. Инженерия надежности баз данных сосредоточена на:

  • Внедрении надежных процессов резервного копирования и восстановления
  • Проектировании для высокой доступности и отказоустойчивости
  • Обеспечении согласованности данных в распределенных системах
  • Безопасном управлении изменениями схемы и миграциями

Оптимизация производительности. Инженеры надежности баз данных работают над:

  • Оптимизацией запросов и стратегиями индексации
  • Планированием емкости для роста базы данных
  • Внедрением кэширования и реплик для чтения
  • Мониторингом и настройкой метрик производительности базы данных

5. Инженерия конфиденциальности необходима для поддержания доверия пользователей и безопасности данных

"Инженерия конфиденциальности — это не просто выполнение требований для достижения юридической соответствия. Это разработка креативных решений для создания продуктов, которым люди доверяют, часто в соответствии с крайне сложными техническими, административными и юридическими требованиями."

Конфиденциальность по умолчанию. Инженерия конфиденциальности интегрирует защиту данных в процесс разработки с самого начала, учитывая:

  • Минимизацию данных и ограничение целей
  • Согласие пользователей и контроль над личными данными
  • Техники анонимизации и псевдонимизации
  • Безопасное хранение и передачу данных

Соответствие и доверие. Инженеры конфиденциальности работают над:

  • Обеспечением соответствия таким регламентам, как GDPR и CCPA
  • Внедрением прозрачных практик работы с данными
  • Построением доверия пользователей через четкое общение о использовании данных
  • Проектированием аналитических систем и систем машинного обучения, сохраняющих конфиденциальность

6. Непрерывная доставка и развертывание имеют решающее значение для современных практик SRE

"Непрерывная доставка — это дисциплина, при которой вы разрабатываете программное обеспечение таким образом, чтобы его можно было выпустить в производство в любое время."

Автоматизация конвейера. SRE сосредотачиваются на создании надежных CI/CD конвейеров, которые:

  • Автоматически собирают, тестируют и развертывают изменения кода
  • Внедряют флаги функций для контролируемых развертываний
  • Обеспечивают легкие откаты в случае проблем
  • Предоставляют видимость процесса развертывания

Снижение рисков развертывания. Стратегии включают:

  • Внедрение канареечных релизов и синих-зеленых развертываний
  • Проведение тщательных проверок перед развертыванием
  • Мониторинг ключевых метрик во время и после развертываний
  • Автоматизация проверок после развертывания

7. Культура SRE подчеркивает обучение на ошибках и постоянное улучшение

"SRE — это естественное продолжение DevOps как Непрерывных Операций."

Безобвинительные постмортемы. SRE продвигают культуру обучения на инцидентах, проводя:

  • Тщательные, безобвинительные обзоры инцидентов
  • Сосредоточение на системных проблемах, а не на индивидуальных ошибках
  • Документирование и распространение извлеченных уроков
  • Внедрение практических улучшений на основе выводов

Непрерывные эксперименты. Культура SRE поощряет:

  • Контролируемые эксперименты по инженерии хаоса
  • Регулярные учения по восстановлению после катастроф
  • Проактивное тестирование сценариев сбоев
  • Итеративные улучшения устойчивости системы

8. Мониторинг, оповещение и наблюдаемость являются основополагающими для успеха SRE

"Если вы не можете это измерить, вы не можете это улучшить."

Комплексный мониторинг. SRE внедряют многоуровневый мониторинг:

  • Метрики инфраструктуры (ЦП, память, диск, сеть)
  • Метрики производительности приложений
  • Бизнес-KPI и метрики пользовательского опыта
  • Распределенное отслеживание для сложных систем

Эффективное оповещение. Ключевые принципы включают:

  • Оповещение о симптомах, а не о причинах
  • Внедрение многоуровневой серьезности оповещений
  • Снижение шума и усталости от оповещений
  • Автоматизация начального триажа и ответа, когда это возможно

Наблюдаемость. SRE сосредотачиваются на создании систем, которые:

  • Оснащены значимыми логами и метриками
  • Отслеживаемы через распределенные компоненты
  • Запрашиваемы для ад-хок расследования
  • Визуализируемы через интуитивно понятные панели

9. Планирование емкости и оптимизация производительности являются ключевыми обязанностями SRE

"У вас нет времени на присмотр."

Проактивное управление емкостью. SRE работают над:

  • Прогнозированием потребностей в ресурсах на основе исторических тенденций и бизнес-прогнозов
  • Внедрением механизмов автоматического масштабирования
  • Оптимизацией использования ресурсов по всему стеку
  • Планированием пикового трафика и сезонных колебаний

Настройка производительности. Стратегии включают:

  • Профилирование приложений для выявления узких мест
  • Оптимизацию запросов к базе данных и паттернов доступа к данным
  • Внедрение стратегий кэширования на различных уровнях
  • Нагрузочное тестирование для проверки производительности системы под нагрузкой

10. Межфункциональное сотрудничество имеет жизненно важное значение для эффективного внедрения SRE

"SRE не существует в вакууме — обе организации работают в более крупной инженерной и продуктовой экосистеме с множеством других участников, каждый из которых имеет свои приоритеты и цели."

Сломать барьеры. SRE работают над:

  • Содействием сотрудничеству между командами разработки, операций и безопасности
  • Участием на ранних стадиях проектирования и архитектуры продукта
  • Обменом знаниями и лучшими практиками по всей организации
  • Согласованием целей SRE с бизнес-целями

Общая ответственность. SRE продвигает:

  • Коллективную ответственность за надежность системы
  • Перекрестное обучение и обмен навыками между командами
  • Совместное реагирование на инциденты и дежурства
  • Совместное решение проблем и принятие решений

Последнее обновление:

FAQ

What's Seeking SRE about?

  • Focus on SRE Conversations: Seeking SRE is a collection of discussions among Site Reliability Engineers (SREs) about their experiences and challenges in implementing SRE principles across various organizations.
  • Diverse Perspectives: It features insights from engineers at major tech companies like Google, Netflix, and Amazon, showcasing how SRE practices can be adapted to different contexts.
  • Cultural and Technical Insights: The book covers both technical aspects and the cultural changes necessary for successful SRE implementation, highlighting the interplay between technology and human elements.

Why should I read Seeking SRE?

  • Real-World Insights: The book offers practical insights from experienced SREs, making it a valuable resource for understanding the real-world application of SRE principles.
  • Community Building: It emphasizes the importance of community and collaboration among SREs, inspiring readers to engage with their professional networks.
  • Actionable Advice: Provides actionable advice on implementing SRE practices, useful for both newcomers and seasoned professionals to improve operational practices.

What are the key takeaways of Seeking SRE?

  • Context Over Control: Emphasizes providing context to teams rather than enforcing strict control, encouraging ownership and informed decision-making.
  • Cultural Change is Essential: Highlights the need for cultural shifts, such as fostering a blameless postmortem culture and encouraging collaboration.
  • Diverse Implementation Strategies: Illustrates that there is no one-size-fits-all approach to SRE; organizations may adopt principles based on their unique contexts.

What are the best quotes from Seeking SRE and what do they mean?

  • “You build it, you run it.”: Emphasizes that developers should take responsibility for the services they create, promoting accountability and operational consideration.
  • “A smart, kind, diverse, inclusive, and respectful community in conversation can catalyze a field like nothing else.”: Highlights the importance of community and collaboration in advancing SRE practices.
  • “Toil is the hidden villain in the journey to SRE.”: Points to the challenges of manual, repetitive tasks that hinder progress, emphasizing the need to reduce toil.

How does Seeking SRE define SRE?

  • SRE as a Discipline: Describes SRE as a discipline that blends software engineering and operations to create scalable and reliable systems.
  • Focus on Reliability: SRE is fundamentally about ensuring services are reliable and available, involving setting clear Service-Level Objectives (SLOs).
  • Cultural and Technical Integration: Highlights the need for a culture of reliability alongside implementing the right technical practices.

What are Service-Level Objectives (SLOs) and why are they important in Seeking SRE?

  • Definition of SLOs: SLOs are specific measurable goals defining expected service reliability and performance, serving as benchmarks for service health.
  • Guiding Operational Decisions: Help teams prioritize work by providing clear targets, ensuring alignment with business goals.
  • Error Budgets: Often tied to error budgets, representing allowable error levels, balancing new features with maintaining reliability.

How can organizations implement SRE principles without a dedicated SRE team according to Seeking SRE?

  • Embed SRE Practices: Integrate SRE principles within existing development teams, allowing ownership while benefiting from SRE methodologies.
  • Focus on Culture: Emphasize a culture of reliability and accountability, encouraging blameless postmortems and open communication.
  • Leverage Existing Resources: Gradually adopt SRE practices using existing resources, training developers on operational responsibilities.

What challenges do organizations face when adopting SRE as discussed in Seeking SRE?

  • Cultural Resistance: Resistance to change from traditional operations models requires strong leadership and clear communication about SRE benefits.
  • Balancing Autonomy and Consistency: Finding a balance between team autonomy and consistency in practices and tools can be challenging.
  • Managing Toil: Essential to identify and automate repetitive tasks to free up time for value-adding engineering work.

How does Seeking SRE address the relationship between SRE and DevOps?

  • Complementary Practices: Discusses how SRE and DevOps share goals of improving collaboration between development and operations teams.
  • Cultural Integration: SRE is seen as a specific implementation of DevOps principles, focusing on reliability and operational excellence.
  • Shared Responsibilities: Both promote shared responsibilities for service reliability, encouraging developers to take ownership of their code in production.

What is the role of chaos engineering in SRE as discussed in Seeking SRE?

  • Chaos Engineering Purpose: Introduced as a practice to experiment on systems to build confidence in their ability to withstand turbulent conditions.
  • Benefits of Chaos Engineering: Helps identify system weaknesses by intentionally introducing failures, allowing teams to improve resilience.
  • Implementation: Outlines principles for implementing chaos engineering, including defining steady-state behavior and automating experiments.

How does Seeking SRE suggest managing error budgets?

  • Error Budget Definition: Defined as the allowable error for a service, balancing reliability with innovation needs.
  • Usage in Decision-Making: Helps teams make informed decisions about deploying new features versus maintaining reliability.
  • Monitoring and Adjusting: Emphasizes monitoring error budgets closely and adjusting practices to meet reliability goals.

What is the significance of psychological safety in SRE as described in Seeking SRE?

  • Foundation for Team Performance: Crucial for fostering an environment where team members feel safe to express ideas and concerns.
  • Encourages Learning from Mistakes: Allows for blameless postmortems, promoting continuous learning and improvement.
  • Reduces Burnout: Mitigates stress associated with on-call duties and high-stakes incidents, contributing to a sustainable work culture.

Отзывы

4.16 из 5
Средняя оценка на основе 100+ оценки с Goodreads и Amazon.

Искусство SRE получило смешанные отзывы, с общей оценкой 4.19 из 5. Положительные рецензии отмечали проницательный контент о практиках SRE, реальные примеры и обсуждения человеческих аспектов этой роли. Критики указывали на несоответствия из-за множества авторов и повторения информации. Некоторые читатели нашли книгу полезной для понимания SRE за пределами Google, в то время как другие считали, что некоторые главы слишком специфичны для технологий. Структура книги в виде сборника эссе вызывала как одобрение, так и критику: одни читатели находили её информативной, а другие испытывали трудности из-за отсутствия связности.

Your rating:
4.52
30 оценки

Об авторе

Дэвид Бланк-Эдельман — опытный технолог и автор в области инженерии надежности сайтов (SRE). Он собрал и отредактировал книгу «В поисках SRE», в которой представлены эссе различных профессионалов отрасли. Работа Бланка-Эдельмана сосредоточена на исследовании практик SRE за пределами Google, где этот концепт возник. Его подход заключается в сборе разнообразных мнений от разных компаний и экспертов, чтобы предоставить всесторонний взгляд на внедрение SRE в различных организационных контекстах. Через эту книгу он стремится преодолеть разрыв между теоретическими концепциями SRE и практическими приложениями в различных средах, способствуя более широкому пониманию и принятию принципов SRE в технологической индустрии.

0:00
-0:00
1x
Dan
Andrew
Michelle
Lauren
Select Speed
1.0×
+
200 words per minute
Home
Library
Get App
Create a free account to unlock:
Requests: Request new book summaries
Bookmarks: Save your favorite books
History: Revisit books later
Recommendations: Personalized for you
Ratings: Rate books & see your ratings
100,000+ readers
Try Full Access for 7 Days
Listen, bookmark, and more
Compare Features Free Pro
📖 Read Summaries
All summaries are free to read in 40 languages
🎧 Listen to Summaries
Listen to unlimited summaries in 40 languages
❤️ Unlimited Bookmarks
Free users are limited to 10
📜 Unlimited History
Free users are limited to 10
Risk-Free Timeline
Today: Get Instant Access
Listen to full summaries of 73,530 books. That's 12,000+ hours of audio!
Day 4: Trial Reminder
We'll send you a notification that your trial is ending soon.
Day 7: Your subscription begins
You'll be charged on May 11,
cancel anytime before.
Consume 2.8x More Books
2.8x more books Listening Reading
Our users love us
100,000+ readers
"...I can 10x the number of books I can read..."
"...exceptionally accurate, engaging, and beautifully presented..."
"...better than any amazon review when I'm making a book-buying decision..."
Save 62%
Yearly
$119.88 $44.99/year
$3.75/mo
Monthly
$9.99/mo
Try Free & Unlock
7 days free, then $44.99/year. Cancel anytime.
Scanner
Find a barcode to scan

Settings
General
Widget
Loading...
Black Friday Sale 🎉
$20 off Lifetime Access
$79.99 $59.99
Upgrade Now →