Facebook Pixel
Searching...
Português
EnglishEnglish
EspañolSpanish
简体中文Chinese
FrançaisFrench
DeutschGerman
日本語Japanese
PortuguêsPortuguese
ItalianoItalian
한국어Korean
РусскийRussian
NederlandsDutch
العربيةArabic
PolskiPolish
हिन्दीHindi
Tiếng ViệtVietnamese
SvenskaSwedish
ΕλληνικάGreek
TürkçeTurkish
ไทยThai
ČeštinaCzech
RomânăRomanian
MagyarHungarian
УкраїнськаUkrainian
Bahasa IndonesiaIndonesian
DanskDanish
SuomiFinnish
БългарскиBulgarian
עבריתHebrew
NorskNorwegian
HrvatskiCroatian
CatalàCatalan
SlovenčinaSlovak
LietuviųLithuanian
SlovenščinaSlovenian
СрпскиSerbian
EestiEstonian
LatviešuLatvian
فارسیPersian
മലയാളംMalayalam
தமிழ்Tamil
اردوUrdu
Seeking SRE

Seeking SRE

Conversations about Running Production Systems at Scale
por David N. Blank-Edelman 2018 945 páginas
4.16
100+ avaliações
Ouvir
Ouvir

Principais conclusões

1. Princípios de SRE podem ser aplicados sem equipes dedicadas de SRE

"SRE é o que acontece quando você pede a um engenheiro de software para projetar uma função de operações."

Abordagem adaptável. Os princípios de SRE podem ser implementados em organizações de diversos tamanhos e estruturas, mesmo sem equipes dedicadas de SRE. A ideia central é aplicar práticas de engenharia de software nas operações, com foco em automação, confiabilidade e escalabilidade.

Mudança cultural. A implementação dos princípios de SRE requer uma mudança cultural, enfatizando a responsabilidade compartilhada pela confiabilidade entre desenvolvimento e operações. Isso pode ser alcançado por meio de:

  • Incorporação de práticas de SRE nas equipes existentes
  • Promoção da colaboração entre diferentes funções
  • Incentivo a uma mentalidade de "você constrói, você opera"
  • Fomento a uma cultura sem culpa de melhoria contínua

2. SRE eficaz foca na automação de tarefas repetitivas e na redução do trabalho manual

"Trabalho manual é o tipo de trabalho ligado à execução de um serviço de produção que tende a ser manual, repetitivo, automatizável, tático, desprovido de valor duradouro e que escala linearmente à medida que o serviço cresce."

Identificando o trabalho manual. O trabalho manual abrange tarefas repetitivas e manuais que não agregam valor a longo prazo. Exemplos incluem:

  • Implantações manuais
  • Mudanças de configuração repetitivas
  • Verificações de sistema rotineiras
  • Respostas manuais a alertas comuns

Estratégias de automação. Para reduzir o trabalho manual, os SREs se concentram em:

  • Construir ferramentas de autoatendimento para tarefas comuns
  • Implementar infraestrutura como código
  • Criar pipelines de testes e implantações automatizadas
  • Desenvolver runbooks e playbooks para procedimentos rotineiros
  • Aproveitar IA e aprendizado de máquina para manutenção preditiva

3. Aprendizado de máquina aprimora SRE ao prever problemas e automatizar respostas

"Aprendizado de máquina refere-se aos métodos estatísticos usados para criar algoritmos que aprendem a melhorar o desempenho ao longo do tempo, com ênfase crescente no uso de computadores para estimar estatisticamente funções complicadas e provar intervalos de confiança em torno dessas funções."

Manutenção preditiva. Modelos de aprendizado de máquina podem analisar padrões em métricas de sistema, logs e dados históricos para prever problemas potenciais antes que ocorram. Isso permite que os SREs:

  • Abordem proativamente gargalos de desempenho
  • Prevejam necessidades de recursos para planejamento de capacidade
  • Identifiquem anomalias que podem indicar ameaças de segurança ou falhas no sistema

Respostas automatizadas. Sistemas impulsionados por aprendizado de máquina podem:

  • Escalar automaticamente recursos com base na demanda prevista
  • Implementar mecanismos de autocorreção para problemas comuns
  • Otimizar configurações de sistema em tempo real
  • Fornecer alertas inteligentes e triagem de incidentes

4. Engenharia de confiabilidade de banco de dados é crítica para a integridade e durabilidade dos dados

"A camada de banco de dados é a camada com a menor tolerância ao risco e, portanto, uma das maiores oportunidades de crescimento por meio de uma cultura de engenharia de confiabilidade."

Estratégias de proteção de dados. A engenharia de confiabilidade de banco de dados foca em:

  • Implementar processos robustos de backup e recuperação
  • Projetar para alta disponibilidade e tolerância a falhas
  • Garantir a consistência dos dados em sistemas distribuídos
  • Gerenciar mudanças de esquema e migrações de forma segura

Otimização de desempenho. Os DBREs trabalham em:

  • Otimização de consultas e estratégias de indexação
  • Planejamento de capacidade para o crescimento do banco de dados
  • Implementação de camadas de cache e réplicas de leitura
  • Monitoramento e ajuste de métricas de desempenho do banco de dados

5. Engenharia de privacidade é essencial para manter a confiança do usuário e a segurança dos dados

"A engenharia de privacidade não se trata apenas de cumprir requisitos legais. Trata-se de desenvolver soluções criativas para alcançar produtos que as pessoas confiem, muitas vezes de acordo com requisitos técnicos, administrativos e legais extremamente desafiadores."

Privacidade por design. A engenharia de privacidade integra a proteção de dados no processo de desenvolvimento desde o início, considerando:

  • Minimização de dados e limitação de propósito
  • Consentimento do usuário e controle sobre dados pessoais
  • Técnicas de anonimização e pseudonimização
  • Armazenamento e transmissão de dados seguros

Conformidade e confiança. Engenheiros de privacidade trabalham para:

  • Garantir conformidade com regulamentos como GDPR e CCPA
  • Implementar práticas de dados transparentes
  • Construir confiança do usuário por meio de comunicação clara sobre o uso de dados
  • Projetar sistemas de análise e aprendizado de máquina que preservem a privacidade

6. Entrega e implantação contínuas são cruciais para as práticas modernas de SRE

"Entrega Contínua é uma disciplina onde você constrói software de tal forma que o software pode ser liberado para produção a qualquer momento."

Automatizando o pipeline. Os SREs se concentram em construir pipelines robustos de CI/CD que:

  • Construa, teste e implante automaticamente mudanças de código
  • Implementem feature flags para liberações controladas
  • Possibilitem rollbacks fáceis em caso de problemas
  • Forneçam visibilidade no processo de implantação

Reduzindo o risco de implantação. As estratégias incluem:

  • Implementação de lançamentos canário e implantações blue-green
  • Realização de verificações pré-implantação rigorosas
  • Monitoramento de métricas-chave durante e após as implantações
  • Automação de testes de verificação pós-implantação

7. A cultura de SRE enfatiza o aprendizado com falhas e a melhoria contínua

"SRE é uma extensão natural do DevOps como Operações Contínuas."

Post-mortem sem culpa. Os SREs promovem uma cultura de aprendizado a partir de incidentes por meio de:

  • Condução de revisões de incidentes rigorosas e sem culpa
  • Foco em questões sistêmicas em vez de erros individuais
  • Documentação e compartilhamento de lições aprendidas
  • Implementação de melhorias acionáveis com base nas descobertas

Experimentação contínua. A cultura de SRE incentiva:

  • Experimentos controlados de engenharia de caos
  • Simulações regulares de recuperação de desastres
  • Testes proativos de cenários de falha
  • Melhorias iterativas na resiliência do sistema

8. Monitoramento, alertas e observabilidade são fundamentais para o sucesso de SRE

"Se você não pode medir, não pode melhorar."

Monitoramento abrangente. Os SREs implementam monitoramento em múltiplas camadas:

  • Métricas de infraestrutura (CPU, memória, disco, rede)
  • Métricas de desempenho de aplicativos
  • KPIs de negócios e métricas de experiência do usuário
  • Rastreio distribuído para sistemas complexos

Alertas eficazes. Os princípios-chave incluem:

  • Alertar sobre sintomas, não causas
  • Implementar severidade de alerta em camadas
  • Reduzir o ruído e a fadiga de alertas
  • Automatizar a triagem e resposta iniciais quando possível

Observabilidade. Os SREs se concentram em construir sistemas que sejam:

  • Instrumentados com logs e métricas significativas
  • Rastreáveis entre componentes distribuídos
  • Consultáveis para investigações ad-hoc
  • Visualizados por meio de painéis intuitivos

9. Planejamento de capacidade e otimização de desempenho são responsabilidades-chave de SRE

"Você não tem tempo para cuidar de tudo."

Gestão proativa de capacidade. Os SREs trabalham em:

  • Previsão das necessidades de recursos com base em tendências históricas e projeções de negócios
  • Implementação de mecanismos de autoescalonamento
  • Otimização da utilização de recursos em toda a pilha
  • Planejamento para tráfego de pico e variações sazonais

Ajuste de desempenho. As estratégias incluem:

  • Profilagem de aplicativos para identificar gargalos
  • Otimização de consultas de banco de dados e padrões de acesso a dados
  • Implementação de estratégias de cache em vários níveis
  • Testes de carga para validar o desempenho do sistema sob estresse

10. Colaboração entre funções é vital para a implementação eficaz de SRE

"SRE não existe em um vácuo — ambas as organizações operam em um ecossistema maior de engenharia e produto com múltiplos outros participantes, cada um com suas próprias prioridades e objetivos."

Quebrando silos. Os SREs trabalham para:

  • Fomentar a colaboração entre equipes de desenvolvimento, operações e segurança
  • Participar das fases iniciais de design e arquitetura de produtos
  • Compartilhar conhecimento e melhores práticas em toda a organização
  • Alinhar os objetivos de SRE com os objetivos de negócios

Propriedade compartilhada. SRE promove:

  • Responsabilidade coletiva pela confiabilidade do sistema
  • Treinamento cruzado e compartilhamento de habilidades entre equipes
  • Resposta conjunta a incidentes e rodízios de plantão
  • Resolução colaborativa de problemas e tomada de decisões

Última atualização:

Avaliações

4.16 de 5
Média de 100+ avaliações do Goodreads e da Amazon.

Seeking SRE recebeu críticas mistas, com uma avaliação geral de 4,19 em 5. As resenhas positivas elogiaram seu conteúdo perspicaz sobre práticas de SRE, exemplos do mundo real e discussões sobre os aspectos humanos do papel. Os críticos apontaram inconsistências devido à presença de múltiplos autores e à repetição de ideias. Alguns consideraram o livro valioso para entender o SRE além do Google, enquanto outros sentiram que certos capítulos eram excessivamente específicos em tecnologia. A estrutura do livro, apresentada como uma coleção de ensaios, foi tanto apreciada quanto criticada, com alguns leitores achando-a informativa e outros enfrentando dificuldades devido à falta de coesão.

Sobre o autor

David Blank-Edelman é um tecnólogo experiente e autor na área de Engenharia de Confiabilidade de Sites (SRE). Ele compilou e editou o livro "Seeking SRE", que apresenta ensaios de diversos profissionais da indústria. O trabalho de Blank-Edelman foca na exploração das práticas de SRE além do Google, onde o conceito teve origem. Sua abordagem envolve a coleta de perspectivas diversas de diferentes empresas e especialistas, a fim de fornecer uma visão abrangente da implementação de SRE em vários contextos organizacionais. Através deste livro, ele busca preencher a lacuna entre os conceitos teóricos de SRE e as aplicações práticas em diferentes ambientes, contribuindo para uma compreensão mais ampla e adoção dos princípios de SRE na indústria de tecnologia.

0:00
-0:00
1x
Dan
Andrew
Michelle
Lauren
Select Speed
1.0×
+
200 words per minute
Create a free account to unlock:
Requests: Request new book summaries
Bookmarks: Save your favorite books
History: Revisit books later
Ratings: Rate books & see your ratings
Try Full Access for 7 Days
Listen, bookmark, and more
Compare Features Free Pro
📖 Read Summaries
All summaries are free to read in 40 languages
🎧 Listen to Summaries
Listen to unlimited summaries in 40 languages
❤️ Unlimited Bookmarks
Free users are limited to 10
📜 Unlimited History
Free users are limited to 10
Risk-Free Timeline
Today: Get Instant Access
Listen to full summaries of 73,530 books. That's 12,000+ hours of audio!
Day 4: Trial Reminder
We'll send you a notification that your trial is ending soon.
Day 7: Your subscription begins
You'll be charged on Mar 2,
cancel anytime before.
Consume 2.8x More Books
2.8x more books Listening Reading
Our users love us
50,000+ readers
"...I can 10x the number of books I can read..."
"...exceptionally accurate, engaging, and beautifully presented..."
"...better than any amazon review when I'm making a book-buying decision..."
Save 62%
Yearly
$119.88 $44.99/year
$3.75/mo
Monthly
$9.99/mo
Try Free & Unlock
7 days free, then $44.99/year. Cancel anytime.
Settings
Appearance
Black Friday Sale 🎉
$20 off Lifetime Access
$79.99 $59.99
Upgrade Now →