Searching...
한국어
English
Español
简体中文
Français
Deutsch
日本語
Português
Italiano
한국어
Русский
Nederlands
العربية
Polski
हिन्दी
Tiếng Việt
Svenska
Ελληνικά
Türkçe
ไทย
Čeština
Română
Magyar
Українська
Bahasa Indonesia
Dansk
Suomi
Български
עברית
Norsk
Hrvatski
Català
Slovenčina
Lietuvių
Slovenščina
Српски
Eesti
Latviešu
فارسی
മലയാളം
தமிழ்
اردو
Observability Engineering

Observability Engineering

Achieving Production Excellence
by Charity Majors 2022 318 pages
Technology
Software
Programming
듣기

가지 주요 요점

1. 관측 가능성은 소프트웨어 시스템 이해를 혁신합니다

관측 가능성은 시스템이 어떤 상태에 있든, 그것이 얼마나 새롭거나 기이하든 간에 이해하고 설명할 수 있는 능력을 측정하는 것입니다.

패러다임 전환. 관측 가능성은 제어 이론 개념을 현대 소프트웨어 시스템에 적용하여 엔지니어가 외부 출력을 통해 내부 상태를 이해할 수 있게 합니다. 전통적인 모니터링이 사전 정의된 메트릭과 임계값에 의존하는 것과 달리, 관측 가능성은 시스템 동작에 대한 임시 쿼리와 탐색을 허용합니다.

복잡성 해결. 시스템이 더 분산되고 동적이 됨에 따라 전통적인 모니터링의 한계가 명확해집니다. 관측 가능성은 다음과 같은 환경에서 빛을 발합니다:

  • 마이크로서비스 아키텍처가 복잡한 종속성을 생성할 때
  • 클라우드 네이티브 배포가 일시적인 자원을 도입할 때
  • 지속적인 배포 관행이 빈번한 변화를 초래할 때

문화적 영향. 관측 가능성 관행을 채택하면 팀이 프로덕션 시스템에 접근하는 방식이 변합니다:

  • 반응적인 문제 해결보다는 능동적인 탐색을 장려합니다
  • 팀 구성원 간 시스템 이해를 민주화합니다
  • 개발과 운영 간의 장벽을 허물어줍니다

2. 이벤트, 메트릭이 아닌 관측 가능성의 기본 요소

관측 가능성의 정의를 받아들인다면, 즉 그것이 알려지지 않은 것들에 관한 것이며, 사전에 예측하거나 예견하지 않고도 어떤 질문이든 할 수 있고, 시스템의 내부 상태를 이해할 수 있다는 것이라면, 이 정의를 충족하기 위해 충족해야 할 여러 기술적 전제 조건이 있습니다.

풍부한 컨텍스트. 이벤트는 시스템 상호작용의 전체 컨텍스트를 캡처합니다:

  • 요청 매개변수
  • 시스템 상태
  • 성능 메트릭
  • 사용자 식별자
  • 비즈니스 특정 데이터 포인트

유연성. 사전 집계된 메트릭과 달리, 이벤트는 다음을 허용합니다:

  • 데이터의 임의 분할 및 분석
  • 고카디널리티 및 고차원 쿼리
  • 이전에 알려지지 않은 패턴과 상관관계 발견

구현. 구조화된 이벤트는 다음과 같아야 합니다:

  • 중요한 시스템 상호작용마다 방출
  • 많은 필드를 가진 넓은 형태로 설계
  • 기술적 및 비즈니스 컨텍스트 모두를 캡처할 수 있어야 함

3. 트레이스는 이벤트를 연결하여 중요한 컨텍스트를 제공합니다

관측 가능한 시스템에서 트레이스는 단순히 상호 관련된 일련의 이벤트입니다.

종단 간 가시성. 트레이스는 분산 시스템 전반의 이벤트를 연결하여 다음을 드러냅니다:

  • 서비스 종속성
  • 성능 병목 현상
  • 오류 전파

핵심 구성 요소:

  • 트레이스 ID: 전체 요청 흐름에 대한 고유 식별자
  • 스팬 ID: 트레이스의 각 단계에 대한 식별자
  • 부모 ID: 스팬 간의 계층적 관계를 설정
  • 타임스탬프 및 지속 시간: 타이밍 정보 캡처

전통적인 사용 사례를 넘어서. 트레이싱 개념은 다음에 적용될 수 있습니다:

  • 성능 분석을 위한 비분산 시스템
  • 처리 단계를 이해하기 위한 배치 작업
  • 서버리스 워크플로우를 추적하기 위한 람다 함수

4. 관측 가능성은 기본 원칙에서 디버깅을 가능하게 합니다

기본 원칙은 다른 가정에서 도출되지 않은 시스템에 대한 기본 가정입니다.

과학적 접근. 관측 가능성 도구는 체계적인 디버깅 프로세스를 지원합니다:

  1. 시스템의 전체적인 뷰로 시작
  2. 관찰된 동작을 기대치와 비교
  3. 패턴을 식별하기 위해 차원을 체계적으로 탐색
  4. 문제를 격리하기 위해 필터링 및 세부 분석
  5. 근본 원인이 발견될 때까지 반복

자동화. 고급 관측 가능성 도구는 다음을 수행할 수 있습니다:

  • 이상 동작을 기준선과 비교
  • 이벤트 속성의 중요한 차이점을 강조
  • 잠재적인 조사 영역을 제안

문화적 변화. 기본 원칙에서 디버깅:

  • 부족 지식에 대한 의존도를 줄임
  • 경험이 적은 팀 구성원을 권한 부여
  • 호기심과 탐구를 장려

5. SLO와 오류 예산은 실행 가능한 경고를 생성합니다

오류 예산 소진 경고는 현재 소진율이 계속될 경우 발생할 미래의 SLO 위반에 대한 조기 경고를 제공하도록 설계되었습니다.

신뢰성 정의. 서비스 수준 목표(SLO)는 다음을 제공합니다:

  • 시스템 신뢰성에 대한 명확한 목표
  • 엔지니어링 및 비즈니스 이해 관계자 간의 공통 언어
  • 신뢰성과 기능 개발 간의 트레이드오프를 만드는 프레임워크

오류 예산. 허용 가능한 불신뢰성 수준을 정량화함으로써, 오류 예산은:

  • 관리해야 할 유한한 자원을 생성
  • 능동적인 신뢰성 개선을 장려
  • 안정성을 새로운 기능보다 우선시해야 할 때의 객관적인 측정 기준 제공

실행 가능한 경고. SLO 기반 경고는:

  • 고객에게 영향을 미치는 문제에 집중
  • 노이즈를 제거하여 경고 피로를 줄임
  • 우선순위 설정 및 의사 결정에 대한 컨텍스트 제공

6. 샘플링 전략은 자원 사용을 최적화하면서 충실도를 유지합니다

규모가 커짐에 따라 자원 비용을 최적화하기 위해 데이터 세트를 정제할 필요성이 중요해집니다. 하지만 자원 절감의 필요성이 덜한 작은 규모에서도 유지할 데이터를 정제하는 것은 여전히 가치 있는 비용 절감을 제공할 수 있습니다.

균형 잡기. 샘플링 전략은 다음을 목표로 합니다:

  • 데이터 볼륨 및 관련 비용 감소
  • 분석을 위한 통계적 정확성 유지
  • 중요한 이벤트 및 이상치 보존

핵심 기술:

  • 일정 확률 샘플링: 간단하지만 희귀 이벤트를 놓칠 수 있음
  • 동적 비율 샘플링: 트래픽 볼륨에 따라 조정
  • 콘텐츠 기반 샘플링: 속성에 따라 이벤트 우선순위 지정
  • 헤드 기반 vs. 테일 기반 샘플링: 샘플링 결정 시점 고려

구현 고려 사항:

  • 서비스 간 일관된 샘플링
  • 분산 트레이스에서 샘플링 결정 전파
  • 원본 데이터 분포를 재구성할 수 있는 능력

7. 관측 가능성은 분산 시스템 시대의 비즈니스 필수 요소입니다

시스템에 관측 가능성을 도입하는 비즈니스 사례는 서비스 내 문제를 감지(TTD)하고 해결(TTR)하는 시간을 줄이는 것입니다.

구체적인 혜택:

  • 빠른 사고 해결
  • 향상된 고객 만족도
  • 엔지니어링 번아웃 감소
  • 기능 속도 증가

문화적 변혁. 관측 가능성 관행은:

  • 엔지니어가 시스템을 이해하고 소유할 수 있도록 권한 부여
  • 개발, 운영 및 비즈니스 팀 간의 장벽을 허물어줌
  • 지속적인 개선과 학습 문화를 조성

구현 전략:

  1. 높은 영향력과 고통점이 있는 서비스부터 시작
  2. 빠른 성과를 통해 가치를 입증
  3. 도구 및 교육에 투자
  4. 개선을 위한 명확한 메트릭 설정 (예: TTD, TTR)
  5. 조직 전반에 걸쳐 점진적으로 확장

Last updated:

리뷰

3.78 out of 5
Average of 100+ ratings from Goodreads and Amazon.

고교 시절 촉망받는 야구선수였던 저자는 연습 중 동료의 야구 배트에 얼굴을 정통으로 강타당하는 큰 사고를 당했다. 이 사고로 얼굴 뼈가 30조각이 났고, 왼쪽 눈이 튀어나와 실명 위기까지 왔으며, 심정지가 세 번이나 일어났다. 걸을 수조차 없었던 저자는 절망에 빠지는 대신 지금 당장 할 수 있는 아주 작은 일이라도 찾아 그것을 반복하자고 마음먹는다.

Observability Engineering은 평균 평점 3.78로 엇갈린 평가를 받고 있다. 독자들은 이 책이 관측 가능성 개념을 소개하고 사회-기술 시스템에 중점을 둔 점을 높이 평가한다. 그러나 많은 이들은 책이 반복적이고 실용적인 예시가 부족하며, 모니터링과 관측 가능성을 구분하는 데 너무 집중한다고 느낀다. 일부는 혁신적인 아이디어를 칭찬하지만, 다른 이들은 책의 길이와 기술적 깊이의 부족을 비판한다. 이 책은 관측 가능성을 이해하는 데 좋은 출발점으로 여겨지지만, 엔지니어를 위한 구체적인 구현 지침을 제공하는 데는 미흡하다.

저자 소개

Charity Majors는 관찰 가능성과 소프트웨어 엔지니어링 분야에서 저명한 인물입니다. 그녀는 분산 시스템, 프로덕션 엔지니어링, 그리고 DevOps 실천에 대한 전문 지식으로 잘 알려져 있습니다. Majors는 관찰 가능성 도구를 전문으로 하는 회사인 Honeycomb의 공동 창립자이자 CTO입니다. 그녀는 자주 컨퍼런스에서 연설하고 관찰 가능성, 마이크로서비스, 현대 소프트웨어 개발 실천에 대해 글을 씁니다. Majors는 특히 트위터에서 기술과 엔지니어링 문화에 대한 통찰을 공유하고 토론에 참여하며 강한 존재감을 보이고 있습니다. 그녀의 작업은 관찰 가능성을 통해 복잡한 소프트웨어 시스템의 신뢰성과 성능을 향상시키는 데 중점을 두고 있습니다.

0:00
-0:00
1x
Create a free account to unlock:
Bookmarks – save your favorite books
History – revisit books later
Ratings – rate books & see your ratings
Listening – audio summariesListen to the first takeaway of every book for free, upgrade to Pro for unlimited listening.
Unlock unlimited listening
Your first week's on us!
Today: Get Instant Access
Listen to full summaries of 73,530 books. That's 12,000+ hours of audio!
Day 5: Trial Reminder
We'll send you a notification that your trial is ending soon.
Day 7: Your subscription begins
You'll be charged on Sep 28,
cancel anytime before.
Compare Features Free Pro
Read full text summaries
Summaries are free to read for everyone
Listen to full summaries
Free users can listen to the first takeaway only
Unlimited Bookmarks
Free users are limited to 10
Unlimited History
Free users are limited to 10
What our users say
15,000+ readers
“...I can 10x the number of books I can read...”
“...exceptionally accurate, engaging, and beautifully presented...”
“...better than any amazon review when I'm making a book-buying decision...”
Save 62%
Yearly
$119.88 $44.99/yr
$3.75/mo
Monthly
$9.99/mo
Try Free & Unlock
7 days free, then $44.99/year. Cancel anytime.