Searching...
한국어
English
Español
简体中文
Français
Deutsch
日本語
Português
Italiano
한국어
Русский
Nederlands
العربية
Polski
हिन्दी
Tiếng Việt
Svenska
Ελληνικά
Türkçe
ไทย
Čeština
Română
Magyar
Українська
Bahasa Indonesia
Dansk
Suomi
Български
עברית
Norsk
Hrvatski
Català
Slovenčina
Lietuvių
Slovenščina
Српски
Eesti
Latviešu
فارسی
മലയാളം
தமிழ்
اردو
The Art of Statistics

The Art of Statistics

Learning from Data (Pelican Books)
by David Spiegelhalter 2019 448 pages
Science
Mathematics
Business
듣기

가지 주요 요점

1. 통계학: 데이터로부터 배우는 예술

숫자는 스스로 말할 수 없다. 우리가 그들을 대신해 말한다. 우리는 그들에게 의미를 부여한다.

데이터 기반 통찰. 통계학은 데이터를 통해 세상을 이해하고 더 나은 결정을 내리는 과학이다. 이는 데이터를 수집하고 분석하며 해석하여 의미 있는 결론을 도출하는 것을 포함한다. 이 분야는 수학적 엄밀성과 실용적인 문제 해결을 결합하여 복잡한 정보에서 가치 있는 통찰을 추출할 수 있게 한다.

PPDAC 사이클. 통계학의 기본적인 프레임워크는 PPDAC 사이클이다:

  • 문제: 해결할 질문이나 문제 정의
  • 계획: 연구나 실험 설계
  • 데이터: 관련 정보 수집 및 정리
  • 분석: 통계 기법을 적용하여 패턴 발견
  • 결론: 결과 해석 및 소통

이 체계적인 접근 방식은 통계 조사가 잘 구조화되고 실제 문제 해결에 집중할 수 있도록 보장한다.

2. 세상을 데이터로 변환하기: 도전과 기회

우리의 가장 개인적인 감정조차도 코드화되어 통계 분석의 대상이 될 수 있다.

데이터 표현. 현실 세계의 현상을 데이터로 변환하는 것은 통계 분석에서 중요한 단계이다. 이 과정은 복잡한 현실을 나타내기 위해 명확한 범주, 측정치, 변수 등을 정의하는 것을 포함한다. 그러나 이 변환 과정은 도전적이고 때로는 논란이 될 수 있다.

데이터 수집의 도전 과제:

  • 정확한 범주 정의 (예: "나무"의 정의는?)
  • 시간에 따른 일관된 측정 보장
  • 세부 사항과 실용성의 균형
  • 문화적 및 맥락적 요소 고려

이러한 도전 과제에도 불구하고, 우리의 세계의 다양한 측면을 정량화하고 분석할 수 있는 능력은 경제학, 건강, 사회 과학 등 여러 분야에서 중요한 발전을 이끌어냈다. 중요한 것은 데이터 표현에 내재된 한계와 가정을 인식하는 것이다.

3. 확률: 불확실성과 변동성의 언어

확률은 정말로 어렵고 직관적이지 않은 개념이다.

불확실성 정량화. 확률 이론은 불확실성과 변동성을 다루기 위한 수학적 프레임워크를 제공한다. 이는 예측을 하고, 위험을 평가하며, 제한된 데이터로부터 추론을 도출할 수 있게 한다. 확률을 이해하는 것은 통계 결과를 해석하고 정보에 입각한 결정을 내리는 데 필수적이다.

주요 확률 개념:

  • 랜덤 변수와 분포
  • 기대값과 분산
  • 조건부 확률
  • 대수의 법칙
  • 중심 극한 정리

확률은 직관적이지 않을 수 있지만, 빈도수 나무와 시각적 표현과 같은 도구는 복잡한 개념을 더 쉽게 이해할 수 있게 도와준다. 확률을 마스터하는 것은 고급 통계 기법과 데이터 기반 주장에 대한 비판적 평가에 필수적이다.

4. 상관관계, 인과관계, 그리고 무작위 실험의 힘

상관관계는 인과관계를 의미하지 않는다.

연관성을 넘어서. 데이터에서 상관관계를 찾는 것은 쉽지만, 인과관계를 확립하는 것은 훨씬 더 어렵다. 관찰 연구는 연관성을 드러낼 수 있지만, 종종 다른 요인들에 의해 혼란스러울 수 있다. 무작위 대조 실험(RCT)은 인과관계를 결정하는 데 있어 금본위제이다.

RCT의 강점:

  • 무작위 할당으로 편향 감소
  • 대조군이 플라시보 효과를 고려
  • 블라인딩으로 관찰자 편향 최소화
  • 사전 등록으로 p-해킹 방지

그러나 RCT는 항상 실현 가능하거나 윤리적이지 않을 수 있다. 이러한 경우, 신중한 연구 설계, 혼란 변수 통제, 성향 점수 매칭과 같은 통계 기법을 사용하여 관찰 데이터에서 인과 추론을 강화할 수 있다.

5. 통계 모델: 복잡한 현실을 단순화하기

모든 모델은 틀렸지만, 일부는 유용하다.

모델 기반 사고. 통계 모델은 현실을 단순화한 표현으로, 패턴을 이해하고 예측을 돕는다. 이는 단순한 선형 회귀에서 복잡한 기계 학습 알고리즘에 이르기까지 다양하다. 모든 모델에는 한계가 있지만, 적절히 사용하면 가치 있는 통찰을 제공할 수 있다.

통계 모델링의 주요 측면:

  • 관련 변수 선택
  • 변수 간 관계 명시
  • 데이터로부터 매개변수 추정
  • 모델 적합도 및 진단 평가
  • 한계와 가정 이해

모델은 이해를 위한 도구이지, 현실의 완벽한 표현이 아님을 기억하는 것이 중요하다. 목표는 특정 목적에 유용한 모델을 찾는 것이며, 그 한계를 인식하는 것이다.

6. P-값의 위험성과 재현성 위기

과학적 결론과 비즈니스 또는 정책 결정은 특정 임계값을 통과하는 P-값에만 기반해서는 안 된다.

통계적 유의성을 넘어서. P-값은 오랫동안 통계적 유의성의 척도로 사용되어 왔으며, p < 0.05는 종종 "발견"의 임계값으로 간주된다. 그러나 이 접근 방식은 출판 편향과 재현성 위기 등 과학 연구에서 수많은 문제를 초래했다.

P-값의 문제점:

  • 의미의 오해
  • 유의성의 임의적 임계값
  • p-해킹 장려
  • 효과 크기와 실질적 유의성 무시

이 문제를 해결하기 위해 많은 통계학자들은 효과 크기와 신뢰 구간 보고, 베이즈 방법 사용, 단일 연구보다는 결과의 복제에 중점을 두는 등 더 세밀한 접근 방식을 권장한다.

7. 베이즈 사고: 경험으로부터 배우기

베이즈의 유산은 데이터가 스스로 말하지 않는다는 근본적인 통찰이다 – 우리의 외부 지식과 판단이 중심적인 역할을 한다.

신념 갱신. 베이즈 통계는 새로운 증거를 수집하면서 우리의 신념을 갱신하는 프레임워크를 제공한다. 이는 사전 지식과 관찰된 데이터를 결합하여 사후 확률을 형성한다. 이 접근 방식은 제한된 데이터 상황이나 전문가 지식을 통합할 때 특히 유용하다.

주요 베이즈 개념:

  • 사전 및 사후 분포
  • 우도와 베이즈 정리
  • 신뢰 구간
  • 베이즈 인자를 사용한 모델 비교

베이즈 방법은 불확실성에 대한 더 직관적인 접근 방식을 제공하며, 질병의 사전 확률이 잘 알려진 의료 진단과 같은 분야에서 특히 유용할 수 있다. 그러나 이는 사전 분포의 신중한 고려가 필요하며 계산적으로 집약적일 수 있다.

8. 데이터 윤리와 현대 세계에서의 책임 있는 통계

소셜 미디어 계정에서 수집된 개인 데이터의 잠재적 오용에 대한 우려가 증가하면서 데이터 과학과 통계의 윤리적 측면에 대한 관심이 집중되고 있다.

윤리적 고려사항. 데이터가 다양한 분야에서 의사 결정의 중심이 되면서, 통계학자와 데이터 과학자는 윤리적 고려사항과 씨름해야 한다. 여기에는 프라이버시, 공정성, 투명성, 통계 결과의 오용 가능성 등의 문제가 포함된다.

주요 윤리적 도전 과제:

  • 빅 데이터 분석에서 개인 프라이버시 보호
  • 알고리즘 의사 결정의 공정성 보장
  • 분석의 불확실성과 한계 소통
  • 데이터 수집 및 분석에서의 편향 문제 해결
  • 데이터 기반 통찰의 이익과 잠재적 해악의 균형

책임 있는 통계 실천은 기술적 전문성뿐만 아니라 윤리적 원칙에 대한 헌신과 우리의 작업이 사회에 미치는 광범위한 영향을 인식하는 것을 포함한다. 이 분야가 발전함에 따라, 통계 교육과 전문 실천에 윤리를 통합하는 것이 점점 더 중요해지고 있다.

Last updated:

리뷰

4.17 out of 5
Average of 4k+ ratings from Goodreads and Amazon.

통계의 예술은 무거운 수학 없이 통계 개념을 설명하는 매력적인 접근 방식으로 찬사를 받고 있다. 독자들은 현실 세계의 예시와 복잡한 주제에 대한 명확한 설명을 높이 평가한다. 많은 이들이 미디어와 연구에서 통계를 해석하는 방법을 이해하는 데 유용하다고 생각한다. 일부는 책의 일부가 너무 기초적이고 다른 부분은 너무 복잡하다고 비판한다. 전반적으로 통계적 문해력을 향상시키고자 하는 사람들에게 추천되지만, 완전 초보자에게는 접근성이 다소 떨어진다는 의견도 있다.

저자 소개

데이비드 스피겔할터 경은 저명한 통계학자이자 학자이다. 케임브리지 대학교에서 위험의 공공 이해를 위한 윈턴 교수로서, 그는 통계 개념을 대중에게 전달하는 데 중점을 두고 있다. 그의 배경은 의료 통계, 특히 베이지안 방법론에 있다. 스피겔할터는 베이지안 분석을 위한 BUGS 소프트웨어를 개발했으며, 임상 시험과 약물 안전성에 관한 연구를 수행했다. 그는 제약 회사들을 위해 자문을 제공했으며, 건강 기술 평가 방법에 기여했다. 성과 모니터링에 대한 그의 전문성은 브리스톨 왕립 병원과 시프먼 사건을 포함한 고프로파일 조사에 참여하게 했다.

0:00
-0:00
1x
Create a free account to unlock:
Bookmarks – save your favorite books
History – revisit books later
Ratings – rate books & see your ratings
Listening – audio summariesListen to the first takeaway of every book for free, upgrade to Pro for unlimited listening.
Unlock unlimited listening
Your first week's on us!
Today: Get Instant Access
Listen to full summaries of 73,530 books. That's 12,000+ hours of audio!
Day 5: Trial Reminder
We'll send you a notification that your trial is ending soon.
Day 7: Your subscription begins
You'll be charged on Sep 29,
cancel anytime before.
Compare Features Free Pro
Read full text summaries
Summaries are free to read for everyone
Listen to full summaries
Free users can listen to the first takeaway only
Unlimited Bookmarks
Free users are limited to 10
Unlimited History
Free users are limited to 10
What our users say
15,000+ readers
“...I can 10x the number of books I can read...”
“...exceptionally accurate, engaging, and beautifully presented...”
“...better than any amazon review when I'm making a book-buying decision...”
Save 62%
Yearly
$119.88 $44.99/yr
$3.75/mo
Monthly
$9.99/mo
Try Free & Unlock
7 days free, then $44.99/year. Cancel anytime.