Table of Contents

Think Bayes

들어가며

일반적으로 다음 단계를 밟는 프로세스를 권장한다.

  1. 문제를 탐색할 때 간단한 모델을 사용하여 이를 명확하고, 읽기 쉽고, 확실히 맞는 코드로 구현하는 것부터 시작하라. 모델 최적화가 아닌, 좋은 모델을 선택하는 것에 초점을 맞춰라.
  2. 단순한 모델이 일단 동작하면, 오류의 가장 큰 원인을 정의하라. 이산적 추정 값의 수를 늘리거나, 몬테카를로 시뮬레이션 반복 횟수를 증가하거나, 모델의 세부 사항을 추가해야 할 수도 있다.
  3. 도출한 해답의 성능이 어플리케이션을 사용하는 데 충분히 좋다면 더 이상 어떤 최적화도 할 필요가 없다. 하지만 만약 최적화를 해야 한다면 두 가지 사항을 고려해야 한다. 예를 들어 이전에 계산한 결과를 저장하여 중복 계산을 피하고 싶다면 코드를 검토하고 최적화 항목을 찾아볼 수 있다. 혹은 계산을 단축할 수 있는 분석 방법을 찾아볼 수도 있다.

코드 돌려 보기

사용 모듈

코드 스타일

추천책 : Think Stats : 프로그래머를 위한 통계 및 데이터 분석 방법(한빛미디어, 2013)

1. 베이즈 이론

베이지안 통계에 깔린 기본 개념이 바로 베이즈 이론이다.

조건부 확률의 일반적 표기법은 $p(A|B)$로 이는 B라는 조건이 주어졌을 때의 A가 참일 확률이라는 뜻이다.

데이터 D의 관점에서 봤을 때 가설 H의 확률을 수정해준다.

통시적diachronic 은 무언가가 시간에 따라 일어나는 것으로 이 경우 가설에 대한 확률이 시간에 따라 새로운 데이터를 접하게 되면서 달라진다는 뜻이다.

$$
p(H|D) = \frac{p(H)p(D|H)}{p(D)}
$$

보통은 다음 가정 집합을 단순화하여 정의한다.

이런 성격의 가설 집합을 스윗suite 이라고 하겠다.

조건부 확률을 포함하는 많은 문제에서, 베이즈 이론은 분할-정보(divide-and-conquer) 전략을 제시해 준다. 만약 p(A|B)를 계산하기 어렵거나 실험적으로 측정하기 어렵다면 베이즈 이론의 다른 계수인 p(B|A), p(A), p(B)를 계산하는 것이 더 쉬운지 확인해보자.

몬티 홀 문제를 재미있게 풀었다면 <당신의 모든 베이즈 문제를 우리가 가지고 있다. All your Bayes are belong to us 에 비슷한 여러 문제를 모아 놓았으니 읽어보길 바란다.

2. 계산 통계

통계에서 분포는 어떤 값과 그 값이 나타날 확률의 집합이다.

3. 추정 1

4. 추정 2

5. 공산과 가산

6. 의사 결정 분석

7. 예측

통계학에서, 프로세스는 물리 시스템에 대한 추계 모델이다.

추계(stochastic) 란 모델에 몇 가지 임의성을 포함된다는 뜻이다.

베르누이 프로세스(Bernoulli process)는 시도라는 사건의 나열로 이루어진 모델인데,

이 때 각 시도는 성공과 실패 같은 두 가지 결과가 나올 수 있다.

따라서 베르누이 프로세스는 연속적으로 동전 던지기나 골에 공을 넣는 것에 대한 자연적 모델이다.

포아송 프로세스는 베르누이 프로세스의 연속형으로 사건이 어떤 시점에서든 동일한 확률로 발생할 수 있는 형태다.

포아송 프로세스는 가게에 손님이 도착하는 것, 버스 정류장에 버스가 도착하는 것, 하키 게임에서 골이 성공하는 것 같은 모델에 사용될 수 있다.

8. 관측 편향

9. 두 차원

10. 근사 베이지안 계산

11. 가설 검증

12. 증거

13. 시뮬레이션

14. 계층 모델

15. 차원 다루기