확률분포의 이해
*참고: 나성호 강사님 강의안
확률변수와 확률분포
- 어떤 변수 X의 값이 P(X)의 확률로 나오는 경우, X를 확률 변수라고 한다.
- 확률변수는 형태에 따라 이산(정수)확률변수와 연속(실수)확률 변수가 있다.
- 이산확률 변수: 정수와 같이 연속되지 않고 뚝뚝 끊어지는 값을 갖는 변수
- 연속확률 변수: 실수와 같이 연속되어 있는 값을 갖는 변수
- 확률 분포는 확률변수가 특정 값을 가질 확률을 나타내는 함수로 표현
- 이산확률 분포: 이산확률변수가 가지는 확률분포 ex) 주사위 눈금이 나올 확률
- 연속확률 분포: 연속확률변수가 가지는 확률분포 ex) 성인남자 키가 170 ~175cm일 확률
이산확률 분포
- 이산확률 변수는 각 이산값에 대한 확률을 계산
- 주사위 각 눈금은 1/6의 확률을 갖는다
- 이산확률 변수 X의 확률 P(X)는 이산확률분포 f(x)을 따른다
- P(X) = f(x) -> x를 넣었을때 값이 확률값
연속확률 분포
- 이산확률변수와 달리 연속확률변수는 연속된 값을 가지며 연속확률분포를 따른다.
- 특정 구간 안에서 연속확률변수 X의 확률 P(X)는 연속확률분포 f(x)를 적분한 값과 같다.
정규분포
- 정규분포는 우리 주변에서 쉽게 발견할 수 있는 연속확률분포 중 하나이다
- 분포의 형태는 좌우 대칭의 종모양으로 그려지고, 분포의 중앙은 평균이자 중위수가 된다.
- 정규분포는 모집단의 평균과 표준편차를 알면 분포의 모양이 정해진다
- 평균이 같아도, 표준편차가 다르면 분포의 모양은 서로 다르다
- 표준편차가 작을수록 평균 주변에 상대적으로 많은 데이터가 모이므로 뾰족한 종모양으로 그려지고, 표준편차가 클수록 넓게 퍼진 종모양으로 그려진다
표준정규분포
- 2개 이상의 확률변수가 정규분포를 따른다고 가정할 때, 두 확률변수는 평균과 표준편차가 서로 다르므로 현재 상태로 직접 비교하는 것은 쉬운 일이 아님
- 하지만 두 확률변수를 평균이 0이고, 표준편차가 1인 표준정규분포를 따르도록 표준화하면 직접 비교가 가능해진다
- 표준화 방법은 각 확률변수의 값에서 평균을 뺀 다음 표준편차로 나눈 z-score로 변화하는 것이다.
- z-score는 평균이 0, 표준편차가 1인 표준정규분포를 따른다
- z-score = (x - 평균) / 표준편차