R Cook Book: 09장 일반 통계

28 July 2020 - less than 1 min read time
Tags: R TIL

R_Cook_Book 9장: 일반 통계

뭔가 통계 부분이 설명이 부족한거 같아서 이 책 말고 나성호 강사님 강의안이나 다른 책을 찾아 볼 예정입니다.

귀무가설, 대립가설, p-값

귀무가설(Null Hypothesis)

아무것도 일어나지 않는 케이스다. 평균이 변하지 않았다, 처치에 효과가 없었다, 예상한 결과를 얻었다, 모형이 개선되지 않았다등의 뜻이 있다

대립가설(Alternative Hypothesis)

무언가 일어난 케이스다. 평균이 상승했다, 처치를 함으로써 환자의 건강이 향상되었다, 예상치 못한 결과가 나왔다, 모형이 더 잘 들어맞는다 등의 뜻이 있다

과정

처음에는 귀무가설이 참이라고 가정한다
검정 통계량(test-statistic)을 계산한다. 표본의 평균처럼 단순한 것일 수도 있으나 상당히 복잡해질 수도 있다. 어떤 경우라도 해당 통계의 분포는 꼭 알아야 한다. 중심극한정리(Central Limit Theorem)을 적용하면 표본평균의 분포를 알 수도 있다.
통계량과 그것의 분포로부터 우리는 p-값을 계산해낼 수가 있는데, 이는 귀무 가설이 참이라고 가정할 때, 검정통계량이 극단이거나 우리가 관찬할 것보다 더 극단에 있을 확률이다.
만약 p-값이 매우 작다면 귀무가설에 반대되는 강력한 증거라고 볼 수 있다. 이것은 ‘귀무가설 기각’이라고 불린다
만약 p-값이 작지 않다면 위의 사실을 뒷받침 한다는 증거가 없다고 본다. 이것은 ‘귀무가설 기각 실패’라고 한다.

일반적으로 p <0.05 일때 귀무가설을 기각하고 p >0.05일때 귀무가설 기각에 실패로 여긴다. 통계학 용어로는 \alpha = 0.05의 ‘유의수준 (significance Level)’으로 귀무가설에 반대되는 강력한 증거와 그렇지 못한 증거를 나누는 경계를 정립했다고 보면 된다
통상적으로 0.05보다 낮은 p-값은 해당 변수들이 서로 독립적이지 않다고 보는 반면, 0.05를 넘는 p-값은 그러한 증거를 제시하지 못한다고 본다.

신뢰구간

가설검정은 익히 알려진 수학 절차이지만, 완전하지는 않다
- 의미가 모호하다. 이 검정으로는 분명하고 쓸모있는 결론을 내리지 못한다
- 수치를 제시해주지 못하고 증거만 보여준다. 수치를 얻고 싶다면, 주어진 신뢰 수준에서 모수의 추정치 경계를 나타내는 신뢰구간을 사용하여야 한다.