본문 바로가기
경영 직장

표본의 크기 결정 ( 평균추정, 비율추정), 유의확률 (P-value), 가설검증의 오류 (1종오류,2종오류), 가설검증, 통계량검증

by 라파고1 2023. 2. 19.
반응형

■ 표본의 크기 결정

• 다음의 경우에는 표본의 크기가 커야 한다

1) 조사하고자 하는 변수의 분산값이 클수록

2) 높은 신뢰수준을 원할수록

3) 허용오차가 작을수록

 

■ 유의확률 (Significance Probability) P-Value

- 가설검정은 귀무가설을 기준으로 하기 때문에, 유의확률은 “귀무가설”이 통계적으로 얼마나 유의한가를 나타내는 지표다. 귀무가설이 유의적이면 대립가설(연구가설)은 지지되지 않으며, 귀무가설이 비유의적이면 대립가설(연구가설)은 지지된다. P-value가 허용유의확률(α)보다 작으면 귀무가설을 기각하는 결정을 내릴 수 있다. 허용 유의확률은 흔히 0.05이며, 경우에 따라 0.01 또는 0.1이 사용되기도 한다.

 

- 정의1 (이학식 교수)

: 귀무가설이 맞을 때 적어도 그 정도의 극단적인 표본값이 나올 확률

- 정의2(이훈영 교수)

: 귀무가설이 옳다는 전제하에서

현재의 표본으로 구한 통계치보다 절대값으로 비교하여

같거나 더 큰 값을 갖는 통계량 값을

또 다른 표본으로부터 얻을 수 있는 확률

 

쉽게 말하면

P-Value는 귀무가설이 맞을 확률이며, 대립가설이 틀릴 확률이다.

P-Value가 높으면 귀무가설이 기각되지 않으며, 낮으면 귀무가설이 기각된다.

■ 오류의 종류

결정
귀무가설(H0)
진실
허위
기각
1종 오류
옳은 결정 (검증력)
기각하지 않음
옳은 결정
2종 오류

• 1종 오류의 확률(α) : 귀무가설이 진실인데 기각할 확률 (= 유의수준, 허용 유의확률)

• 2종 오류의 확률(β) : 귀무가설이 허위인데 기각하지 않을 확률

- 귀무가설이 허위일 때 기각할 확률을 검증력이라고 한다. “ 검증력 = 1-β “

 

1종 오류는 α 의 크기를 줄이면 작아지지만, 반대로 α 의 크기를 줄이면 2종 오류의 확률은 커지게 된다.

 

 

통계량 검증

 

1. 통계량의 검증은 두 가지 방법으로 진행된다.
    1) 통계량 관측치가 임계치를 벗어나는가 ( obs > crit )  (=기각역에 위치하는가)
        - 통계량이 기각역에 위치하는 경우 귀무가설은 기각되고 연구가설은 지지된다.
     2) P-value가 유의수준보다 작은가
        - P-value =< 유의수준 이면 귀무가설은 기각되고 연구가설은 지지된다.

2. 통계량 검증은 크게 평균 검증과 분산 검증으로 나눌 수 있는데.
     1) 평균 검증일 경우
         - 모집단이 1개일 경우 평균 검증은 t 검증
         - 모집단이 2개일 경우 평균 검증은 t 검증
         - 모집단이 3개 이상일 경우 평균 검증은 F 검증

      2) 분산 검증일 경우
         - 모집단이 1개 일경우 분산검증은 카이자승
         - 모집단이 2개 이상일 경우 분산검증은 F 검증

 

가설검증의 유형 및 방법 (단일/복수 모집단, 평균/비율 검증)

 

1. 단일 모집단 평균검증 (t검증)
    ex) 기존 일평균 불만건수가 20건이었고 현재 불만건수가 일평균 17건일 때, 불만건수가 개선되었다고 말할 수 있는가?

2. 단일 모집단 비율검증 (Z검증)
   - 단일모집단의 비율검증을 위해서는 기본적으로 이항분포를 사용하지만, 표본의 크기가 커지면 중심극한정리에 따라 정규분포에 가까워진다. 따라서 표본의 크기가 30 이상인 경우 일반적으로 Z검증을 사용한다.
   ex) 기존 시장점유율이 10% 였는데, 조사결과 200가구 중 26가구가 사용하는 것으로 나타났을 경우 시장점유율이 향상되었다고 볼 수 있는가?

3. 두 모집단의 평균차이 검증 (t검증)       (=독립표본 t검증)
   - 기본 가정 : 1. 두 모집단의 분산이 같다. 2. 두 모집단이 정규분포를 이룬다.
       ex) 모집단1과 모집단 2에서 각각 추출한 표본1의 평균과 표본2의 평균이 통계적으로 같은가
   - 자유도는  ( d.f = n1 + n2 -2 ).  모집단이 2개이므로

 
4. 짝을 이룬 값들의 차이 검증 (t검증).    ( = 대응표본 t검증)
   - 표본의 값들이 짝을 이루고 있는 경우 이 값들 간에 차이가 있는지를 검증하는 방법
       ex) 홍길동의 수학점수가 60점이었는데, 과외를 받고 75점이 되었을 경우 그 과외는 효과가 있다고 할수 있는가?
   - 자유도. ( d.f = n-1 ).   모집단이 1개

 
5. 두 모집단의 비율차이 검증 (Z검증)
     ex) A그룹 100명에게는 매력적인 여성 모델 광고를. B그룹 100명에게는 보통여성 모델 광고를 보여줬을 때 호감도가 A는 40명  B는 25명이 호감을 보였다고 할때, 매력적인 여성 모델의 광고가 브랜드 호감도에 영향을 미친다고 할수 있는가

6. 독립성 검증 (x2 검증)    - 두 명목 척도가 서로 독립적인가
   - 수집된 자료가 명목척도로 측정된 경우 두 변수의 관계가 독립적인지 여부를 검증하는 방법
       H0 = 가족규모에 따라 세탁기의 크기가 독립적인가
             ( = 가족규모와 세탁기의 크기는 무관하다)
       H1 = 가족규모에 따라 세탁기의 크기는 독립적이지 않다
             ( = 가족규모에 따라 세탁기의 크기는 다르다)
   - 기대빈도와 관측빈도로 통계량 산출
   - 자유도 ( d.f = (행의 수 -1) x (열의 수 -1) )

7. 적합도 검증 (x2 검증)
   - 기대빈도 대비 관측빈도가 적합한가를 조사하는 방법
       H0 = 각 색깔을 선호하는 소비자들의 비율은 동일하다
       H1 = 각 색깔을 선호나는 소비자들의 비율은 다르다.

 

 

반응형

댓글