[JMP] JMP의 Calculator 기능 활용(Sample size, Hypothesis test)

JC.kim
2018년 8월 30일
4분 분량

오늘은 Row Data 없이 통계분석을 할 수 있는 JMP의 Calculator 기능에 대해 알아보자. JMP 메인 화면에서 작업창에 [Help]-[Sample Data]를 누르면 아래와 같은 화면이 나온다.

그리고 오른쪽 하단의 Calculators를 선택한다.

여기서 여러 가지 기능을 수행할 수 있다. 먼저 Sample Size를 결정해 보는 문제를 풀어보자.

Sample Size for Confidence Intervals

예제 1 . 저번 달 한 공장의 A라인에서 생산되는 제품의 불량률이 10% 일 때, 이번 달의 불량률 10%로 예상하고 조사하기 위한 최소 샘플 수를 (불량률을 확인 해야 하는 최소 Sample 개수) 신뢰구간 95%에 오차 3% 이내로 구하기.

이 예제의 경우 다양한 분야에서 활용할 수 있는 예제이다. 우리가 실험을 하거나 어떤 현상을 조사할 때, 특정 변수가 차지하는 비율을 알고 있다면, 이 기능을 이용해 신뢰구간 내 조사해야할 최소 sample 수를 구할 수 있다. [Calculators]-[Sample Size for Confidence Intervals]을 클릭해 보자.

이런 창이 하나 뜰텐데, 우리는 확인하려는 항목의 비율을 알고 있으므로, Proportion을 선택한다. 그리고 다음 띄워지는 창에 우리가 알고 있는 값들을 집어 넣는다.

Confidence Level 에 신뢰구간 95%, Expected Proportion에 변수가 차지하는 기댓값 10% , Desired Margin of Error 에 오차 범위 3%를 넣으면, 우리가 불량률 10%의 정보를 알기 위해 필요한 최소 sample 수가 385개인 것을 알 수 있다. 그럼 다음 예제도 한번 풀어보자.

예제 2. 모집단의 표준편차 10에서 신뢰구간 95%, 오차범위3%를 만족하는 분포를 조사할 때, 필요한 Sample Size를 구하라.

이번 예제의 경우 모집단의 표준편차가 주어져 있다. 이번엔 [Calculators] - [Sample Size for Confidence Intervals]에서 Mean을 눌러 아래와 같이 계산하면, 약 40만개의 sample이 필요하다는 결과가 나온다.

Hypothesis Test for One Mean

이번에는 수능을 예를 들어, 특정 sample이 모집단의 다른 보통의 sample과 비교해 차이를 보이는지 알아보자. 올해 치러진 수능에 총 40만명의 응시생이 지원했고, 그들의 총점은 정규 분포를 띄며, 전체 평균이 255점이라고 가정해 보자.

예제 3. 전체 학생들 점수의 표준편차가 5점이고, 나의 점수가 260점일 때, 내 점수가 보통 학생들 보다 높은가?

여기서 우리는 통계적 가설검정 이라는 개념을 알아야 한다. 간단히 설명을 하면, 통계적 가설 검정의 결론은 두 가지이다. ‘귀무가설 기각’과 ‘귀무가설기각실패’로 나눈다. 보통 우리가 특정 문제에 대해 가설을 세울 때, 두가지 가설을 세운다. 귀무가설(보통상태)와 대립가설(특정상태)로 설정하는데, 귀무가설은 ‘평범한 상태’를 의미한다. 위의 예제를 예로 들면, “나의 점수는 보통 학생들과 다를게 없다”라고 귀무가설을 세울 수 있다. 그러나 우리가 확인하고 싶은 결과는 “나의 점수는 보통학생들과 다르다 (또는 더 높다)” 라는 것이다. 이 가설이 바로 ‘대립가설’이 되는 것이고, 우리가 확인하고 싶은 가설이다. 결론적으로, “귀무가설 기각”이라는 결론이 나온다면, 대립가설이 맞으므로, “나는 보통학생들 보다 성적이 좋다”라고 판단 할 수 있을 것이다. (대립가설이 참인 결론) 그러나 “귀무가설 기각 실패”라는 결론이 나오면, “나는 보통학생들과 성적이 같다”라는 귀무가설이 참인 결론이 나올 것이다. 이 통계적 가설 검정의 개념은 다음에 다시 설명 해 보도록 하겠다.

- 가설

귀무가설 (보통 상태) H0 : 나의 수능 점수는 보통이다.

대립가설 (이상 상태) Ha : 나의 수능 성적은 보통학생들 보다 높다.

위의 문제를 풀기위해, [Calculators] - [Hypothesis Test for One Mean]-[Summary Statics]를 선택한다.

그리고 우리는 모집단의 정보를 알고 있으므로, Z-Test를 누를 것이다. (이 개념도 다음에 설명 해보도록 하겠다) 만약 모집단에 대한 충분한 정보가 없고, 적은 sample 수를 가질땐, T-Test를 사용하면 된다. 그럼 이제 빈칸에 우리가 알고 있는 통계량을 각각 집어 넣는다. Hypothesized Mean 에 전체 평균 255점을, Sample Average에 나의 성적 260점을, Population S.D 에는 모집단의 표준편차 5, Sample Size는 나의 점수만 확인하기 때문에 1, 그리고 유의수준 5% 로 설정한 뒤, 내가 다른 학생들 보다 높은 지 확인하기 위해 왼쪽 하단에 ‘Population mean is greater than hypothesized mean (one-tailed)’를 선택한다. 이는 ‘우측 단측 검정’에 사용되며, 내가 평균보다 얼마나 더 높은지 확인할 때, 사용된다. 마지막으로 ‘Reveal Decision’ 박스에 체크를 해준 뒤, 결과를 확인해 보자.

아래 빨간 글씨로 “Fail to Reject Null Hypothesis”라고 나온다. 첫 번째 예제의 통계적 결론은 “귀무가설 기각 실패”이다. 사실적 결론으로 말하자면, “나의 수능성적은 보통이다”라고 말 할 수 있다. 이렇게 통계적 결론을 내릴 때, 사용되는 지표로 P.value 값이 사용 된다. 위의 “Observed Significance (p-value)”의 값이 0.1587 , 약 15%가 나왔다. 이것이 의미하는 바는, 귀무가설이 참일 확률이 15%정도 된다는 뜻이다. 통계적 결론을 내릴 때, P.value는 5%이내에서 결정하게 되어있다. 즉 귀무가설이 참일 확률, 보통상태일 확률이 5% 미만일 때, 귀무가설기각, 즉 대립가설이 참이 된다. 만약 위의 P.value가 0.03으로 5% 미만으로 나왔다면, 통계적 결론은 “귀무가설기각”이 되었을 것이고, 사실적 결론은 “나의 수능 성적은 다른 학생들 보다 좋다”라고 결론 내렸을 것이다.

-통계적 결론

p.value가 5% 이상이므로, “귀무 가설 기각 실패”

-사실적 결론

나의 수능 성적은 보통이다.

예제 4. 전체 모집단의 표준편차가 5점이고, 어느 A 학원에서 무작위로 추출된 4명의 학생 평균 점수가 260점일 때, A학원 학생들의 평균점수가 모집단의 보통학생들 보다 높은가?

4번째 예제는 한명의 표본을 조사하는 것이 아닌, 특정 표본을 조사해 그것을 모집단과 비교하는 경우이다. 어떤 그룹에서 4명씩 그룹을 형성해, 그 4명의 평균을 모집단과 비교하는 것이다. Sample에서 그룹화를 시켜 모델링을하면, 산포가 줄어든다. 간단하게 예를 들면, 5점,10점,15점 세 명의 점수를 그룹핑 하면 평균은 10점이며, 5점과 15점의 점수는 없어지므로, 좀 더 평균에 가까운 데이터들만 모이게 된다. 이 경우도 같다. 4명씩 sample를 모아 추출하면, 한명의 점수를 가지고 모집단과 비교할 때 보다 좀 더 산포가 줄어들어, 다른 결과를 가져올 수도 있다.

3번 예제와 동일하게, [Calculators] - [Hypothesis Test for One Mean]-[Summary Statics]을 선택해, 알고 있는 통계량을 집어넣어 보자.

- 가설

귀무가설 (보통 상태) H0 : A 학원의 수능 점수는 보통이다.

대립가설 (이상 상태) Ha : A 학원의 성적은 보통학생들 보다 높다.

이번엔 sample size가 4, 즉 4명의 점수를 평균 내 하나의 대표점수 260점으로 사용하도록 빈칸을 채워 넣었다. 그리고 결과를 확인해 보니, “Reject Null Hypothesis”, 즉 “귀무가설 기각”이라는 결론이 도출되었다. P.value가 2.2%정도 나와, 유의수준 5%에 미치지 못했기 때문이다.

- 통계적 결론

p.value가 5% 이하이므로, “귀무 가설 기각”

- 사실적 결론

A학원의 수능 성적은 보통 학생들 보다 높다.

예제 5. 모집단의 표준편차가 알려지지 않고, A학원에서 무작위로 추출된 4명의 평균점수가 260점이며, A학원의 표준편차가 5일 때, A그룹의 점수는 모집단의 점수보다 높은가?

마지막 예제는 모집단에 대한 정보가 없을 때, A집단을 모집단과 비교해 보는 것이다. 위에서 잠시 설명했던 대로, 모집단에 대한 정보가 없을 때, 주로 T test를 사용한다. Z test 라고 체크 되어 있는 부분을 T test로 다시 체크한 뒤, 입력 해야할 값들을 집어 넣으면 결과가 계산되어 나온다.

- 가설

귀무가설 (보통 상태) H0 : A 학원의 수능 점수는 보통이다.

대립가설 (이상 상태) Ha : A 학원의 성적은 보통학생들 보다 높다.

- 통계적 결론

p.value가 5% 이상이므로, “귀무 가설 기각 실패”

- 사실적 결론

A학원의 수능 성적은 보통 학생들과 같다.

오늘은 JMP의 Calculator 기능을 이용해 예제를 풀며, 통계적 가설검정과 T test에 대해 잠시 알아보았다. 다음엔 더 구체적으로 T test와 통계적 가설검정에 대해 알아보도록 하자. JMP에 관련한 데이터 분석교육은 이노벨류파트너즈 컨설팅 기업이 전담해서 진행중이다. 빠른 통계분석과, 복잡한 코딩없이 문제를 파악하고 모델링하기에 최적화 되어있다. 매주 토요일마다 JMP를 활용한 빅데이터 분석 교육이 진행 되니, 아래의 홈페이지를 들어가 꼭 교육을 듣기를 추천한다.

http://www.innovalue.co.kr/

대학생인 경우 저렴한 가격으로 교육을 받을 수 있으며, 현재 8월 과정도 단국대에서 진행중이다.

[JMP] JMP의 Calculator 기능 활용(Sample size, Hypothesis test)

Sample Size for Confidence Intervals

Hypothesis Test for One Mean

최근 게시물

댓글