top of page
  • 작성자 사진JC.kim

[Data Statistical Analysis] 기초통계분석의 이해

최종 수정일: 2018년 3월 4일

저번엔 경영데이터분석의 기초에 대하여 알아보았다. 이번엔 통계분석의 기초에 대해 알아보자.

통계란 무엇일까? 이것은 우리 생활 속에서도 많이 접할 수 있는 개념이다. 예를들어 우리가 수능시험을 본다면, 시험성적의 결과가 통계적으로 계산되어 나올 것이다. 표준편차와 평균이 계산되어 상대적인 등급을 나눌 수 있을 것이다. 또 우리는 선거에 관련된 통계자료를 자주 접하게 된다. 거기에서는 신뢰구간과 유의수준 같은 용어를 사용하는것을 볼 수 있다. 또한 우리는 어떤 특정집단의 일부를 보면서 전체를 추측하기도 하는데, 이 또한 통계에서 샘플을 이용한 모집단 추정에 해당한다. 이처럼 통계는 우리 생활과 아주 밀접한 관계를 맺고 있는데, 과연 통계의 의미는 무엇일까? 이제부터 통계에 관한 기초적인 부분에 대해서 알아보자.


통계학(Status)의 어원은 라틴어로 '국가'라는 단어에서 유래되었다. 예전부터, 통계라는 것은 어느 한 국가나 집단의 지표로 활용 되어 왔다. 농업생산량, 인구, 군사력, 세금 등 어떤 나라를 경영함에 있어서 필요한 자료들의 모임을 칭하는 말이이였다. 최근의 '통계'는 특정집단이나 현상의 효율적인 자료를 얻어 합리적인 해석을 하는것으로 정의된다. 어떤 개인(단일 Data)의 행동과 문제가 아닌 집단(Group)에서 비롯된 문제 또는 현상을 추정하는 것이다.


탐색적 분석에서의 '통계'는 추정과 검정을 통한 가설판단의 과정을 칭하는 말이다. 우리는 어떤 현상을 보고 가설을 세울수 있다. (추정) 그리고 세워진 가설이 참인지 거짓인지 판단할 수 있다. (검정) 이 과정을 탐색적 분석이라고 하며, 여기서 정해진 가설 판단하는 과정을 통계적의사결정 이라고 말한다. 그럼 통계에서 사용되는 중요 단어들에 대해 설명해 보자.



표본과 모집단 (Sample / Population or Universe)


먼저 표본(Sample)과 모집단(Population or Universe)에 대해 알아보자. 우리가 잘 알고 있듯이 모집단은 얻고자 하는 정보와 관련있는 모든 개채로 부터 얻을 수 있는 모든 관측값을 의미한다. 그리고 표본은 모집단의 일부로, 관측과정을 실행하여 실제로 얻어진 관측값의 집합이라고 볼 수 있다. 우리는 모집단의 정보를 모두 알 수 없다. 실험과 관측을 통해 얻은 표본으로 모집단을 추정할 수 있다. 이것은 통계에 있어서 가장 보편적이며 일반적인 방법이다.

그리고 모수(Parameter)와 통계랑(Statistic)이 있다. 모수는 모집단의 특성을 요약하여 하나의 값으로 표시하는 척도이다. 모집단의 특성을 대표적으로 나타낸다. 우리는 주로 모평균, 모분산, 모비율( μ, σ, P)을 파악하여, 모집단의 특성을 결정지을 것이다. 통계량(Statistic)은 표본을 요약하여 하나의 값으로 표시하는 척도이다. 모수는 모집단의 특성을 나타낸 것이라면, 통계량은 표본의 특성을 나타낸다고 볼 수 있다. 주로 평균, 분산, 비율 (ⅹ, S, P^)을 파악하여 표본의 특성을 결정짓고, 이를 통해 모집단의 특성 또한 추론할 수 있다.

우리는 표본을 통한 모집단의 추정에 있어서, 표본과 모집단의 차이를 확인 할 수 있다. 그것을 바로 '오차' 라고 부른다. 분석과정을 통해 표본에서 사용한 변수들을 이용하여, 오차를 조절 할 수 있고, 이를 통해 산포의 모양을 우리가 파악 할 수 있다. 기술통계학에 있어서 집중화 경향과 분산의 경향을 나누어 볼때, 집중화 경향을 나타내는 값들을 (평균, 중앙값, 최빈값) '효과' 라고 할 수 있으며, 분산의 경향을 나타내는 값들을 (범위, 분산, 표준편차, 사분위편차) '오차'라고도 부를 수 있다. 이 값들 모두 표본과 모집단을 나타내는 척도 들 이며, 여기에 나와있는 내용들은 뒤에 더 자세히 알아보도록 하자.


통계적 분석 과정


그럼 우리는 어떤과정을 통해 통계적 분석을 진행 할 수 있을까? 이 과정을 5가지로 나누어 각 과정을 어떤 방식으로 풀어 나가야 할지 알아보자. 먼저 통계적 분석은 아래와 같은 과정을 거쳐 진행된다.


1. 문제발생 (DDA ; Descriptive Data Analysis)

2. 현상확인 (EDA ; Exploratory Data Analysis)

3. 가설구축 및 원인규명 (CDA ; Confirmatory Data Analysis)

4. 대책마련 (PDA ; Predictive Data Analysis)

5. 실행


첫번째로 DDA, Descriptive Data Analysis 즉 '추정' 과정을 통해 ㅍ본을 가지고 모평균을 추정한다. 여기서 모평균, 모분산, 모비율 을 구하여 오차와 신뢰구간을 제시한다. 신뢰구간은 얼마나 많은 Data를 탐색했는지 알수있는 척도가 된다. 이 과정을 통해 우리는 기대치와 현재상황의 차이를 알수 있게 된다. 그것을 우리는 '문제' 라고 규명한다.


'문제'를 파악하는 이 단계는 EDA, Exploratory Data Analysis 탐색적 분석 단계라고 한다. 여기서는 우리가 여러가지 Data를 이용해 가설을 구축한다. 여러변수들을 사용하여 주관적 Data를 확인하고, 요인에 영향을 주는 변수들을 제어하면서 객관적Data로 바꾸는 작업을 한다. Data가 객관화 되면 오류가 낮아지고, 문제해결을 위한 공신력있는 통계자료가 만들어진다. 이 자료를 우리는 '가설'이라고 부른다.


이제 우리는 '가설'을 '검증' 해야하는데, 이 작업이 CDA , Confirmatory Data Analysis 확증적 분석과정이라고 말한다. 여기서 우리는 P.value (유의확률)를 이용하여 과학적 의사결정을 진행하게 된다. 여기서 P.value는 뒤에 자세히 설명하겠지만, 기본적으로 Data의 유효한 확률 값이라고 생각 할 수 있다. 간단한 예를 들어보자. 우리가 시험공부를 한다. 열심히 공부를 하게되어 평균보다 높은 점수를 받게 되었다고 하자. 그때, 내가 받은 점수가 전체집단에서 높은점수에 몇 %에 속해있는지 확인할 수 있는 척도가 되는 값이 바로 P.value (유의확률)이다. 이 값으로 내가 구축한 가설을 통계적 Data로 판단 할 수 있다.


우리가 CDA를 통해 가설을 설정하여 검증하였다. 이 만들어진 가설을 통해 분석된 변수가 결과에 얼마나 영향을 주는지 파악해야 한다. 이 과정을 PDA Predictive Data Analysis 과정이라 하며, Modeling이 이루어지는 과정이다. 우리가 가설을 통해 유의한 변수들과 Data를 찾을 수 있으며, 그 값들의 상관관계를 함수로 표현 할 수 있다. 함수로 표현된 이 Data들로 최적화과정을 진행 할 수 있으며 (변수를 제어할 수 있을때) 변수의 관찰과 예측이 가능해 진다. (변수를 제어 할 수 없는경우)

이 모든과정을 통해 Modeling된 새로운 대안을 실행하면 통계적이며 합리적인 문제해결과 의사결정을 내릴 수 있다. 새로운 대안에 대해 새로운 문제가 발생하면 위의 과정을 반복하여, 특정 System의 Model을 계속해서 개선 할 수 있다.


이것으로 통계분석에 있어 아주 기본적인 내용들을 살펴 보았다. 다음은 Data를 구분하는 방법과 Data의 특징에 대해 좀더 자세히 알아보자. 앞으로 JMP프로그램을 이용하여, 위의 과정들을 공부해볼 것이다. JMP프로그램은 30일 동안 무료로 이용이 가능하며, 교육기간동안 이노벨류에서 제공하는 교육용 JMP프로그램을 사용하였다. JMP프로그램은 통계분석의 결과를 분석자가 확인하기 쉽게 Data를 가시화 시키는데 매우 특화되어있는 프로그램이다. R이나 다른 프로그램처럼 조작도 어렵지 않아 조금만 익히면 쉽게 누구든지, 정형데이터를 분석할 수 있다.


JMP 프로그램 설명 및 다운로드 : https://www.jmp.com/ko_kr/home.html


교육은 이노벨류파트너즈의 배용섭 박사님께서 직접 해주셨다. 국내에는 민간자격증으로 시험을 볼 수있으며, CDAJ (Certified Data Analyst using JMP) 자격증을 취득할 수 있다.


CDAJ 교육 문의 (이노벨류 파트너즈) : http://www.innovalue.co.kr/

조회수 1,014회댓글 0개

최근 게시물

전체 보기

댓글


bottom of page