top of page
작성자 사진JC.kim

[Data Statistical Analysis] 경영 데이터 분석 기초


이번 겨울동안, SAS 사에서 제공하는 JMP 데이터 분석 프로그램을 이용하여 데이터 분석을 하는 CDAJ 교육과정을 들으며 Data Statistical Analysis에 대한 내용을 JMP프로그램을 중심으로 정리 해 보았다. 이노밸류파트너즈 회사에서 교육을 진행하였고, 약 2개월 동안 6일에 걸쳐 배운 내용들을 소개하고자 한다.

최근 AI 인공지능의 4차 산업혁명 이전에 가장 트렌디 했던 IT 최신 분야는 바로 빅데이터 분석이였다. (물론 요즘도 계속 그 유행을 이어가고 있다.) 머신러닝과 딥러닝이 가능해진 것도 바로 데이터분석기술이 발전했기 때문이다. 세계가 IT산업의 발달로, 방대한 데이터를 이곳 저곳에서 찾거나 수집하거나, 저장 할 수 있게 되었다. 이러한 유행이 다가오는 가운데, 우리는 빅데이터 분석이전, 먼저 통계분석 기술로 부터 유의한 데이터와 불필요한 데이터를 구분하고 분별해야한다. 데이터분석은 기본적으로 통계분석을 기초로 하고 있기 때문이다. 그러므로 우리는 앞서 통계분석에 대해 기본적인 이해가 필요하다.

많은 회사들이 4차 산업혁명을 쫓아 빅데이터분석과 머신러닝에 뛰어들고 있지만, 실상은 사내 데이터가 어떤식으로 처리 되고 있는지, 어떤 방식으로 분석이 되는지 모르는 경우가 많다. 우리가 일반적으로 알고있는 구글, 페이스북, 카카오톡 처럼 비정형적이고 동시에 수많은 데이터를 처리하고 분석할땐,(변수보다 데이터가 월등히 많은 경우) 확실히 머신러닝 기술, 빅데이터 처리기술이 매우 도움이 된다. 그러나 다른 직종의 여러 회사들은 충분히 정형화 된 데이터를 가지고 있으며, 이는 빅데이터 처리 기술 이전에, 기본적인데이터 처리 기술을 먼저 적용해 봄으로써, 회사에 데이터 처리기술을 어느정도 까지 받아들여 사용해야 할지 결정해야 한다. 즉 데이터량(Volume)과 분석속도(Velocity)를 회사의 분석 상황에 맞추어 조절해야 한다는 것이다. 이 조절을 통해 회사는 데이터 분석에 소모되는 비용을 적절히 투자할 수 있다. 예를 들어 동네에 있는 할인 마트의 경우 마트의 매출을 분석할 땐, 기계학습을 이용한 데이터 처리보다, 통계분석을 이용한 데이터 분석이 더 적절할 것이다. 또 약을 제조하는 제약회사에서 실험 Data로 다른 카피약을 만들때에도, 통계분석기반의 데이터 분석이 더 적절 할 것이다. 이는 회사가 어떤 업종에 어떤 데이터를 가지고 어떻게 Modeling 하는지에 따라 분석방법이 달라질 것이다.

먼저 정형데이터의 특징이 무엇인지 간단히 조사해 보았다. 빅데이터는 기본적으로 대부분 비정형데이터로 존재하며, 현재는 문자데이터가 그 대부분을 차지한다. 위에서 얘기했듯, 변수보다 데이터가 매우많아 세밀한 분석이 어렵고, 자동분석을 이용하기 때문에 분석과정을 사람이 이해하기 힘들때가 있다. 그러나 정형데이터의 경우 데이터에 비해 변수량이 충분히 존재하므로, 다양하고 세밀한 분석이 가능하며, 그 분석과정을 통제하거나 직접 참여 할 수 있다. 기업내 데이터들의 대부분은 수치화 되어있는 정형데이터가 많기에 통계 분석을 이용한 데이터분석을 우리는 잘 알고 있어야 한다. 그리고, 사내 내부 Data 가 아닌 외부에 공개된 정형 Data도 있다. 이런 데이터를 사내 Data와 적절히 선택해 사용하면 우리가 찾고자하는 상관관계를 빠르게 찾을 수 있다. 통계분석에선 이를 '오차를 줄인다'라고 표현한다.


그럼 통계적데이터 분석은 어떻게 진행 되어야 할까? 판매를 하는 회사를 예로 들자면, 기본적으로 회사는 사내 Data를 기반으로, Full Potential 매출을 분석해야한다. 상권과 유동인구등 주변 변수를 감안한 매출을 분석해야한다. 그리고 분석결과로 영향인자가 무엇인지 파악해야한다. 주변 새로 들어온 경쟁업체, 도시개발, 시즌에 따른 소비패턴의 변화 등 여러가지 변수들 중 어떤 변수가 매출에 유의한 변수인지, 매출과 상관관계를 가진 변수가 무엇인지 파악한 후에 개선안(Modeling)을 만들어 실행에 옮겨야 한다. 이 과정을 아래와 같은 단계로 나누어 볼 수 있다. 아래 단계에 따라 이 과정을 더 구체적으로 살펴 보자.


1. 문제 규명 (Identify)

2. 데이터 수집 (Collect Data)

3. 데이터 분석 (Analyze Data)

4. 개선 및 시스템화 (Improve and Systematize)


문제규명 단계에선 먼저 과제를 선정해야 한다. 회사 경영상 이슈를 찾아 프로젝트로 선정하고, 그 배경을 잘 이해하고 설명해야한다. 그리고 목표와 기대효과를 설정해야한다. 이 단계에서 분석모델을 구체화 할 필요가 있다. 어떻게 분석을 진행할 것인지 결정하고, 세부활동계획 (관찰, 데이터 수집, 샘플링, 등)을 수립해야 한다.

데이터 수집단계에선 프로젝트와 관련된 내부 Data및 외부 Data, 또는 관찰을 통한 신규 Data를 탐색하고, 탐색된 Data의 특징을 정해야 한다. 이 과정에서 변수가 생성되는데, 이는 나중 분석과정에서 각 변수간의 상관관계를 파악해야 할때 사용된다. 탐색된 Data를 선정하여, 문제규명 단계에서 계획한 분석모델을 다시 검토한다. 그리고 분석모델이 정확히 결정되면, 분석모델에 맞는 Data Set을 준비해야한다.

다음은 데이터 분석 단계이다. 이 단계에서는 데이터오류나 논리오류가 있는지 점검한뒤 개별 변수 변수의 트랜드를 조사해야 한다. 그리고 데이터의 분포의 모양, 분산, 평균, 신뢰구간등을 파악해야 한다. 이 과정이 완료되면, 우리는 분석Model을 사용 할 수 있다. 분석 모델을 이용해 결과변수와 원인변수등 변수들 간 관계를 파악 할 수 있다. 그리고 Modeling을 통해 Data변수간의 관계식을 구축하고, 최적화(Optimize) 및 예측(Predict)을 한다. 이 과정을 모두 마친 후 분석결과를 통해 개선안을 계획한다.

마지막 개선 및 시스템화 단계에선 분석이 모두 끝난 Data를 기반으로 (Modeling된 Data Output) 개선안을 만들고 평가한 뒤, 문제규명 단계에서 설정한 문제를 해결할 실행계획을 준비해야 한다. 그리고 차후 관리계획이 필요한 경우 같이 계획을 세우고 , 분석절차의 문제점을 개선하여, 해당 문제가 다시 발생할 경우 (또는 다른 부분에서 비슷한 문제가 발생할 경우) 이 분석절차를 시스템화 하여, 앞으로 발생할 변수들간의 Risk를 파악해 계속 문제를 줄여 나가는 과정을 준비한다. 이로써 통계적 데이터 분석의 절차에 대해 알아보았다.


앞으로 JMP프로그램을 이용하여, 위의 과정들을 공부해볼 것이다. JMP프로그램은 30일 동안 무료로 이용이 가능하며, 교육기간동안 이노벨류에서 제공하는 교육용 JMP프로그램을 사용하였다. JMP프로그램은 통계분석의 결과를 분석자가 확인하기 쉽게 Data를 가시화 시키는데 매우 특화되어있는 프로그램이다. R이나 다른 프로그램처럼 조작도 어렵지 않아 조금만 익히면 쉽게 누구든지, 정형데이터를 분석할 수 있다.


JMP 프로그램 설명 및 다운로드 : https://www.jmp.com/ko_kr/home.html


교육은 이노벨류파트너즈의 배용섭 박사님께서 직접 해주셨다. 국내에는 민간자격증으로 시험을 볼 수있으며, CDAJ (Certified Data Analyst using JMP) 자격증을 취득할 수 있다.


CDAJ 교육 문의 (이노벨류 파트너즈) : http://www.innovalue.co.kr/

조회수 292회댓글 0개

최근 게시물

전체 보기

Comentários


bottom of page