top of page
  • 작성자 사진JC.kim

[JMP] Sample Data 타이타닉 예제

최종 수정일: 2018년 7월 28일


오늘은 JMP내에 있는 Sample Data를 이용해 JMP에서 활용 할 수 있는 몇몇가지 기능을 알아보자. 먼저 JMP를 실행시킨뒤, [Help]-[Sample data]에서 눌러서 아래와 같은 창이 뜨면,

[Open the Sample Data Directory]를 눌러 Titanic Passengers.jmp를 찾아 실행 시킨다.



그럼 아래 그림과 같은 엑셀파일이 실행 될 것이다. 먼저 이 파일에 데이터가 어떻게 구성되어 있는 지 알아보자. 왼쪽 하단에 보면 전체 열의 개수가 나온다. 1309개의 승객데이터가 있음을 확인 할 수 있으며 , 바로 위에 15가지의 변수가 있다는 것을 볼 수 있다. 변수 명 옆에는 데이터 형식이 나온다. 데이터 형식에 대한 게시물은 저번시간에 다뤘으므로 옆의 링크를 참조하면 된다. (https://rlacksdid93.wixsite.com/930724/blog/jmp-data%EC%9D%98-%EA%B5%AC%EB%B6%84%EA%B3%BC-%ED%8A%B9%EC%A7%95-data-type) 그럼 가장 먼저 각 변수별 데이터들이 어떻게 되어있는지 확인해보자.

타이타닉 승객 샘플데이터

먼저 윗상단 작업창에서 [Analyze]-[Distribution]에 들어가서 아래 그림과 같이 변수들을 선택해 보자. 방법은 변수 명을 누르고 [Y.Columns]를 누른다. 그러면 각 변수별 통계적 분포가 Plot될 것이다. 이곳에서 볼 수 있는 여러 가지 통계적 수치들에 대해 알아보자. 먼저 막대그래프가 보인다. 이것들은 각 변수의 요소들 마다 얼마나 많은 량의 데이터가 있는지 보여준다. 여기서 화면을 보기위해 Stack을 해보자.

각 변수 별 Distribution

그래프 좌측 상단에 빨간색 역삼각형 모양의 아이콘이 있다. (앞으로 이를 RPM이라 부를 것이다.) 여기를 눌러 Stack 버튼을 누르면 Distribution이 통계적 수치와 같이 보기 쉽게 눕혀져 있는 것을 알 수 있다.

각 변수별 Distribution


RPM 메뉴를 이용해 Stack을 실시한 모습

첫 번째로, 생존자 데이터변수에 대해 통계적 수치가 나와 있다. 생존은 Yes로 사망은 No로 표시된 데이터임을 알 수 있으며, 옆에 Prob를 보면 해당 요소의 비율이 어느 정도 있지도 나와 있다. 바로아래 연령 데이터를 보면, Quantiles 라는 부분에 연속형 데이터의 비율이 나와 있다. 나이 28세를 기준으로 위 아래로 50% 씩 연령이 분포해 있다는 것을 알 수 있다.

또 Sample Data로 파악 할 수 있는 것이 뭘까? Data Sheet를 보면 이 데이터는 특별하게 생존여부를 색상으로 표시해 놓았다. 살아남은 사람은 파란색 생존하지 못한 사람은 빨간색으로 표시되어 있다. 이번엔 JMP의 강력한 기능 중 하나인 Graph Builder를 사용해보자.

먼저 작업창에 [Graph]-[Graph Builder]를 누른다. 그리고 15개의 변수 중, 성별인자를 x 축으로 끌어다 놓아 보자. 그리고 우측 위 Done 버튼을 누르면 데이터를 성별로 분류한 데이터가 뜨는데, 색상이 입혀져 있어 성별에 따른 생존여부가 달라졌음을 확인할 수 있다. 결과에 의하면, 남성은 여성에 비해 타이타닉에서 생존하지 못했다.

성별로 나눈 데이터, 생존여부는 색상으로 알 수 있다

이것을 통계적 수치로 확인하려면, 작업 창에서 [Analyze]-[Fit Y by X]를 눌러보자. X인자에 성별, Y결과에 생존여부 변수를 집어넣으면, 아래와 같은 결과를 확인할 수 있다. 둘 다 명목형(Nominal)이므로, Contingency 분석을 자동으로 JMP가 실시하였다.

성별에 따른 생존자 Contingency 분석

아래는 Graph Builder를 이용해 성별에 따른 승객 클래스의 분포가 나와 있는 모습이다. 위의 설명한 방법으로 Plot을 해주면 클래스별 어떤 성별이 더 생존을 많이 했고 적게 했음을 파악할 수 있다.

성별에 따른 승객 클래스. 색상으로 생존여부를 알 수 있다

3등급의 남자 승객이 생존인원이 제일 적은 것을 볼 수 있고, 1등급의 여자승객은 거의 대부분 생존했음을 볼 수 있다. 이와같이 JMP를 이용하여, 데이터의 분포와 변수 간의 관계 등을 파악 할 수 있다. 더 여러가지 분석기능이 있는데, 이는 다음 게시물에 소개하도록 하겠다.

JMP프로그램은 30일 동안 무료로 이용이 가능하며, 교육기간동안 이노벨류에서 제공하는 교육용 JMP프로그램을 사용하였다. JMP프로그램은 통계분석의 결과를 분석자가 확인하기 쉽게 Data를 가시화 시키는데 매우 특화되어있는 프로그램이다. R이나 다른 프로그램처럼 조작도 어렵지 않아 조금만 익히면 쉽게 누구든지, 정형데이터를 분석할 수 있다.


JMP 프로그램 설명 및 다운로드 : https://www.jmp.com/ko_kr/home.html


교육은 이노벨류파트너즈의 배용섭 박사님께서 직접 해주셨다. 국내에는 민간자격증으로 시험을 볼 수있으며, CDAJ (Certified Data Analyst using JMP) 자격증을 취득할 수 있다.

CDAJ 교육 문의 (이노벨류 파트너즈) : http://www.innovalue.co.kr/


조회수 252회댓글 0개

최근 게시물

전체 보기

bottom of page