[Outline] Machine Learning의 처리과정

JC.kim
2017년 12월 11일
2분 분량

앞에서 머신러닝의 세가지 유형에 대해 살펴 보았다면, 이번에는 데이터가 머신러닝에 의해 어떻게 처리되는지, 머신러닝의 처리과정에 대해 본다. 아래의 그림을 글로 간단하게 정리해보았다.

1.전처리 과정 (Preprocessing)

먼저 특정 형식으로 지정되어 있지 않거나 분류되지 않은 데이터들을 동일한 스케일의 피쳐(단위)로 만드는 작업이 이루어진다. 이 과정에서 주로 0과 1사이의 표준정규분포를 갖는 값으로 변환하는 방식이 자주 이용된다. (*피쳐 feature : 여러개의 행들로 이루어 져있는 측정값.)

그 다음 불필요한 feature들을 없애기 위해 데이터 압축을 위한 차원축소 작업을 진행한다. 이는 데이터의 각 부분을 명확하게 나눠주는 역할을 한다. 각 데이터들의 차원을 축소하면 작은 저장공간이 소요되고, 학습 알고리즘의 속도는 빨리 진행 될 수 있다.

그리고 설계된 머신러닝 알고리즘이 훈련데이터에 대해 성능을 높임과 동시에, 새로운 데이터도 잘 처리해야 하므로, 전처리 과정에서 훈련데이터와 테스트 데이터를 나눈다. 훈련데이터는 모델을 최적화 하기위해 계속 갱신되고 사용되는 반면, 테스트용 데이터는 최종 모델을 평가하기 위해 그대로 유지된다.

ex) Iris 꽃 데이터 분류에서 꽃잎 수, 색, 향, 꽃잎의 길이들이 유용한 피쳐가 될 수 있다.

여기서 꽃잎 크기를 피쳐로 정한다면, 여러 가지 데이터들을 군집화 시켜 꽃잎 크기 마다 그룹을 만들어 낼 것이다.

2. 학습 과정 (Learning)

그다음 전처리 단계에서 넘어온 훈련데이터가 설계된 학습 알고리즘에 의해 학습된다.

ex) 전처리 과정에서 분류된 Iris데이터가 넘어와 학습을 하게된다. 전처리과정에서 꽃잎 크기에 관한 피쳐가 만들어 졌다면, 각훈련데이터를 꽃잎크기에 따라 분류하여 처리하기 시작 할 것이다. 이 처리과정이 끝나면, 해당 꽃이 어느 꽃잎크기 그룹에 속하는지 판별이 나며, 이 과정으로 꽃잎의 크기에 따라 Iris 꽃을 분류할 수 있다.

3. 평가 과정 및 예측 (Evaluation and Prediction)

이 과정에선 학습알고리즘에 의해 학습된 최종데이터가 전처리과정에서 남겨졌던 테스트데이터에 의해 평가된다. 그리고 여기서 최종데이터의 피드백이 발생할 경우 레이블로 추가되어, 다시 전처리 과정의 테스트 데이터로 가게 된다. 평가를 받은 최종데이터는 그대로 처리되어 신규 데이터가 된다. 그리고 신규데이터의 출력 값이 새로운 예측레이블을 생성 하게 된다.

ex) Iris 꽃 데이터가 학습에 의해 분류된다. 그리고 이 학습 알고리즘의 성능을 향상시키기 위해 이전에 있던 테스트 데이터를 가져온다. 여기서 향상 시킬 피드백을 레이블에 추가한다. 최종 데이터는 나중에 새로운 데이터들이 분류될 때 또 다른 기준이 되기 위해, 예측값과 실측값을 계산하여 레이블에 추가된다.

[Outline] Machine Learning의 처리과정

최근 게시물

댓글