Feature Selection

특징 선택(Feature Selection)은 기계 학습 및 패턴 인식 분야에서 중요한 이슈 중 하나로, 분류 정확도를 향상시키기 위해 원본 데이터가 주어졌을 때, 가장 좋은 성능을 보여 줄 수 있는 데이터의 부분집합(subset)을 원본 데이터에서 찾아내는 방법이다[1]. 즉, 분류기의 분류 목적에 가장 밀접하게 연관되어 있는 특징들만을 추출하여 새로운 데이터를 만들어 낸다.

이러한 과정을 통해 기대할 수 있는 효과는 두 가지가 있다. 첫째는 원본 데이터에 비해 줄어든 크기의 데이터를 얻을 수 있다는 것이다. 데이터의 차원(Dimension)을 감소시킴으로써 원본 데이터를 그대로 사용할 때보다 더 빠른 시간에 연산을 마칠 수 있다[2]. 둘째는 분류 성능 향상이다. 원본 데이터에는 분류기의 분류 기준 생성에 방해가 될 수 있는 관계 없는(Irrelevant) 데이터, 잉여(Redundant) 데이터, 잡음(Noise) 데이터들이 섞여 있어 보다 보편적이고 정확한 분류기를 생성하기 어렵게 만든다. 특징 선택 과정을 통해 원본 데이터에서 이러한 부적절한 데이터들을 제거하고 분류기 생성에 밀접한 연관이 있는 데이터들만을 추출할 수 있다. 이로 인해 원본 데이터를 그대로 사용했을 때와 비교하여 더 정확한 분류기의 생성이 가능하게 된다[2][3].

특징 선택은 크게 특징 부분집합의 생성, 생성된 특징 부분집합의 평가, 정지 조건 만족 여부 확인으로 나누어진다[2]. 먼저, 주어진 원본 데이터에서 구성 가능한 부분집합을 추출한다. 그리고 추출한 부분집합이 얼마나 우수한지 평가한다. 이후 정지 조건을 확인하여 만족하지 않으면 다시 새로운 부분집합을 구성하여 평가 단계를 거치는 과정을 반복하게 되고, 정지 조건을 만족하면 특징 선택 과정을 종료하고 최종적으로 사용할 특징 부분집합을 결과로 도출하게 된다. 그림 1은 설명한 특징 선택 단계를 도식화하여 나타낸 것이다.

 feature_selection_appr.png
[그림 1] 특징 선택 방법의 주요 단계

이 특징 선택 과정에서 고려하여야 할 점은 특징 부분 집합을 생성할 때 어떤 방법으로 생성할 것인가 하는 것과, 평가를 어떻게 수행하여야 할 것인가 이다. 크게 두 가지 평가 방법으로 나뉘는데, 첫 번째 방법은 독립적인 특징 부분집합 평가 기준을 두는 방법이다. 이를 필터 방법(Filter Method)이라고 한다. 선택된 부분집합의 우수성을 부분집합 안의 특징들과 분류 기준 사이의 고유한 속성을 이용하여 평가하는데, 이것이 데이터의 직접적 분류 성능과는 별도의 평가 기준이 되기 때문에 독립적인 평가 기준이라고 하는 것이다. 따라서 어떤 속성을 사용하여 평가하느냐에 따라 우수성의 척도가 달라질 수 있으며, 실제 분류기를 사용했을 때의 분류 성능과도 차이를 보일 수 있다[2]. 두 번째 방법은 종속적인 특징 부분집합 평가 기준을 두는 방법으로 래퍼 방법(Wrapper Method)으로 알려져 있다. 이 방법은 직접적으로 분류기를 사용하여 해당 특징 부분집합의 성능을 평가하는 것으로, 사용할 분류기를 사전에 미리 결정해 놓은 다음, 매번 특징 부분집합이 형성될 때마다 분류기를 사용해 데이터를 분류하여 그 분류 성능을 우수성의 척도로 삼는다. 일반적으로 후자의 경우 전자의 방법보다 수행 시간이 긴 단점이 있으나, 분류기 자체의 분류 성능으로 평가하므로 필터 방법과 달리 직접적으로 분류가 가장 잘 될 수 있는 특징 부분집합을 찾아낼 수 있다.

References

[1] Jain, A. and Zongker, D. (1997). Feature Selection : Evaluation, Application, and Small Sample Performance. IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 19, No. 2, pp. 153-158.
[2] Liu, H. and Yu, L. (2005). Toward Integrating Feature Selection Algorithms for Classification and Clustering. IEEE Transactions on Knowledge and Data Engineering. Vol. 17, No. 4, pp. 491-502.
[3] Guyon, I. and Elisseeff, A. (2003). An Introduction to Variable and Feature Selection. Journal of Machine Learning Research. Vol. 3, pp. 1157-1182.