개념 변화 검출의 중요성
기존의 데이터 마이닝 방법들은 입력되는 데이터들이 고정된 상황에서 데이터들의 경향을 미리 파악한 뒤, 파악한 경향성을 바탕으로 이후의 동작을 수행하는 경우가 많다. 특히 데이터스트림 환경의 경우, 기존의 데이터들과 다른 새로운 경향성을 가진 데이터가 입력되면 새롭게 입력되는 데이터의 경향을 제대로 반영하지 못하여 수행 성능 및 품질이 떨어지는 문제가 발생한다.
따라서 기존 방법들이 높은 성능을 유지하기 위해서는 새로운 경향성을 띠는 데이터가 입력되는 상황인 개념 변화 를 정확히 검출하는 것이 중요하다.
B) 제안된 개념 변화 검출 기법 과정
- Build: 클러스터링 기법을 사용하여 데이터스트림의 패턴을 구분하고 데이터와 패턴의 관계를 기계학습을 통해 학습하고 분류
- autoencoder 와 K-means clustering 을 활용하여 레이블을 생성
- Predict: 기계학습 모델을 사용하여 현재 입력되는 데이터스트림의 개념을 식별하고, 일관성과 지속성을 검사하여 보다 정확하게 개념 변화 를 검출
- Convolution Neural Network 을 활용하여 데이터스트림 개념 변화 검출
C) 제안된 방법의 장점
- 데이터에 대한 사전 지식이 주어지지 않는 상황에서도 데이터스트림의 개념 변화를 검출할 수 있음
- Abnormal 데이터를 위한 labeling 이 요구되지 않음
- 일관성 (consistency) 과 지속성 (persistence) 을 가진 개념 변화를 검출
- 일관성: 변화가 기존의 데이터와 비교했을 때, 일정 수준 이상으로 발생한 것
- 지속성: 연속으로 입력된 여러 데이터들이 일관된 상태를 지속적으로 유지해야 한다는 것