Tabular Data: Deep Learning is Not All You Need
현실 데이터 과학 문제 해결을 위한 모델 선택
현실적인 데이터 과학 문제를 해결하는 데 중요한 요소 중 하나는 사용할 모델의 종류를 선택하는 것입니다. 일반적으로 트리 앙상블 모델 (예: XGBoost) 은 테이블 형식 데이터의 분류 및 회귀 문제에 추천됩니다. 그러나 최근에는 테이블 형식 데이터를 위한 여러 딥러닝 모델들이 제안되었으며, 일부 사용 사례에서 XGBoost 보다 뛰어나다고 주장하고 있습니다.
A.1) 연구 목적
이 논문은 이러한 새로운 딥러닝 모델들이 테이블 형식 데이터에 대해 추천될 만한 옵션인지 여부를 탐구합니다. 이를 위해 다양한 데이터셋에서 새로운 딥러닝 모델들과 XGBoost 를 엄격하게 비교합니다.
A.2) 주요 비교 요소
- 성능 비교: 다양한 데이터셋에서 두 모델의 성능을 체계적으로 비교합니다.
- 튜닝 및 계산 요구 사항: 각 모델이 요구하는 튜닝과 계산량을 고려합니다.
A.3) 연구 결과
- 성능: XGBoost 는 제안된 딥러닝 모델들을 포함한 모든 데이터셋에서 더 우수한 성능을 보였습니다.
- 튜닝 필요성: XGBoost 는 훨씬 적은 튜닝이 필요했습니다.
- 긍정적 측면: 딥러닝 모델과 XGBoost 의 앙상블은 단독으로 사용하는 것보다 더 나은 성능을 보였습니다.
이 연구는 현실적인 데이터 과학 문제 해결에 있어 어떤 모델을 선택해야 하는지에 대한 중요한 통찰을 제공합니다.