Regression
회귀는 예측하는 함수를 만드는 것이다.
예측하려는 데이터의 종류가 numerical 또는 categorical data 에 따라서 사용하는 알고리즘이 달라진다.
- Numerical: linear regression
- Categorical: logistic regression
1 min read
회귀는 예측하는 함수를 만드는 것이다.
예측하려는 데이터의 종류가 numerical 또는 categorical data 에 따라서 사용하는 알고리즘이 달라진다.
Collinearity predictor variable 들이 완벽하거나 거의 완벽에 가까운 상관성을 갖는다고 할 때, regression 은 다중공선성 문제를 가지고 있다고 말할 수 있다. 회귀 분석에서는 다중공선성 문제가 사라질 때까지 변수를 제거해야 한다. 공선성이 문제가 되는 이유는 1) 회귀 모델에서 계산하는 추정 ...
...ion Tree란 Decision Trees(DT, 의사결정나무)는 비모수(non parametric)적인 supervised learning 방법으로, 주로 classification과 regression 문제에 사용됩니다. 이 기법의 목적은 데이터의 feature로부터 유도된 간단한 결정 규칙을 학습하여, target 변수의 값을 예측하는 모델을 만드는 것입니다. B) 장점 이해하기 쉽고...
...feature 를 predictor 라 부른다 (e.g. 마일리지, 연식 등이 주어졌을 때 자동차 가격 예측하기) B) 특성 collinearity : 상호 연관된 예측 변수들을 사용하면 regression 계수의 부호와 값의 의미를 해석하기가 어려울 수 있다. C) Related D) References www.statology.org/explanatory response variables...
Gradient Boosting Machine Gradient Boosting Algorithm (GBM) 은 regression 또는 classification 을 수행할 수 있는 예측모형이며 예측모형의 ensemble 방법론 중 boosting 계열에 속하는 알고리즘 여러개의 weak models 을 조합해서 하...
...달라진다: 분류 또는 회귀. For classification: 비교 대상이 되는 데이터 주변에 가장 가까이 존재하는 k 개의 데이터와 비교해 가장 가까운 데이터 종류로 판별한다. For regression: 비교 대상이 되는 데이터 주변에 가장 가까이 존재하는 k 개의 데이터의 값을 aggregate 한다 (e.g. mean). A.1) 예시 위 그림처럼 빨간색 데이터를 기준으로 k=3 의...
...wise Methods 각 document d i 에 정의된 loss term 의 합을 계산하는 방식으로, loss 계산을 위해 y i 와 s i 의 차이 (거리) 정도를 계산한다. 이는 regression 문제와 비슷하다. Subset Ranking D.3.2) Pairwise Methods 각 document pair d i 와 d j 간 정의된 loss term 의 합을 계산한다. 이 ...
Probit Model probit model 은 regression 의 종류 중 하나로, 출력값 (dependent variable) 이 binary 형식을 띄는 모델을 의미한다. logistic regression 과 동일한 문제를 푸는것이며, GLM ...