3학년 때, 공유주방입지 추천 분석을 할 때, 인구학적 정보와 배달상권간의 관계성을 파악하는 과정에서 다중공선성이 생기는 변수는 무지성으로 제거했던 경험이 있다.
그러나 다중공선성은 반드시 없애야만 하는 문제는 아니다.
모델링 방식이 선형 회귀가 아니라면 다중공선성을 고려할 필요가 없다.
다중공선성은 선형 회귀 모델의 기본 가정인 '독립 변수들이 서로 독립'을 위배하기에 생기는 문제이기 때문이다.
모델링의 목적이 예측인 경우에는 다중공선성을 신경 쓸 필요가 없다.
다중 공선성이 회귀 모델에 미치는 효과는 다음과 같다.
- 회귀 모델에 어떤 변수가 포함되는지 여부에 따라 특정 변수의 회귀 계수값이 크게 변동할 가능성이 높아진다.
- 회귀 계수의 표준 오차가 커져 통계적 유의성에 영향을 준다.
따라서 다중공선성은 독립변수의 회귀계수 추정(모델의 해석)에 영향을 줄 뿐 종속변수 예측에는 영향을 주지 않는다.
다중공선성은 '두' 변수 간의 상관계수만 측정해서는 정확히 파악할 수 없다.
어떤 독립변수가 여러 독립변수들과 선형결합관계인 경우라면 상관계수가 낮더라도 다중공선성이 생길 수 있기 때문이다.
따라서 다중공선성을 확인하려면 상관계수가 아니라 VIF를 측정해야 한다.
그렇다면 모델링의 목적이 회귀계수 추정인 경우에는?
사실상 모델에 들어간 모든 변수의 회귀계수를 정확히 측정하는 것은 불가능하다.
보통 특정 한 두개의 요인이 종속변수에 미치는 영향력을 추정하기 위해 회귀분석을 진행한다.
다른 변수들은 실제 관심있는 변수를 정확히 추정하기 위해 보조하는 통제변수이다.
따라서 이런 통제변수의 회귀계수를 정확히 추정할 필요는 없기에 다중공선성이 이런 통제 변수들 사이에서만 발생한다면 신경쓸 필요가 없다.
또한 통제변수와 관심있는 변수 사이에 상관성이 높더라도 해당 통제변수를 제거할 것인지는 VIF 값만 보고 판단할 것이 아니라 도메인 지식을 이용해 변수간의 관계를 확인해야 한다.
예를 들어 음주량과 흡연량이 암에 미치는 영향을 추정하는 연구에 있어서, 음주량과 흡연량 간의 상관성이 높다고 하나를 제거하는 것은 옳지않다. 둘 다 암에 인과적 영향을 줄 가능성이 높기 때문이다.
그렇다면 다중공선성을 확인하는 목적은?
미처 고려하지 못한 데이터 간의 숨은 관계가 있는 것은 아닌지 확인하는 용도
그렇다면 다중공선성을 처리하는 방법은?
1. 특정 변수의 VIF가 지나치게 높다면 미처 생각하지 못한 colider나 mediator일 가능성이 없는지 도메인 전문가와 논의
2. 상관관계가 높은 변수들을 조합한 파생변수를 만든 후 대체
3. 상관관계를 완화할 수 있는 추가 데이터 확보
음주량,흡연량이 암에 미치는 영향을 분석하는 경우, 현재 관측 데이터는 음주와 흡연을 같이하거나 아예 둘다 하지 않는 사람들의 데이터만 있어서 생기는 문제일 수 도 있다. 따라서 술O흡연X, 술X흡연O 데이터를 확보한다면 둘 간의 상관성을 낮출 수 있다.
4. 회귀모델의 한계를 인정한다.