🤔 편향/분산 트레이드오프
모델의 새로운 데이터를 예측할 때, 모델의 오차는 다음 세 가지의 오차의 합으로 표현할 수 있다. 자세한 유도과정은 단순한 계산의 반복이기에 따로 다루지 않겠다.
(모델의 오차) = (편향)^2 + (분산) + (줄일 수 없는 오차)
- 📌 편향
모델이 예측할 기댓값과 실제값의 차이로 ****잘못된 가정으로 인해 생겨나는 오류이다. 일반적으로 편향이 큰 모델은 훈련데이터에 대해 과소적합이 되기 쉽다.
- 📌 분산
훈련데이터에 대한 모델의 예측값들에 대한 분산이다. 분산이 높다는 것은 예측값들이 훈련데이터에 민감하게 반응한다는 것이다. 따라서 높은 분산을 가진 모델들은 과대적합되기 쉽다.
- 📌 줄일 수 없는 오차
데이터 자체의 자체의 잡음으로 인해서 생겨나는 오차이다. 이는 모델을 수정해서는 바꿀 수 없는 오차이므로 일반적으로 모델 튜닝과정에서는 고려하지 않는 오차이다.
따라서 모델의 오차를 평가할 때 편향과 분산을 고려한다. 일반적으로 모델의 복잡도가 커지면 분산은 증가하고 편향은 줄어드는 경향이 있다.

Q1. 위 그래프에서 가장 적절한 모델의 복잡도는 어느 부분일까?
👮♂️ 규제가 있는 선형 모델