cross validation

    [Python] K-Fold 로 데이터 분할하기

    데이콘이나 캐글 같은 경진대회에서 어떤 예측값을 제출하느냐에 따라 순위가 몇 단계나 출렁이곤 한다. 그렇기 때문에 어떤 데이터에 대해서도 견고한 예측값을 제공하는 모델을 선택하는 것이 중요한 이슈라고 할 수 있다. 모델을 어떻게 학습하냐에 따라 예측값도 천차만별이다. 좋은 결과를 위해서는 과적합, 과소 적합된 모델보다 균형 있게 학습된 모델을 선택하는 것이 가장 중요할 것이다. 쉬운 이해를 돕기 위해 인간으로 비유하자면 현재의 고정된 관념을 너무 학습하여 미래의 현상에도 고정 관념에 사로잡힌 사람 - 과적합 현재도 잘 이해하지 못하고 있으며 미래의 현상도 잘 이해하지 못하는 사람 - 과소적합 현재도 잘 이해하며 미래의 현상도 잘 예측하는 사람 - 일반화 K-fold 교차검증을 통해 비교적 일반화(gene..