data

    [Python] 유용한 문자열 함수들

    ※ 해당 글은 dojang.io/mod/page/view.php?id=2299을 참고하여 작성하였습니다. 저의 기준 사용 빈도가 높은 함수들 replace >>> 'sample setence'.replace(' ','_') 'sample_setence' split >>> 'sample one two three four five'.split() ['sample', 'one', 'two', 'three', 'four', 'five'] >>> 'one, two, three, four, five'.split(', ') ['one', 'two', 'three', 'four', 'five'] join >>> ' '.join(['one','two','three','four','five']) 'one two three..

    [R] createWorkbook 함수를 이용해 데이터프레임 변수를 엑셀에 저장하기

    코드 1. Workbook 생성 및 엑셀 시트 추가하기. # createWorkbook # install.packages('openxlsx') library(openxlsx) example

    [Python] 병렬처리, Multiprocessing

    병렬처리의 필요성 요즘같이 대용량 데이터를 처리하는 과정에서 병렬처리 활용은 선택이 아닌 필수가 되어버렸다. 극단적으로 말하자면 코드를 어떻게 짜느냐에 따라 똑같은 작업이라도 1시간이 걸릴 수 있고, 단 1초 만에 완료될 수 도 있다. 코드를 돌려놓고 하염없이 기다리기보다 병렬처리를 배워서 적용하는 시간이 오히려 더 빠르다. 그리고 추후에도 잘 응용하여 사용함으로써 데이터 분석가의 역량을 키워 나갈 수 있다. 하드웨어가 심각하게 싸지지 않는 한 앞으로 더더욱 연산속도와 메모리 관리는 중요한 이슈가 될 것이라고 생각한다. Multiprocessing multiprocessing 모듈은 threading 모듈과 유사한 API를 사용하여 *프로세스 스포닝(spawning)을 지원하는 패키지이다. multipr..

    [Python] K-Fold 로 데이터 분할하기

    데이콘이나 캐글 같은 경진대회에서 어떤 예측값을 제출하느냐에 따라 순위가 몇 단계나 출렁이곤 한다. 그렇기 때문에 어떤 데이터에 대해서도 견고한 예측값을 제공하는 모델을 선택하는 것이 중요한 이슈라고 할 수 있다. 모델을 어떻게 학습하냐에 따라 예측값도 천차만별이다. 좋은 결과를 위해서는 과적합, 과소 적합된 모델보다 균형 있게 학습된 모델을 선택하는 것이 가장 중요할 것이다. 쉬운 이해를 돕기 위해 인간으로 비유하자면 현재의 고정된 관념을 너무 학습하여 미래의 현상에도 고정 관념에 사로잡힌 사람 - 과적합 현재도 잘 이해하지 못하고 있으며 미래의 현상도 잘 이해하지 못하는 사람 - 과소적합 현재도 잘 이해하며 미래의 현상도 잘 예측하는 사람 - 일반화 K-fold 교차검증을 통해 비교적 일반화(gene..