타이타닉 생존자 분석
타이타닉의 생존자를 찾아내는 Kaggle 프로젝트. Jupyter Notebook 환경에서 Decision Tree를 이용해 타이타닉호 탑승자의 생존여부를 판단합니다.
수행기간: 2019년 11월 (2개월)
특징: Kaggle 대표 프로젝트 수행. Tree 기반의 단계적인 성능향상 실습.
타이타닉 생존자 찾기
탑승자의 나이, 성별, 티켓등급, 승선항구 등의 정보를 받아 그 승객이 죽고 살 가능성을 판단합니다. 최종적으로 80% 이상의 예측 정확도를 달성하는것을 목표로 합니다.
Feature(특징) 이해 & Feature Engineering
데이터 특성을 파악하고 Feature Engineering의 기본개념을 익힙니다.
데이터 시각화
주요특징을 시각화하고 원하는 메시지를 그래프, 차트 등으로 표현해내는 능력을 기릅니다.
주로 seaborn
을 사용합니다.
Tree기반의 머신러닝 이해
의사결정나무 모델로 머신러닝을 이해하고 scikit-learn
으로 직접 모델링하는 법을 배웁니다. 나아가 Random-forest까지 익힙니다.
머신러닝에 의한 분석
기계학습의 기본 원리를 익히고, 기계학습에 의한 분석을 실시합니다.
습득
- 5단계식 데이터 분석 수행
- Feature Engineering의 기본
- jupyter notebook 환경 이해
- 머신러닝 이해(decision-tree, random-forest)
- 논리적인 데이터 분석
- 데이터 시각화(seaborn, matplotlib)