hyerimlee(이혜림)
.

우수 고객 분류 & 고객 데이터 분석 프로젝트

회원 DB를 이용하여, 신규회원이 가입할 때 우리 서비스의 우수고객이 될 가능성을 판별합니다. 또한 입력받은 회원 데이터를 이용해 그들에게 적합한 상품을 추천할 수 있도록 추가적인 정보(신체사이즈)를 예측합니다.

수행기간: 2019년 12월 (2주)
특징: 회원 DB 이용을 위한 실전형 소규모 모의 프로젝트

우수 고객 분류하기

이 프로젝트는 운동화 판매회사의 고객분석팀에 재직중이라 가정하고 진행하였습니다.

회원의 DB를 가져옵니다.

a1.jpg 기존 회원의 우수고객분류, 나이, 성별, 지역, 관심사를 가져와 학습하여 우수고객을 판단합니다.

우수고객 여부를 판별합니다.

a2.jpg 기존의 회원DB로 우수고객 판별이 가능한 모델을 만들고, 이를 이용해 이후 가입하는 신규회원들의 우수고객 전환 가능성을 판별합니다. 우수고객으로 판단될 시에 해당 고객에 대한 보다 집중적인 케어가 가능해져 서비스의 품질이 올라갈 것으로 기대됩니다.

고객 데이터 예측하기

회원의 DB를 가져옵니다.

b1.jpg 회원의 적합사이즈, 나이, 출장수, 키, 몸무게 데이터를 가져와 학습하여 신체 적합사이즈를 예측합니다.

신체 데이터를 얘측합니다.

b2.jpg 신체 적합사이즈를 기입하지 않은 회원들에게 적합한 사이즈를 자동으로 추천해주어 알맞는 상품이 노출되도록 서비스를 개선할 수 있습니다.

한계점 확인 및 개선

  • 다량의 데이터 확보
  • 보다 철저한 사전 탐색 및 분석 작업
  • validation set, test set 작업을 통한 신뢰할 수 있는 모델 성능 평가
  • 효율적인 학습을 위한 Feature 고안

습득

  • 주도적인 데이터 분석 수행 및 머신러닝 모델 설계
  • 머신러닝 시스템의 실제 활용 경험
  • 머신러닝 이해(classification, regression...)
  • 파일럿 분석의 이점 확인
좋아요 0
    댓글 0

    타이타닉 생존자 분석

    타이타닉의 생존자를 찾아내는 Kaggle 프로젝트. Jupyter Notebook 환경에서 Decision Tree를 이용해 타이타닉호 탑승자의 생존여부를 판단합니다.

    수행기간: 2019년 11월 (2개월)
    특징: Kaggle 대표 프로젝트 수행. Tree 기반의 단계적인 성능향상 실습.

    타이타닉 생존자 찾기

    탑승자의 나이, 성별, 티켓등급, 승선항구 등의 정보를 받아 그 승객이 죽고 살 가능성을 판단합니다. 최종적으로 80% 이상의 예측 정확도를 달성하는것을 목표로 합니다.

    Feature(특징) 이해 & Feature Engineering

    데이터 특성을 파악하고 Feature Engineering의 기본개념을 익힙니다.

    데이터 시각화

    주요특징을 시각화하고 원하는 메시지를 그래프, 차트 등으로 표현해내는 능력을 기릅니다. 주로 seaborn을 사용합니다.

    Tree기반의 머신러닝 이해

    의사결정나무 모델로 머신러닝을 이해하고 scikit-learn으로 직접 모델링하는 법을 배웁니다. 나아가 Random-forest까지 익힙니다.

    머신러닝에 의한 분석

    기계학습의 기본 원리를 익히고, 기계학습에 의한 분석을 실시합니다.

    습득

    • 5단계식 데이터 분석 수행
    • Feature Engineering의 기본
    • jupyter notebook 환경 이해
    • 머신러닝 이해(decision-tree, random-forest)
    • 논리적인 데이터 분석
    • 데이터 시각화(seaborn, matplotlib)
    좋아요 0
      댓글 0
      2019년 11월 29일 02시15분 ·  Google Map 크롤러

      Google Map 크롤러

      Python과 Selenium, Chromedriver를 사용하여 구글 맵의 상점정보를 수집하는 크롤러입니다.

      수행기간: 2019년 10월 (2주간)
      특징: Google Map 무한 크롤링

      키워드 입력

      python의 input 함수를 사용하여, cli(console) 상 키워드를 입력 받습니다.

      지도 정보 크롤링

      상점 관련 모든 정보를 수집해 엑셀로 저장합니다.

      습득

      • html dom 구조 이해
      • selector 사용에 능숙해짐
      • 파이썬 기본(파이참 환경)
      • 모든 웹페이지 크롤링 가능
      • selenium 이해
      • 동적 웹페이지의 시간지연 이해
      • 데이터 변환 능력 습득
      좋아요 0
        댓글 0
        2019년 11월 29일 01시50분 ·  Naver 종합 크롤러

        Naver 종합 크롤러

        Python 기반의 Naver 종합 크롤러입니다. 뉴스기사, Tv프로그램, 영화db, 지도 정보 등 텍스트, 이미지, 지도 기반의 모든 정보를 수집할 수 있으며 정적/동적 웹페이지를 모두 지원합니다.

        수행기간: 2019년 9월 22일 (7주간)
        특징: 정적페이지/동적페이지 지원, 무한 크롤링, 엑셀로 수집데이터 변환

        네이버 지도

        까다로운 동적 페이지인 네이버 지도의 상점 정보를 수집합니다.

        네이버 뉴스기사

        페이지 수에 상관없이 모든 뉴스기사를 수집할 수 있습니다.

        네이버 영화

        영화 포스터, 평점/장르에 따른 조건별 영화DB 수집이 가능합니다.

        네이버 TV 프로그램

        requests, beautifulSoup4를 사용하여 네이버 TV프로그램 리스트를 수집합니다.

        엑셀폼으로 데이터 변환

        openpyxl을 사용하여 데이터를 엑셀형태로 저장합니다.

        습득

        • html dom 구조 이해
        • selector 사용에 능숙해짐
        • 파이썬 기본(파이참 환경)
        • 모든 웹페이지 크롤링 가능
        • 정적/동적 페이지 이해
        • 데이터 변환 능력 습득
        좋아요 0
          댓글 0

          구글 애널리틱스 자격증(고급) 을 취득하였습니다.

          좋아요 0
            댓글 0

            -좋은데이와의 제휴 성공. 향후 지속적인 제휴 약속 받음. (약 200여명의 회원이 모이는 전국지부엠티(Pre-Co YLC) 에 약 240병의 소주를 지원받음)

            -기존 제휴 업체였던 시사일본어/중국어 학원의 오프라인 할인 혜택 뿐 아니라 온라인 할인 혜택으로 확대

            좋아요 0
              댓글 0

              2019년 MBN 빅데이터 경진대회에서 데이터 분석을 통한 사업아이디어를 도출해 GS리테일 대표상(우수상)을 수상하였습니다.

              좋아요 0
                댓글 0