이름 없음 / Naver 종합 크롤러
이 프로젝트의 Tech Stack
pythonpycharmseleniumselenium-webdriverselenium-chromedriverpython-requestsbeautifulsouphtmlcss-selectorsopenpyxl
Naver 종합 크롤러
Python 기반의 Naver 종합 크롤러. 뉴스기사, Tv프로그램, 영화db, 지도 정보 등 텍스트, 이미지, 지도 기반의 모든 정보를 수집할 수 있으며 정적/동적 웹페이지를 모두 지원한다.
2019년 9월 21일 ~ 2019년 11월 1일 (1개월)
Tech Stack
  • python
  • pycharm
  • selenium
  • selenium-webdriver
  • selenium-chromedriver
  • python-requests
  • beautifulsoup
  • html
  • css-selectors
  • openpyxl
    Project 세부내용

    Naver 종합 크롤러

    Python 기반의 Naver 종합 크롤러입니다. 뉴스기사, Tv프로그램, 영화db, 지도 정보 등 텍스트, 이미지, 지도 기반의 모든 정보를 수집할 수 있으며 정적/동적 웹페이지를 모두 지원합니다.

    수행기간: 2019년 9월 22일 (7주간)
    특징: 정적페이지/동적페이지 지원, 무한 크롤링, 엑셀로 수집데이터 변환

    네이버 지도

    까다로운 동적 페이지인 네이버 지도의 상점 정보를 수집합니다.

    네이버 뉴스기사

    페이지 수에 상관없이 모든 뉴스기사를 수집할 수 있습니다.

    네이버 영화

    영화 포스터, 평점/장르에 따른 조건별 영화DB 수집이 가능합니다.

    네이버 TV 프로그램

    requests, beautifulSoup4를 사용하여 네이버 TV프로그램 리스트를 수집합니다.

    엑셀폼으로 데이터 변환

    openpyxl을 사용하여 데이터를 엑셀형태로 저장합니다.

    습득

    • html dom 구조 이해
    • selector 사용에 능숙해짐
    • 파이썬 기본(파이참 환경)
    • 모든 웹페이지 크롤링 가능
    • 정적/동적 페이지 이해
    • 데이터 변환 능력 습득