- 세계 최대 규모 보드게임 커뮤니티 사이트 BoardGameGeek으로부터 데이터를 추출하여 EDA를 통한 향후 트렌드를 분석하는 프로젝트
탐색적 데이터 분석을 통해 다양한 관점에서 보드게임의 현재까지의 트렌드를 분석하여 향후 보드게임 산업의 방향을 예측, 제안해보자 한다.
배경 시대, ip 매체, 구성물, 권장연령, 권장인원, 최대플레이시간, 가격 등 여러가지 측면에서 데이터들을 분석해본 결과 유의미해보이는 경향성을 얻어낼 수 있었다.
- 보드게임이라는 분야가 사람들에게 생소한 분야이기에 신선한 시도를 하기에 좋은 주제라고 판단.
- 국내외 보드게임 커뮤니티 사이트에 데이터가 매우 잘 정리되어 있어 분석을 위한 데이터를 모으기 용이했다.
- 방대한 양의 데이터를 다뤄보는 경험을 체험해보기 위한 목적
- 특정 산업 분야의 트렌드를 분석하는 주제이기에 실무적으로도 의의가 있을 것으로 판단.
__[출처 사이트 구조]__
표 형식으로 구성된 목록에 랭킹, 이름, 발매년도, 점수, 가격 등의 점수가 정리되어 있다.
해당 항목 클릭 시 상세
- 성용호 : 웹 크롤링, 데이터 수집 담당 (사용툴 : Selenium, BeautifulSoup, pandas)
- 송승훈 : 데이터 프레임 전처리, 가공 담당 (사용툴 : pandas, numpy, matplotlib)
- 신재성 : 시각화, 디자인 담당 (사용툴 : pandas, matplotlib)
- 크롤링
- data_crawl.ipynb (성용호) : BoardGameGeek 사이트에서 크롤링을 통한 데이터 추출하는 코드
- danawa.ipynb (신재성) : 다나와 사이트에서 아동용 장난감 가격 데이터를 추출하는 코드
- danawa_golf.ipynb (신재성) : 다나와 사이트에서 골프용품 가격 데이터를 추출하는 코드
- boardlife_df.ipynb (성용호) : 보드라이프로부터 크롤링을 통해 데이터를 추출해서 BoardGameGeek의 데이터와 비교하는 코드
- 데이터 프레임 가공
- df_preprocessing.ipynb (송승훈) : 크롤링한 데이터들을 1차 전처리해서 사용하기 용이하게 합쳐놓
- boardgamegeek_df.ipynb (송승훈) : BoardGameGeek 사이트로부터 추출한 데이터 파일을 가공해서 여러가지 형태로 분석시킨 코드
- 시각화 및 데이터 분석
- design_graph.ipynb(신재성) : 산출된 그래프를 더 효과적인 시각화가 되도록 디자인 개선시킨 코드
- 데이터
- EDA 프로젝트 4조.pptx : 프로젝트 발표 pptx
- boardgame_df.csv : BoardGameGeek으로 부터 추출한 데이터 csv
- booardlife_top100_df : Boardlife에서 추출한 상위 100개 보드게임 데이터 csv