모든 작업이 Google Colab Notebooks에서 진행되었습니다.
Crawler.ipynb을 이용해서 검색어별 2019년 12월 뉴스부터 2021년 1월 뉴스의 제목들을 크롤링하였습니다.
Naver Sentiment Movie Corpus repository를 설치하는 커맨드입니다.
git clone https://github.com/e9t/nsmc.git
해당 repository를 설치하는 커맨드입니다.
git clone https://github.com/KKN18/Naver-News-Sentiment-Analysis.git
-
transformers를 설치합니다.
pip install transformers
-
현재 경로를 변경합니다.
cd Naver-News-Sentiment-Analysis
-
감정분석 모델을 학습하고 saved_model 폴더에 저장합니다.
python model.py --save_dir <saved_model>
-
학습한 모델로 월별 네이버 뉴스 제목을 감정분석합니다.
python eval.py --data_dir <data_dir> --category 'Social' --save_dir <saved_model>
Naver sentiment movie corpus 로 학습시킨 BERT 모델을 이용하였습니다.
그래프의 값이 높을수록 긍정적인 헤드라인의 비율이 높았다는 것을 의미합니다.