Gmlp_pretrain

Pretraining code to train Gmlp Language model

codertimo/BERT-pytorch 코드베이스로 작성하였습니다.

Gmlp pretrain

1. Conda 환경설정 및 requirements를 설치해주세요.

conda create -n gmlp -y python=3.7 && conda activate gmlp
pip install -r requirements.txt

2. Pretrain

Gmlp

bash example.sh train amlp [bsz]

Gmlp + Tiny attention model

bash example.sh train amlp [bsz]

DDP를 이용하여 train 가능합니다.

bash example.sh train amlp [bsz] ddp [n_gpu]

2. Text Classification Finetuning (NSMC)

Gmlp

bash example.sh finetune gmlp [bsz]

Gmlp + Tiny attention model

bash example.sh finetune amlp [bsz]

Roberta의 fullsentence MLM으로 학습할 수 있도록 설정하였습니다.
토크나이저는 koelectra-v3을 사용했습니다.
학습은 data/train 디렉토리에 있는 json파일(인덱싱 된 문장들)들로 진행됩니다.
모두의 말뭉치 뉴스 데이터를 data/news 디렉토리에 넣고 (1)processing_news.py 를 진행하시면 처리된 json파일을 얻을 수 있습니다.

Pretrain Loss graph (900,000 step)

batchszie 56으로 진행. bsz를 더 높이면 더 안정적으로 학습하여 더 좋은 성능 기대 됩니다.(accumulation step도 사용가능할듯 시간많이들겠지만;)

성능

감성분석(NSMC Dataset)

	Accuracy (%)
LSTM	79.79
BERT(형태소-태그)	86.57
BERT(Multilingual)	87.43
gmlp + tiny_att	87.70
RoBERTa	89.88

개체명인식(Naver NER Dataset)

	Slot F1 (%)
CNN-BiLSTM-CRF	74.57
DistilKoBERT	84.13
Bert-Multilingual	84.20
gmlp + tiny_att(ours)	85.82
KoBERT	86.11
RoBERTa(ours)	87.58

참조

codertimo/BERT-pytorch
lucidrains/g-mlp-pytorch
labmlai/annotated_deep_learning_paper_implementations
monologg/KoELECTRA
monologg/KoBERT-NER

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
data		data
gmlp		gmlp
.gitattributes		.gitattributes
README.md		README.md
example.sh		example.sh
finetune_nsmc.py		finetune_nsmc.py
loss_graph.PNG		loss_graph.PNG
pretrain.py		pretrain.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Gmlp_pretrain

Gmlp pretrain

1. Conda 환경설정 및 requirements를 설치해주세요.

2. Pretrain

2. Text Classification Finetuning (NSMC)

Pretrain Loss graph (900,000 step)

성능

감성분석(NSMC Dataset)

개체명인식(Naver NER Dataset)

참조

About

Releases

Packages

Languages

ZIZUN/Gmlp_pretrain

Folders and files

Latest commit

History

Repository files navigation

Gmlp_pretrain

Gmlp pretrain

1. Conda 환경설정 및 requirements를 설치해주세요.

2. Pretrain

2. Text Classification Finetuning (NSMC)

Pretrain Loss graph (900,000 step)

성능

감성분석(NSMC Dataset)

개체명인식(Naver NER Dataset)

참조

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages