主要就是将一段文本中的某些在字典中有释义的token用其解释的cls
(pooler
)向量去替换其自身的向量然后做对比学习
main.py
: 入口函数configuration.py
: 配置文件dataprocesser.py
: 处理dataset和collate_fn的utils.py
: 主要是trainer的定义model.py
: 模型,基于Bert_Mutil_Replaced去做对比学习,并加上了mlm的损失Bert_Mutil_Replaced.py
: hugging face的Bert模型,稍微修改了一下self-attention内容