Skip to content

poetrilin/DSgame

Repository files navigation

DS games

Brief

Data

  • 数据集包含了新闻的标题和正文,以及对应的摘要。
  • run一次pre_data.py可将每条训练数据以转化为json格式,run Vocab.py可生成词典

1 数据处理

本项目数据处理共分为部分:数据划分、词典生成、张量转换

  • 数据清洗与划分
    • 读取数据并清洗,去除固定pattern而无意义的数据
    • 从原始训练集中划分出验证集
    • 将原始CSV文件转换为逐条文本的JSON文件
  • 词典生成
  • 张量转换

2 模型结构 Seq2Seq+Attention

  • Embedding: 将输入的单词转换为向量(torch)
  • Encoder: 使用序列模型对输入的文本进行编码,得到每个时刻的隐向量和最后一个时刻的结果向量,具体来说是embedding后的输入文本
  • Decoder: 每一步解码,使用输出隐向量,input:摘要的embedding,output:上一步的输出和上一步的隐向量

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published