Skip to content

EhimeNLP/JParaBank

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 

Repository files navigation

JParaBank

日英対訳コーパスJParaCrawlの英語文を機械翻訳することで約2,100万文対の日本語言い換えデータセットを構築しました。

ダウンロード

wget http://aiweb.cs.ehime-u.ac.jp/~tarumoto/JParaBank.tar.gz

ファイルについて

  • train.origとtrain.para、valid.origとvalid.paraが言い換え文対として収集されています。origがJParaCrawlに含まれる日本語文、paraが機械翻訳によって生成された言い換え文です。
  • JParaBankには以下のような言い換え文対が含まれています。
orig para
多くの大型望遠鏡や天文台は、高い山の上にあります。 多くの大きな望遠鏡や天文台は高い山頂にあります。
ご応募をお待ちしております。 皆様のご応募をお待ちしております。
入力した場所以外の部分をクリックして確定します。 入力以外の場所をクリックして確定します。
モーリシャス 2019 での休暇のための最高の時間 モーリシャス2019 でのバケーションのための最高の時間。
コクのあるリッチな使い心地のクリームタイプ。 使用感が豊かなクリームタイプ。

ライセンス

  • 本データセットはJParaCrawlに基づき作成された派生データであるため、ライセンスはJParaCrawlに従います。
  • 詳細はこちらをご確認ください。

文献情報

樽本空宙, 惟高日向, 梶原智之, 二宮崇. JParaBank:機械翻訳に基づく大規模な日本語言い換え文対の収集.
人工知能学会第37回全国大会

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published