Wikipediaのダンプファイルから出典ISBNを抽出するツール
- 日本語版Wikipediaのダンプから出典ISBNを抽出
- 抽出したデータはLine-delimited JSON形式で保存
- ある程度の表記ゆれを吸収
poetry install
Usage: citation.py [OPTIONS] INPUT_FILENAME EXPORT_FILENAME
Options:
--show-exclusion / --no-show-exclusion
除外した項目を表示する
--help Show this message and exit.
wget https://dumps.wikimedia.org/jawiki/20190420/jawiki-20190420-pages-articles-multistream.xml.bz
poetry run python citation.py jawiki-20190420-pages-articles-multistream.xml.bz2 citation-jawiki-20190420.jsonl
{
"isbn": "4772212272",
"raw": "4-7722-1227-2",
"title": "地理学",
"score": 2.9,
"h1": "参考文献",
"h2": null,
"is_ref": true
}
項目 | 型 | 概要 |
---|---|---|
isbn | String | 正規化されたISBN(ISBN-10) |
raw | String | 解析される元のISBN表記 |
title | String | Wikipediaのページ名 |
score | Number | 独自指標により算出されたISBNの正確さ (スコアが低い場合は、誤って検出した場合がある) |
h1 | String/null | 見出し1 |
h2 | String/null | 見出し2 |
is_ref | Boolean | 出典であることが明記されているか(作品リストなどではfalse) |
- チェックデジットの一致により、ISBN以外を誤判定する場合があります。ただし、ISBNから参照記事を検索する目的では問題とならないため許容しています
- チェックデジット間違いのISBNは抽出されません