Skip to content

化学フラグメント(Chemical fragment)のMeCab辞書

License

Notifications You must be signed in to change notification settings

zincjp/ChemfragDic

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

化学フラグメント辞書 for MeCab

化学フラグメント辞書 for MeCab とは

MeCabを用いた形態素解析の際に化合物名をフラグメントに分解するための辞書です。
例えば ジクロロメタンが「ジ」「クロロ」「メタン」と分かち書きされます。
辞書には化学物質のフラグメントしか入っていないので、文書の解析の際は、
この辞書と標準のシステム辞書(ipadic)等を併用することをオススメします。
NEologd辞書、Nikkaji辞書とも併用可能です。

特徴

利点

  • MeCab の標準のシステム辞書では正しく分割できない化学物質名をフラグメントに分解するので、ある程度意味のある単位に切ることが出来ます。
    • 分かち書き例
      ジクロロベンゼン → 「ジ」「クロロ」「ベンゼン」
      オキサビシクロ[4,1,0]ヘキサン → 「オキサ」 ビシクロ」 「[」 「4,」 「1,」 「0」 「]」 「ヘキサン」

欠点

  • まだまだ少ないフラグメント名しか入っていません。
  • 一部の基名、一部の物質名は機械的に作成しているために実在しない基名も収録されています。
    ベンゼニル、スチレニルなどは辞書から削除していません。
    →そのような名称はフェニル、スチリルとしてマニュアル収録しています。

収録フラグメント

  • 有機化合物
    • 脂肪族炭化水素類
      • アルカン(C1-C12)
      • アルケン、アルカジエン、アルカトリエン、アルカテトラエン、アルカペンタエン(C1-C12)など
      • アルキン、アルカジイン、アルカトリイン、アルカテトライン、アルカペンタイン(C1-C12)
        • そのアルコール(アルカノール、アルカントリオール、アルカンテトラオール、アルカンペンタオール)
        • そのアルデヒド(アルカナール)
        • そのカルボン酸、二酸(ブタン酸、ブタン二酸など)
        • その基名(アルキル、アルキレン、アルキリデン、アルキリジン、アルコキシ)
    • 芳香族炭化水素類
      • ベンゼン、ナフタレン、アントラセン、スチレン
      • フェノール
      • ピリジン、アニリン
        • そのオニウム
    • 慣用名
      • アミノ酸(アラニン、アルギニンなど)
      • 飽和脂肪酸(ギ酸、酢酸、プロピオン酸など)
      • 不飽和脂肪酸(クロトン酸、リノール酸など)
    • 無機化合物
      • 炭酸、硝酸、亜硝酸、リン酸、亜リン酸、硫酸、亜硫酸、ケイ酸など
    • 官能基名など ー 炭化水素基 - フェニル、フェニレン、ナフチル、スチリル、ベンジル、
      • ハロゲン
        • フロロ、クロロ、ブロモ、ヨード、フッ化、塩化、臭化、ヨウ化など
      • 含酸素
        • ヒドロキシ、アルコール、オキサ、オキシ、エポキシ、オキソ、カルボニル、ケトン、カルボン酸、炭酸など
      • 含窒素
        • シアノ、アミノ、アンモニウム、イミノ、ニトロ、ニトロソ、アゾ、ジアゾ、ジアロニウム、アジドなど
      • 含リン
        • ホスフィン、ホスフィンオキシド、ホスホン酸、ホスホラン
      • 含硫黄
        • チオ、チオキシ、スルホン酸、スルホニウム、チオール、メルカプタン
      • 含ケイ素
        • シラン、シロキサン、シリケート、シルセスキオキサン、シリル
    • 接頭辞
      • スピロ、シクロ、ビシクロ、トリシクロ
      • 倍数接頭辞
        • 1 - 20 (モノ - エイコサ)、ビス、トリス
      • 異性体
        • n-、sec-、tert-、cis-、trans-
      • 位置
        • iso-、neo-、ortho-、meta-、paraー
    • 接尾辞
      • エン、イン、イル、オール、アール
    • 置換位置番号 - 1 - 20
    • 記号 - ( ) [ ] -
  • 今後適宜増強予定。

正規化処理

  • 辞書が冗長にならないように、カタカナは全角、数字、記号は半角で収録しています。

品詞

MeCabでの品詞は「化学フラグメント」です。

ファイル構成

chemfrag.dic

  • 化学フラグメントのMeCab用shift-jis辞書です。

chemfrag.dic

  • 化学フラグメントのMeCab用UTF-8辞書です。

chemfrag.csv

  • 化学フラグメント辞書のMeCabでのコンパイル前のcsvファイルです。文字コードはUTF-8。

使用方法

  • chemfrag.dicファイルをMecab\dic\chemfrag\に置きます。
  • Mecab\etc\mecabrcファイルでユーザー辞書として定義します。 以下Windowsでの例
    userdic = C:\Program Files (x86)\MeCab\dic\chemfrag\chemfrag.dic

辞書のパラメータ

生起コスト

  • MeCabの単語生起コストはとりあえず-5000とかなり低めにしています。

文脈ID

  • 文脈IDは右文脈ID,左文脈IDともに1285(名詞,一般)を割り当てています。

今後の予定

  • 化合物名の増強
  • 文脈IDの検討
  • 生起コストの検討

Chemfrag辞書はアジア特許情報研究会の活動の一環です。
https://sasiapi.org/