データベース工学の課題2(実用的なDBの構築と性能評価)
講義ページを確認してください
-
MeCab(と辞書)をインストール
-
このパッケージをインストール(python3.6以上が必要です)
$ git clone https://github.com/umemotsu/dblec2018-eval $ pip install -e ./dblec2018-eval
-
パッケージのCLIのヘルプを確認
$ dblec2018-eval --help $ dblec2018-eval build-dataset --help
-
開始URLとホップ数を指定してクローリング
$ dblec2018-eval build-dataset <URL> <DEPTH> <PAGE_INDEX_FILE> <LINK_INDEX_FILE>
-
クロール結果を確認
PAGE_INDEX_FILE:
URL_1<tab>TITLE_TOKEN_1<space>...<space>TITLE_TOKEN_L<tab>BODY_TOKEN_1<space>...<space>BODY_TOKEN_M URL_2<tab>... ...
LINK_INDEX_FILE:
SRC_URL_1<tab>DEST_URL_1<tab>ANCHOR_TOKEN_1<space>...<space>ANCHOR_TOKEN_N SRC_URL_1<tab>DEST_URL_2<tab>ANCHOR_TOKEN_1<space>...<space>ANCHOR_TOKEN_N' ... SRC_URL_2<tab>... ...
-
各自が設計したテーブルに合わせて収集データを適当に加工・整形し,DBに挿入
-
インデックスの有無による性能(SQL実行時間)の差異を検証
- 課題に取り組んでいる時にバグを見つけたら教えてください(Issueに投稿でもOK)
- 自分で解決した場合,どのようにしたかを教えてくれると助かります(Pull RequestでもOK)