clean the code

xiaoxiaobear · Sep 11, 2018 · 04775e6 · 04775e6
1 parent 5fc92e2
commit 04775e6
Show file tree

Hide file tree

Showing 13 changed files with 220 additions and 126 deletions.
diff --git a/.idea/workspace.xml b/.idea/workspace.xml
diff --git a/util.py → data.py b/util.py → data.py
diff --git a/emb_build/tran_emb.py b/emb_build/tran_emb.py
@@ -0,0 +1,27 @@
+import word2vec
+import fire
+
+paths = ['raw_word.txt', 'raw_article.txt']
+sizes = [300]
+
+
+def tran(path):
+    model = word2vec.load(path)
+    vocab, vectors = model.vocab, model.vectors
+    print(path)
+    print('shape of word embeddings : ')
+    print(vectors.shape)
+
+    new_path = path.split('.')[0] + '_.txt'
+    print('Transform start....')
+    f = open(new_path, 'w')
+    for word, vector in zip(vocab, vectors):
+        f.write(str(word) + ' ' + ' '.join(map(str, vector)) + '\n')
+    print('Transform Complete!\n')
+
+
+for path in paths:
+    for size in sizes:
+        emb_path = path.split('.')[0].split('_')[1] + '_' + str(size) + '.bin'
+        word2vec.word2vec(path, emb_path, min_count=5, size=size, verbose=True)
+        tran(emb_path)
diff --git a/fine_tune.py b/fine_tune.py
@@ -10,7 +10,7 @@
 import time
 import torch.nn.functional as F
 import models
-import util
+import data
 import pandas as pd
 import os
 import fire

diff --git a/gen_result.py b/gen_result.py
@@ -9,7 +9,7 @@
 import torch
 import models
 from config import DefaultConfig
-import util
+import data
 import fire
 import numpy as np
 import torch.nn.functional as F

diff --git a/main.py b/main.py
@@ -10,7 +10,7 @@
 import time
 import torch.nn.functional as F
 import models
-import util
+import data
 from config import DefaultConfig
 import pandas as pd
 import os
@@ -30,7 +30,7 @@ def main(**kwargs):
         args.device = None
         torch.manual_seed(args.seed)  # set random seed for cpu
 
-    train_iter, val_iter, test_iter, args.vocab_size, vectors = util.load_data(args)
+    train_iter, val_iter, test_iter, args.vocab_size, vectors = data.load_data(args)
 
     args.print_config()
 

diff --git a/main_boost.py b/main_boost.py
@@ -10,7 +10,7 @@
 import time
 import torch.nn.functional as F
 import models
-import util
+import data
 from config import DefaultConfig
 import pandas as pd
 import os

diff --git a/boost.sh → script/boost.sh b/boost.sh → script/boost.sh
diff --git a/run.sh → script/run.sh b/run.sh → script/run.sh
diff --git a/tune.sh → script/tune.sh b/tune.sh → script/tune.sh
diff --git a/val_gen.sh → script/val_gen.sh b/val_gen.sh → script/val_gen.sh
diff --git a/test_ensemble.py b/test_ensemble.py
@@ -8,7 +8,7 @@
 
 import torch
 import models
-import util
+import data
 import numpy as np
 import torch.nn.functional as F
 import pandas as pd

diff --git a/util/split_val.py b/util/split_val.py
@@ -0,0 +1,18 @@
+import pandas as pd
+import numpy as np
+import random
+
+train_data = pd.read_csv('/data/yujun/captain/datasets1/train_set.csv')
+val_data = pd.read_csv('/data/yujun/captain/datasets1/val_set.csv')
+test_data = pd.read_csv('/data/yujun/datasets/daguanbei_data/test_set.csv')
+print('raw data loaded!')
+
+train_data[['word_seg', 'class']].to_csv('word/train_set.csv')
+val_data[['word_seg', 'class']].to_csv('word/val_set.csv')
+test_data[['id', 'word_seg']].to_csv('word/test_set.csv')
+print('word data made!')
+
+train_data[['article', 'class']].to_csv('article/train_set.csv')
+val_data[['article', 'class']].to_csv('article/val_set.csv')
+test_data[['id', 'article']].to_csv('article/test_set.csv')
+print('article data made!')