-
Notifications
You must be signed in to change notification settings - Fork 0
/
parser-pdt.ini
230 lines (206 loc) · 12.3 KB
/
parser-pdt.ini
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
# Konfigurace DZ Parseru
# Configuration of the DZ Parser
# Je-li atribut uveden opakovaně, použije se poslední hodnota!
# If an attribute appears more than once, the last value will be used!
###############################################################################
# Vstup a výstup
# Input and output
###############################################################################
# Atributy rezim a ticho určují, kam se bude vypisovat. Atributy ukecanost a testovat určují, co se bude vypisovat.
# The rezim and ticho attributes specify where the output goes. The ukecanost and testovat attributes specify what gets printed out.
# V režimu normal se čte STDIN, píše se na STDOUT a STDERR a nevznikají soubory na disku.
# V režimu debug se vytvářejí číslované výstupní soubory v pracovní složce. Některé z nich mohou být kopírovány na STDOUT.
# Po skončení programu jsou v režimu debug zaslány výsledky testu a doba trvání programu mailem Danovi.
# If rezim=normal, STDIN is read, STDOUT and STDERR are written and no files are created on the disk.
# If rezim=debug, numbered output files are created in the working folder. Some of them can be duplicated to STDOUT.
# After finishing the run in debug mode the test results and the program duration time are mailed to Dan.
rezim = debug
# V tichém režimu se nic neposílá na standardní výstup, vše jen do souborů. Uplatní se jen v režimu debug.
# If ticho=1, nothing is sent to the standard output, everything goes to files. Applies to rezim=debug only.
ticho = 0
# Testovat úspěšnost? (Pouze pro parse.pl. Předpoklad: vstupní data obsahují správné odpovědi.)
# Test accuracy? (For parse.pl only. Assumption: the input data contains the correct answers.)
testovat = 1
# Jaká hlášení vypisovat (kromě natrénovaného modelu, analyzovaného textu a výsledků testu)?
# What messages to display (besides the trained model, parsed text and test results)?
# 0 .... pouze kritické chyby | fatal errors only
# 1 .... 0 + průběh práce | 0 + job progress
# 2 .... 1 + otisk konfigurace | 1 + configuration snapshot
# -1 ... jako 1 když rezim=normal, jako 2 jinak | as 1 if rezim=normal, as 2 otherwise
# -2 ... jako 0 když rezim=normal, jako 2 jinak | as 0 if rezim=normal, as 2 otherwise
ukecanost = -1
# Kódování dat. Parser na znalosti kódování moc nezávisí (pokud použijete stejné kódování při tréninku i při testu),
# ale potřebujeme ho znát kvůli zobrazování příkladů v terminálu.
# Encoding of the data. The parser depends little on the knowledge of the encoding (as long as you use the same encoding
# for training and test) but we need to know it in order to display examples in the terminal.
kodovani_data = utf8
# Kódování diagnostických hlášení na STDERR. Pro cmd.exe v českých Windows použijte cp852. Výchozí je iso-8859-2.
# Encoding of the diagnostic messages at STDERR. For cmd.exe in Czech Windows use cp852. Default is iso-8859-2.
kodovani_stderr = utf8
# Kódování diagnostických hlášení zapsaných do souborů. Pro prohlížení v českých Windows použijte cp1250. Výchozí je iso-8859-2.
# Encoding of the diagnostic messages written to files. For viewing in Czech Windows use cp1250. Default is iso-8859-2.
kodovani_log = utf8
# Poznámka: Kódování analyzovaného textu nelze ovlivnit. Je stejné jako na vstupu a mělo by být stejné jako u trénovacích dat.
# Note: The encoding of the parsed text cannot be changed. It is same as encoding of input and should be same as encoding of training data.
# Cesta k trénovacím datům. Pomocí zástupných znaků * a ? lze určit více než jeden soubor. Pomlčka ("-") znamená standardní vstup.
# Path to the training data. May contain * and ? wildcards to specify more than one file. A dash ("-") means standard input.
#train = /home/zeman/data/pdt/1.0/trainmm.utf.csts
train = /home/zeman/data/pdt/2.0/trainmm.utf.csts
# Cesta k datům, která mají být analyzována (testovací data). Lze použít zástupné znaky. Pomlčka znamená standardní vstup.
# Path to the data to be parsed (test data). Wildcards may be used. A dash means standard input.
#test = /home/zeman/data/pdt/1.0/testmm.utf.csts
test = /home/zeman/data/pdt/2.0/dtestmm.utf.csts
#test = /home/zeman/data/pdt/2.0/etestmm.utf.csts
# Pracovní složka pro ukládání statistik, částečně zpracovaných dat aj. Pouze pro rezim=debug.
# Working folder for saving statistics, partially processed data etc. Only for rezim=debug.
prac = pracovni
# Název souboru se statistikou událostí (v pracovní složce).
# Pokud je prázdný, parse.pl vybere v pracovní složce soubor s nejvyšším číslem a příponou ".stat".
# Ovlivňuje vstup parse.pl, ale ne výstup train.pl.
# Name of the file with the event statistics (in the working folder).
# If empty, parse.pl selects the file with the highest number and the extension ".stat" in the working folder.
# Affects only the input of parse.pl, not the output of train.pl.
stat =
# Případná druhá statistika pro porovnání změn v úspěšnosti.
# Possible second statistics to compare accuracies.
stat1 =
# Název souboru se seznamem vazeb (rámců) sloves. Musí být uveden pouze když valence nebo valence1 = 1.
# Name of the file with the list of verb frames. Must only be set if valence or valence1 = 1.
subcat = ../valence/seznam_ramcu.txt
###############################################################################
# Parametry tréninku i testu (při změně nutno přetrénovat!)
###############################################################################
# Seznam s-značek, které se nesmí ve větě vyskytnout, jinak bude vynechána.
# Značky jsou odděleny svislítkem, např. ExD|Coord|Apos. Nemá-li být vynechána
# žádná věta, vynech = 0.
#vynech = ExD|Coord|Apos
#vynech = ExD
vynech = 0
# Tzv. pseudovalence ano nebo ne? (0 nebo 1)
# Jde o to, že slovesům se sčítá jejich čistě značková a heslová prst.
pseudoval = 1
# Překroutit složené předložky, aby visely podle mě, ne podle PDT? (0 nebo 1)
nevlastni_predlozky = 1
# Upravovat morfologické značky? (Závislé na konkrétním jazyku a sadě značek.)
# 0 = žádné změny značek
# 1 = změny přibližně jako v Baltimoru
# 2 = změny přibližně jako u Collinse
upravovat_mzn = 2
# Provádět tzv. selektivní lexikalizaci m-značek? (0 nebo 1)
# Pokud ano, přidá se například do značky pro předložku lemma předložky.
# Pozor, selex=1 nefunguje, jestliže upravovat_mzn!=2.
selex = 1
# Selektivní lexikalizace každého slovního druhu zvlášť. Pokud je selex=0,
# k těmto hodnotám už se nepřihlíží.
# Svým způsobem by sem patřilo i výše uvedené pseudoval jako selex_slovesa.
selex_predlozky = 1
selex_podradici_spojky = 1
selex_zajmena = 1
selex_prislovce_100 = 1
selex_byt = 1
# Parametrizovat pravděpodobnost závislosti otázkou, zda na navrhovaném rodiči
# už visí jiný uzel se stejnou značkou jako navrhované dítě? Při trénování se
# u každého uzlu zjišťuje, zda má alespoň jednoho takového sourozence, a pokud
# ano, příznak se nastaví u obou. Není to sice pravděpodobnostně korektní, protože
# při analýze bude odpověď kladná jen u jednoho z obou sourozenců, ale nemá smysl
# implementovat to pečlivěji, protože výsledný efekt je stejně negativní.
zarlivost = 0
# Druh zdroje morfologických značek: MM, MD nebo prázdný řetězec (= ručně).
# Poznámka: přetrénování není nezbytné, ale vhodné.
mzdroj0 = MD
# Zdroj morfologických značek: atribut src (např. <MDt src="a">)
# Poznámka: přetrénování není nezbytné, ale vhodné.
mzdroj1 = a
# Odlišovat koordinace od pravých závislostí?
koordinace = 1
# Brát v úvahu vzdálenost?
# vzdalenost = 0 ... vzdálenost se nezohledňuje v žádné podobě
# vzdalenost = 2 ... parametrem pro váhu závislosti je soused/nesoused
# vzdalenost = 3 ... parametrem pro váhu závislosti je soused/nesoused/čárka
vzdalenost = 3
# vzdalenost_delitel = 1 ... nezávislé na výše uvedených: váha závislosti se dělí vzdáleností
vzdalenost_delitel = 1
# Závislosti na kořeni nerozlišují směr, ale zato kontrolují přítomnost slovesa ve
# větě. Pozor, při změně tohoto přepínače se musí přetrénovat!
pod_korenem_sloveso_misto_smeru = 1
# Omezit velikost trénovacích dat? Pokud tu není nula, trénink se zastaví po N větách a vypíše počet slov.
max_trenovacich_vet = 0
# Technický problém s velikostí paměti: rozdělit trénovací data do úseků o
# níže uvedeném počtu zjištěných událostí.
#split = 300000
###############################################################################
# Parametry testu (při změně není nutno přetrénovat).
###############################################################################
# Způsob budování stromu: zakázat (0) neprojektivity, nebo je v omezené míře
# povolit (1)?
neproj = 1
# Způsob budování stromu (komponentově, nebo shora dolů). Shora dolů lze použít
# pouze při neproj = 0, neprojektivity jsou v něm však povoleny libovolně.
#!!! Pozor, komponentove=0 momentálně (20.7.2004) způsobí zacyklení výpočtu!
komponentove = 1
# Způsob výběru závislého uzlu, který má být na řadě.
vyberzav = relativni-cetnost
# Způsob ohodnocení závislosti (absolutní četnost (1), nebo relativní vzhledem
# k počtu výskytů závislého uzlu (0)?)
abscetnost = 0
# Druh pravděpodobnostního modelu.
model = ls*slova+lz*znacky
# Váha modelu závislostí slov v kombinovaném modelu slova+značky.
ls = 0.734375
#ls = 1
# Upřednostňovat valenční závislosti?
valence = 0
# Kontrolovat po sestavení prvního návrhu stromu, zda jsou naplněné valenční rámce?
valence1 = 0
# Omezení počtu návratů při hledání lepšího naplnění valenčních rámců.
valence1_maxnavratu = 100
# Omezení počtu generovaných stavů při hledání lepšího naplnění valenčních rámců.
valence1_maxgenstav = 50000
# Uplatnit zvláštní zacházení na vztažné vedlejší věty?
vztaz = 1
# Povolit lokální konflikty (koordinace)?
lokon = 1
# Kromě celkové úspěšnosti sledovat zvlášť úspěšnost na následujících
# závislostech (syntaktické značky oddělené svislítky).
testafun = Sb|Obj|AuxT|Pnom|Adv
# Zakázat přeskakování bezdětných předložek?
predlozky = 1
# Násobit pravděpodobnost závislosti pravděpodobností, že řídící uzel není
# koordinační spojkou? (Stejně, jako se už teď násobí pravděpodobnost
# koordinace pravděpodobností, že řídící uzel je koordinační spojkou.)
# (a1 / a0 je zkratka pro tuto volbu v zaznam.txt)
nekoord = 1
# Zakázat přeskakování podstatných jmen v genitivu?
nepreskocg = 0
# Zakázat přeskakování určitých slovesných tvarů určitými závislostmi?
nepreskocv = 1
nepreskocv_cesta = zakazy_preskoceni.txt
# Modelovat plodnost?
# plodnost=1 ... plodnost bude zohledněna
# plodnost=0 ... plodnost nebude zohledněna
plodnost = 0
# Jakým způsobem zohlednit plodnost? (Funguje pouze pokud plodnost=1.)
# plodnost_model=ffm ... události ZPL z centrální statistiky
# plodnost_model=tfm ... jen výběr v plodnost.txt, 0-0.5-1
# plodnost_model=qfm ... jen výběr v plodnost.txt, 0-1
plodnost_model = qfm
# Zpracovat krátké věty zvláštním způsobem?
# krvety = 1 ... ano
# krvety = 0 ... ne, ale při trénování se potřebné statistiky stejně sbírají
krvety = 1
# Vyhodnocovat morfologické vzory pro n-tice, které mají v 90% stejnou strukturu?
# ntice = 1 ... ano, statistiky musejí být k dispozici ve zvláštních souborech
# ntice = 0 ... ne
ntice = 1
# PEVNÁ OMEZENÍ, KTERÁ NEMAJÍ NIC SPOLEČNÉHO SE STATISTIKOU
# Zavěšovat koncovou interpunkci povinně pod kořen?
koncint = 1
# Má být počet dětí kořene omezen na 2?
koren_2_deti = 1
# Má se hlídat, aby z úseku mezi dvěma čárkami nevedla žádná závislost ven, dokud
# nejsou všechny uzly až na jeden zavěšeny v podstromu toho jednoho nezavěšeného?
mezicarkove_useky = 1
# Vyžadovat, aby čárky byly listy, tj. aby zůstaly bezdětné?
carka_je_list = 1
# Zahrnout do vyhodnocení několik nejlepších závislostí pro každé slovo?
nekolik_nejlepsich_zavislosti = 0