parser-pdt.ini

# Konfigurace DZ Parseru
# Configuration of the DZ Parser

# Je-li atribut uveden opakovaně, použije se poslední hodnota!
# If an attribute appears more than once, the last value will be used!



###############################################################################
# Vstup a výstup
# Input and output
###############################################################################

# Atributy rezim a ticho určují, kam se bude vypisovat. Atributy ukecanost a testovat určují, co se bude vypisovat.
# The rezim and ticho attributes specify where the output goes. The ukecanost and testovat attributes specify what gets printed out.

# V režimu normal se čte STDIN, píše se na STDOUT a STDERR a nevznikají soubory na disku.
# V režimu debug se vytvářejí číslované výstupní soubory v pracovní složce. Některé z nich mohou být kopírovány na STDOUT.
# Po skončení programu jsou v režimu debug zaslány výsledky testu a doba trvání programu mailem Danovi.
# If rezim=normal, STDIN is read, STDOUT and STDERR are written and no files are created on the disk.
# If rezim=debug, numbered output files are created in the working folder. Some of them can be duplicated to STDOUT.
# After finishing the run in debug mode the test results and the program duration time are mailed to Dan.
rezim = debug

# V tichém režimu se nic neposílá na standardní výstup, vše jen do souborů. Uplatní se jen v režimu debug.
# If ticho=1, nothing is sent to the standard output, everything goes to files. Applies to rezim=debug only.
ticho = 0

# Testovat úspěšnost? (Pouze pro parse.pl. Předpoklad: vstupní data obsahují správné odpovědi.)
# Test accuracy? (For parse.pl only. Assumption: the input data contains the correct answers.)
testovat = 1

# Jaká hlášení vypisovat (kromě natrénovaného modelu, analyzovaného textu a výsledků testu)?
# What messages to display (besides the trained model, parsed text and test results)?
# 0 .... pouze kritické chyby                   | fatal errors only
# 1 .... 0 + průběh práce                       | 0 + job progress
# 2 .... 1 + otisk konfigurace                  | 1 + configuration snapshot
# -1 ... jako 1 když rezim=normal, jako 2 jinak | as 1 if rezim=normal, as 2 otherwise
# -2 ... jako 0 když rezim=normal, jako 2 jinak | as 0 if rezim=normal, as 2 otherwise
ukecanost = -1

# Kódování dat. Parser na znalosti kódování moc nezávisí (pokud použijete stejné kódování při tréninku i při testu),
# ale potřebujeme ho znát kvůli zobrazování příkladů v terminálu.
# Encoding of the data. The parser depends little on the knowledge of the encoding (as long as you use the same encoding
# for training and test) but we need to know it in order to display examples in the terminal.
kodovani_data = utf8

# Kódování diagnostických hlášení na STDERR. Pro cmd.exe v českých Windows použijte cp852. Výchozí je iso-8859-2.
# Encoding of the diagnostic messages at STDERR. For cmd.exe in Czech Windows use cp852. Default is iso-8859-2.
kodovani_stderr = utf8

# Kódování diagnostických hlášení zapsaných do souborů. Pro prohlížení v českých Windows použijte cp1250. Výchozí je iso-8859-2.
# Encoding of the diagnostic messages written to files. For viewing in Czech Windows use cp1250. Default is iso-8859-2.
kodovani_log = utf8

# Poznámka: Kódování analyzovaného textu nelze ovlivnit. Je stejné jako na vstupu a mělo by být stejné jako u trénovacích dat.
# Note: The encoding of the parsed text cannot be changed. It is same as encoding of input and should be same as encoding of training data.

# Cesta k trénovacím datům. Pomocí zástupných znaků * a ? lze určit více než jeden soubor. Pomlčka ("-") znamená standardní vstup.
# Path to the training data. May contain * and ? wildcards to specify more than one file. A dash ("-") means standard input.
#train = /home/zeman/data/pdt/1.0/trainmm.utf.csts
train = /home/zeman/data/pdt/2.0/trainmm.utf.csts

# Cesta k datům, která mají být analyzována (testovací data). Lze použít zástupné znaky. Pomlčka znamená standardní vstup.
# Path to the data to be parsed (test data). Wildcards may be used. A dash means standard input.
#test  = /home/zeman/data/pdt/1.0/testmm.utf.csts
test = /home/zeman/data/pdt/2.0/dtestmm.utf.csts
#test = /home/zeman/data/pdt/2.0/etestmm.utf.csts

# Pracovní složka pro ukládání statistik, částečně zpracovaných dat aj. Pouze pro rezim=debug.
# Working folder for saving statistics, partially processed data etc. Only for rezim=debug.
prac = pracovni

# Název souboru se statistikou událostí (v pracovní složce).
# Pokud je prázdný, parse.pl vybere v pracovní složce soubor s nejvyšším číslem a příponou ".stat".
# Ovlivňuje vstup parse.pl, ale ne výstup train.pl.
# Name of the file with the event statistics (in the working folder).
# If empty, parse.pl selects the file with the highest number and the extension ".stat" in the working folder.
# Affects only the input of parse.pl, not the output of train.pl.
stat = 
# Případná druhá statistika pro porovnání změn v úspěšnosti.
# Possible second statistics to compare accuracies.
stat1 =

# Název souboru se seznamem vazeb (rámců) sloves. Musí být uveden pouze když valence nebo valence1 = 1.
# Name of the file with the list of verb frames. Must only be set if valence or valence1 = 1.
subcat = ../valence/seznam_ramcu.txt



###############################################################################
# Parametry tréninku i testu (při změně nutno přetrénovat!)
###############################################################################
# Seznam s-značek, které se nesmí ve větě vyskytnout, jinak bude vynechána.
# Značky jsou odděleny svislítkem, např. ExD|Coord|Apos. Nemá-li být vynechána
# žádná věta, vynech = 0.
#vynech = ExD|Coord|Apos
#vynech = ExD
vynech = 0
# Tzv. pseudovalence ano nebo ne? (0 nebo 1)
# Jde o to, že slovesům se sčítá jejich čistě značková a heslová prst.
pseudoval = 1
# Překroutit složené předložky, aby visely podle mě, ne podle PDT? (0 nebo 1)
nevlastni_predlozky = 1
# Upravovat morfologické značky? (Závislé na konkrétním jazyku a sadě značek.)
# 0 = žádné změny značek
# 1 = změny přibližně jako v Baltimoru
# 2 = změny přibližně jako u Collinse
upravovat_mzn = 2
# Provádět tzv. selektivní lexikalizaci m-značek? (0 nebo 1)
# Pokud ano, přidá se například do značky pro předložku lemma předložky.
# Pozor, selex=1 nefunguje, jestliže upravovat_mzn!=2.
selex = 1
# Selektivní lexikalizace každého slovního druhu zvlášť. Pokud je selex=0,
# k těmto hodnotám už se nepřihlíží.
# Svým způsobem by sem patřilo i výše uvedené pseudoval jako selex_slovesa.
selex_predlozky = 1
selex_podradici_spojky = 1
selex_zajmena = 1
selex_prislovce_100 = 1
selex_byt = 1
# Parametrizovat pravděpodobnost závislosti otázkou, zda na navrhovaném rodiči
# už visí jiný uzel se stejnou značkou jako navrhované dítě? Při trénování se
# u každého uzlu zjišťuje, zda má alespoň jednoho takového sourozence, a pokud
# ano, příznak se nastaví u obou. Není to sice pravděpodobnostně korektní, protože
# při analýze bude odpověď kladná jen u jednoho z obou sourozenců, ale nemá smysl
# implementovat to pečlivěji, protože výsledný efekt je stejně negativní.
zarlivost = 0
# Druh zdroje morfologických značek: MM, MD nebo prázdný řetězec (= ručně).
# Poznámka: přetrénování není nezbytné, ale vhodné.
mzdroj0 = MD
# Zdroj morfologických značek: atribut src (např. <MDt src="a">)
# Poznámka: přetrénování není nezbytné, ale vhodné.
mzdroj1 = a
# Odlišovat koordinace od pravých závislostí?
koordinace = 1
# Brát v úvahu vzdálenost?
# vzdalenost = 0 ... vzdálenost se nezohledňuje v žádné podobě
# vzdalenost = 2 ... parametrem pro váhu závislosti je soused/nesoused
# vzdalenost = 3 ... parametrem pro váhu závislosti je soused/nesoused/čárka
vzdalenost = 3
# vzdalenost_delitel = 1 ... nezávislé na výše uvedených: váha závislosti se dělí vzdáleností
vzdalenost_delitel = 1
# Závislosti na kořeni nerozlišují směr, ale zato kontrolují přítomnost slovesa ve
# větě. Pozor, při změně tohoto přepínače se musí přetrénovat!
pod_korenem_sloveso_misto_smeru = 1
# Omezit velikost trénovacích dat? Pokud tu není nula, trénink se zastaví po N větách a vypíše počet slov.
max_trenovacich_vet = 0
# Technický problém s velikostí paměti: rozdělit trénovací data do úseků o
# níže uvedeném počtu zjištěných událostí.
#split = 300000



###############################################################################
# Parametry testu (při změně není nutno přetrénovat).
###############################################################################
# Způsob budování stromu: zakázat (0) neprojektivity, nebo je v omezené míře
# povolit (1)?
neproj = 1
# Způsob budování stromu (komponentově, nebo shora dolů). Shora dolů lze použít
# pouze při neproj = 0, neprojektivity jsou v něm však povoleny libovolně.
#!!! Pozor, komponentove=0 momentálně (20.7.2004) způsobí zacyklení výpočtu!
komponentove = 1
# Způsob výběru závislého uzlu, který má být na řadě.
vyberzav = relativni-cetnost
# Způsob ohodnocení závislosti (absolutní četnost (1), nebo relativní vzhledem
# k počtu výskytů závislého uzlu (0)?)
abscetnost = 0
# Druh pravděpodobnostního modelu.
model = ls*slova+lz*znacky
# Váha modelu závislostí slov v kombinovaném modelu slova+značky.
ls = 0.734375
#ls = 1
# Upřednostňovat valenční závislosti?
valence = 0
# Kontrolovat po sestavení prvního návrhu stromu, zda jsou naplněné valenční rámce?
valence1 = 0
# Omezení počtu návratů při hledání lepšího naplnění valenčních rámců.
valence1_maxnavratu = 100
# Omezení počtu generovaných stavů při hledání lepšího naplnění valenčních rámců.
valence1_maxgenstav = 50000
# Uplatnit zvláštní zacházení na vztažné vedlejší věty?
vztaz = 1
# Povolit lokální konflikty (koordinace)?
lokon = 1
# Kromě celkové úspěšnosti sledovat zvlášť úspěšnost na následujících
# závislostech (syntaktické značky oddělené svislítky).
testafun = Sb|Obj|AuxT|Pnom|Adv
# Zakázat přeskakování bezdětných předložek?
predlozky = 1
# Násobit pravděpodobnost závislosti pravděpodobností, že řídící uzel není
# koordinační spojkou? (Stejně, jako se už teď násobí pravděpodobnost
# koordinace pravděpodobností, že řídící uzel je koordinační spojkou.)
# (a1 / a0 je zkratka pro tuto volbu v zaznam.txt)
nekoord = 1
# Zakázat přeskakování podstatných jmen v genitivu?
nepreskocg = 0
# Zakázat přeskakování určitých slovesných tvarů určitými závislostmi?
nepreskocv = 1
nepreskocv_cesta = zakazy_preskoceni.txt
# Modelovat plodnost?
# plodnost=1 ... plodnost bude zohledněna
# plodnost=0 ... plodnost nebude zohledněna
plodnost = 0
# Jakým způsobem zohlednit plodnost? (Funguje pouze pokud plodnost=1.)
# plodnost_model=ffm ... události ZPL z centrální statistiky
# plodnost_model=tfm ... jen výběr v plodnost.txt, 0-0.5-1
# plodnost_model=qfm ... jen výběr v plodnost.txt, 0-1
plodnost_model = qfm
# Zpracovat krátké věty zvláštním způsobem?
# krvety = 1 ... ano
# krvety = 0 ... ne, ale při trénování se potřebné statistiky stejně sbírají
krvety = 1
# Vyhodnocovat morfologické vzory pro n-tice, které mají v 90% stejnou strukturu?
# ntice = 1 ... ano, statistiky musejí být k dispozici ve zvláštních souborech
# ntice = 0 ... ne
ntice = 1
# PEVNÁ OMEZENÍ, KTERÁ NEMAJÍ NIC SPOLEČNÉHO SE STATISTIKOU
# Zavěšovat koncovou interpunkci povinně pod kořen?
koncint = 1
# Má být počet dětí kořene omezen na 2?
koren_2_deti = 1
# Má se hlídat, aby z úseku mezi dvěma čárkami nevedla žádná závislost ven, dokud
# nejsou všechny uzly až na jeden zavěšeny v podstromu toho jednoho nezavěšeného?
mezicarkove_useky = 1
# Vyžadovat, aby čárky byly listy, tj. aby zůstaly bezdětné?
carka_je_list = 1
# Zahrnout do vyhodnocení několik nejlepších závislostí pro každé slovo?
nekolik_nejlepsich_zavislosti = 0