-
Notifications
You must be signed in to change notification settings - Fork 1
experimental korean dictionary for MeCab
License
recrack/mecab-kdic
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
MeCab 용 한국어 사전입니다. 사용하는 방법 ------------- 이 프로젝트 파일을 다운받고 그 디렉토리를 kdic 이라 할 때 cd kdic make seed 디렉토리에는 사전을 생성하기 위한 필수 파일이 위치합니다. make 하면 tagged-text 파일로부터 ./corpus ./seed/kdic.csv 가 생성되고 ./final/pos-id.def ./seed/pos-id.def 파일이 생성됩니다. final 디렉토리에는 최종 생성된 사전이 위치합니다. make 로 생성된 파일을 제거하기 위해서는 make clean 파일 설명 --------- unk.def 알 수없는 단어를 위한 파일입니다. 표층 부분이 char.def에 범주화되어 있는데 그 범주 이름으로 된 파일입니다. 각 범주에 대해 어떤 소생(素生)열을 부여하는지를 정의합니다. 하나의 범주에 여러 소성을 정의해도 괜찮습니다. r-id, l-id, cost 부분을 0,0,0으로 놓아두면 학습 후 적절한 비용값이 자동으로 부여됩니다. 예 HANGEUL,0,0,0,기호,*,* HANGEUL,0,0,0,체언,*,* 사전 csv 형식 ------------- 표층형,왼쪽문맥ID,오른쪽문맥ID,비용,품사,품사세분류1,품사세분류2,품사세분류3 또한 자신이 좋아하는 정보를 CSV가 허락하는 범위 내에서 추가해도 괜찮습니다. 예 사용자설정,0,0,0,체언,명사,일반명사,사용자설정,사용자설정,사용자설정,추가항목 엔트리의 포맷(활용어) --------------------- mecab은 해석 중에 전개하지 않고, 사전 작성 시에 정적으로 전개하는 방침(정적 활용 전개)을 취하고 있습니다. 활용어의 경우, 이용자가 사전에 활용을 확장해야 합니다. 알 수 없는 단어 처리의 외부 정의 -------------------------------- MeCab 0.90에서는 사용자가 알 수 없는 언어 처리 전략을 자유롭게 정의할 수 있습니다. 기본적인 전략으로 문자 종류에 따라 띄어쓰기를 실시합니다. 문자 종류 자체의 정의(어떤 문자 코드가 어떤 문자 종류에 맞는지) 각 글자 종류에 대한 띄어쓰기 정의(그룹화 또는 N 문자씩 구성), 띄어쓰기된 것에 어떠한 품사를 허용하는가, 사용자가 스스로 정의할 수 있습니다. TODO ---- 1. rewrite.def, feature.def 를 다듬어야 합니다. 2. tagged-text 파일 작성 사용권(license) --------------- LGPL 사용권으로 제공됩니다. COPYING 파일을 참고하세요. 주의 ---- 저작권이 만료된 문서들로만 작업합니다. 만료저작물 조회 http://freeuse.copyright.or.kr/expiration/list.do
About
experimental korean dictionary for MeCab
Resources
License
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published