Skip to content
This repository has been archived by the owner on Aug 23, 2023. It is now read-only.

OpenSLR 의 text data의 Transliterate/Normalize되지 않은 text 문의 #10

Open
combacsa opened this issue Apr 16, 2019 · 3 comments

Comments

@combacsa
Copy link

안녕하세요? OpenSLR 를 다운로드하여 압축을 풀고 텍스트 파일을 열어보니, 숫자나 영어단어, 구둣점 등이 전부 README에 설명된 방식으로 Transliterate/Normalize 되어 있는 것으로 보입니다.

혹시 위 OpenSLR 에 공개된 텍스트 데이터에 한하여, 각 문장들이 Normalize 되기 전 단계의 텍스트 데이터 또한 정리되어 있을지요? 혹시 공개가 가능하다면 어떻게 받을 수 있을지 문의드립니다.

@jty016
Copy link
Contributor

jty016 commented Apr 16, 2019

말씀하시는 텍스트가 언어모델로 만들어진 ARPA 파일을 말씀하시는 것이 맞는지요?
normalize 되어 있지 않은 full-text는 공개하는데 문제가 있겠지요.
하지만 장기적으로는 normalize 혹은 transliteration 되어 있지 않은 n-gram 공개에 대해서는 생각중입니다.
다만 빠른 시일이 될 것 같지는 않습니다. 다시 모어코인을 시작할 때, 3분기 즈음 가능할 것 같네요

@combacsa
Copy link
Author

아, 예를 들면, OpenSLR 에 올라와 있는 zeroth_korean.tar.gz 파일의 압축을 풀어보면, train_data_01 폴더의 003 폴더의 198 폴더의 198_003.trans.txt 파일을 보면,

198_003_0697 가계 주거비는 이천 십 삼 년 칠 쩜 공 퍼센트 이천 십 사 년 사 쩜 공 퍼센트의 증가율을 보이다가 지난해 갑자기 대폭 늘었다

이렇게 되어 있습니다. 198_003_0697.flac 파일을 들어보면, 이 문장이 원래는

가계 주거비는 2013년 7.0%, 2014년 4.0%의 증가율을 보이다가 지난해 갑자기 대폭 늘었다.

였을 것으로 보입니다. 그래서 각 flac 파일에 대하여 소리나는 대로 적힌 문장이 아닌 원래의 문장을 함께 대조해서 볼 수 있었으면 해서요. 198_003.trans_original.txt 정도의 이름으로,

198_003_0697 가계 주거비는 2013년 7.0%, 2014년 4.0%의 증가율을 보이다가 지난해 갑자기 대폭 늘었다.

이런 식으로 되어 있는 txt 파일들도 함께 있는 것 정도는, transcript 파일과 대응되는 한계 내에서는 full-text 공개가 가능하지 않을지 싶어서 문의드립니다.

@jty016
Copy link
Contributor

jty016 commented Apr 18, 2019

좋은 질문이시네요. 사실 학습을 위한 오디오에 대응하는 텍스트가 원래 어떤 형태일 지를 예측할 수 없기 때문에, 저희 내부적으로는 normalization pipleline 을 처리하여 사용합니다. 공개할 된 코드에는 해당 파이프라인이 처리가 되어 학습에 용이한 형태로 바뀐 상태이네요. 검토해 보겠습니다.

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants