OpenSLR 의 text data의 Transliterate/Normalize되지 않은 text 문의 #10

combacsa · 2019-04-16T15:53:17Z

안녕하세요? OpenSLR 를 다운로드하여 압축을 풀고 텍스트 파일을 열어보니, 숫자나 영어단어, 구둣점 등이 전부 README에 설명된 방식으로 Transliterate/Normalize 되어 있는 것으로 보입니다.

혹시 위 OpenSLR 에 공개된 텍스트 데이터에 한하여, 각 문장들이 Normalize 되기 전 단계의 텍스트 데이터 또한 정리되어 있을지요? 혹시 공개가 가능하다면 어떻게 받을 수 있을지 문의드립니다.

jty016 · 2019-04-16T16:48:34Z

말씀하시는 텍스트가 언어모델로 만들어진 ARPA 파일을 말씀하시는 것이 맞는지요?
normalize 되어 있지 않은 full-text는 공개하는데 문제가 있겠지요.
하지만 장기적으로는 normalize 혹은 transliteration 되어 있지 않은 n-gram 공개에 대해서는 생각중입니다.
다만 빠른 시일이 될 것 같지는 않습니다. 다시 모어코인을 시작할 때, 3분기 즈음 가능할 것 같네요

combacsa · 2019-04-16T18:16:56Z

아, 예를 들면, OpenSLR 에 올라와 있는 zeroth_korean.tar.gz 파일의 압축을 풀어보면, train_data_01 폴더의 003 폴더의 198 폴더의 198_003.trans.txt 파일을 보면,

198_003_0697 가계 주거비는 이천 십 삼 년 칠 쩜 공 퍼센트 이천 십 사 년 사 쩜 공 퍼센트의 증가율을 보이다가 지난해 갑자기 대폭 늘었다

이렇게 되어 있습니다. 198_003_0697.flac 파일을 들어보면, 이 문장이 원래는

가계 주거비는 2013년 7.0%, 2014년 4.0%의 증가율을 보이다가 지난해 갑자기 대폭 늘었다.

였을 것으로 보입니다. 그래서 각 flac 파일에 대하여 소리나는 대로 적힌 문장이 아닌 원래의 문장을 함께 대조해서 볼 수 있었으면 해서요. 198_003.trans_original.txt 정도의 이름으로,

198_003_0697 가계 주거비는 2013년 7.0%, 2014년 4.0%의 증가율을 보이다가 지난해 갑자기 대폭 늘었다.

이런 식으로 되어 있는 txt 파일들도 함께 있는 것 정도는, transcript 파일과 대응되는 한계 내에서는 full-text 공개가 가능하지 않을지 싶어서 문의드립니다.

jty016 · 2019-04-18T04:23:20Z

좋은 질문이시네요. 사실 학습을 위한 오디오에 대응하는 텍스트가 원래 어떤 형태일 지를 예측할 수 없기 때문에, 저희 내부적으로는 normalization pipleline 을 처리하여 사용합니다. 공개할 된 코드에는 해당 파이프라인이 처리가 되어 학습에 용이한 형태로 바뀐 상태이네요. 검토해 보겠습니다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

OpenSLR 의 text data의 Transliterate/Normalize되지 않은 text 문의 #10

OpenSLR 의 text data의 Transliterate/Normalize되지 않은 text 문의 #10

combacsa commented Apr 16, 2019

jty016 commented Apr 16, 2019

combacsa commented Apr 16, 2019

jty016 commented Apr 18, 2019

OpenSLR 의 text data의 Transliterate/Normalize되지 않은 text 문의 #10

OpenSLR 의 text data의 Transliterate/Normalize되지 않은 text 문의 #10

Comments

combacsa commented Apr 16, 2019

jty016 commented Apr 16, 2019

combacsa commented Apr 16, 2019

jty016 commented Apr 18, 2019