You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
{{ message }}
This repository has been archived by the owner on Aug 23, 2023. It is now read-only.
말씀하시는 텍스트가 언어모델로 만들어진 ARPA 파일을 말씀하시는 것이 맞는지요?
normalize 되어 있지 않은 full-text는 공개하는데 문제가 있겠지요.
하지만 장기적으로는 normalize 혹은 transliteration 되어 있지 않은 n-gram 공개에 대해서는 생각중입니다.
다만 빠른 시일이 될 것 같지는 않습니다. 다시 모어코인을 시작할 때, 3분기 즈음 가능할 것 같네요
좋은 질문이시네요. 사실 학습을 위한 오디오에 대응하는 텍스트가 원래 어떤 형태일 지를 예측할 수 없기 때문에, 저희 내부적으로는 normalization pipleline 을 처리하여 사용합니다. 공개할 된 코드에는 해당 파이프라인이 처리가 되어 학습에 용이한 형태로 바뀐 상태이네요. 검토해 보겠습니다.
Sign up for freeto subscribe to this conversation on GitHub.
Already have an account?
Sign in.
안녕하세요? OpenSLR 를 다운로드하여 압축을 풀고 텍스트 파일을 열어보니, 숫자나 영어단어, 구둣점 등이 전부 README에 설명된 방식으로 Transliterate/Normalize 되어 있는 것으로 보입니다.
혹시 위 OpenSLR 에 공개된 텍스트 데이터에 한하여, 각 문장들이 Normalize 되기 전 단계의 텍스트 데이터 또한 정리되어 있을지요? 혹시 공개가 가능하다면 어떻게 받을 수 있을지 문의드립니다.
The text was updated successfully, but these errors were encountered: