Ÿoric | Yo Restoration In Context

Йорик — умное восстановление буквы «ё» в русских текстах. Умное, потому что учитывает контекст.

Проблема

При работе с текстом на русском языке часто возникает потребность восстановить в словах оригинальную букву «ё», например, для улучшения читаемости или единообразия стиля письма. Кроме того, крайне желательно учитывать разницу между «е» и «ё» при обработке текстов в задачах машинного обучения, в частности, при распознавании и синтезе речи.

Однако в открытых инструментах для восстановления буквы «ё», таких как eyo-kernel, при замене слов не учитывается их контекст. Это приводит к тому, что слова можно восстановить только в однозначных случаях, когда слово без «ё» не употребляется, например:

ежик = ёжик
амеба = амёба
матрешка = матрёшка
...

но не в случаях, когда буква зависит от контекста:

передохнём (отдохнём) != передохнем (умрём)
лён (ткань)           != лен (феодальное владение)
съём (жилья)          != съем (скушаю)
всё (everything)      != все (everyone)
Лёне (Голубкову)      != Лене (Голубковой)
...

Таким образом, существующие инструменты в спорных случаях лишь предлагают варианты для ручной модерации, что делает их неприменимыми для обработки больших объемов текстов в автоматическом режиме.

Цель проекта

Реализовать инструмент для полностью автоматического контекстно-зависимого восстановления буквы «ё» при помощи методов машинного обучения.

Особенности

Проверка и восстановление буквы «ё» в русских текстах, вместо написанной «е»
Замена «е» на «ё» с учетом контекста
Исправление в словах нескольких букв «е», «ё»
Корректная обработка сокращений («мед. училище», но не «мёд. училище»)
Аббревиатуры не обрабатываются

Разработка

Подробные гайды по разработке в репозитории доступны в docs/development.md. Рекомендации по добавлению своих ML-экспериментов в docs/experiments.md.

Name		Name	Last commit message	Last commit date
Latest commit History 48 Commits
.dvc		.dvc
data		data
docs		docs
model		model
notebooks		notebooks
reports		reports
scripts		scripts
tests		tests
yoric		yoric
.dvcignore		.dvcignore
.flake8		.flake8
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
.pylintrc		.pylintrc
Makefile		Makefile
README.md		README.md
dvc.lock		dvc.lock
dvc.yaml		dvc.yaml
params.yaml		params.yaml
pyproject.toml		pyproject.toml
readme-en.md		readme-en.md
readme-ru.md		readme-ru.md
requirements.txt		requirements.txt
setup.py		setup.py
yoric.svg		yoric.svg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Ÿoric | Yo Restoration In Context

Проблема

Цель проекта

Особенности

Разработка

Ссылки

About

Releases

Contributors 2

Languages

stllfe/yoric

Folders and files

Latest commit

History

Repository files navigation

Ÿoric | Yo Restoration In Context

Проблема

Цель проекта

Особенности

Разработка

Ссылки

About

Resources

Stars

Watchers

Forks

Releases

Contributors 2

Languages