Machine Translation Service for Scientific Articles
Разработка веб-сервиса, позволяющего переводить научные статьи с русского языка на английский.
В течение десяти лет я сотрудничала с издательством научной литературы Pleiades Publishing, что позволило накопить обширную базу статей и их переводов для использования в качестве обучающих данных. Современные SOTA модели машинного перивода хорошо справляются с грамматикой, но иногда могут неточно переводить отдельные термины, что недопустимо в научном переводе. Мы надеемся, что дообучение модели nllb на собранных данных позволит улучшить качество перевода.
- Сбор и предобработка корпуса параллельных текстов для улучшения качества перевода
- Дообучение нейросетевой модели nllb (https://huggingface.co/docs/transformers/model_doc/nllb) на парах предложений из собранного корпуса
- Интеграция базы данных для хранения и управления загруженными статьями, данными для обучения и результатами переводов.
- Создание пользовательского интерфейса, позволяющего загружать статьи и получать их переводы. Как минимум - без сохранения внутренней структуры документа, текстовый формат. Как максимум - возможность загрузки пдф, перевод с сохранением деления на разделы.
- Разработка системы оценки качества переводов. Есть эксперты, которых можно привлечь для оценки качества.