Словник для гри Кобза
Цей код генерує словник для гри Кобза. Результат включає в себе набір валідних п'ятибуквених словоформ української мови для загадування і відгадування слів. Список фільтрується за певними критеріями, відібраними розробниками (в нього не входять вульгаризми, відмінки тощо).
В якості вихідного корпусу слів використовується Великий Електронний Словник Української Мови ВЕСУМ.
Для запуску необхідно скопіювати машиночитний файл dict_corp_lt.txt
з ВЕСУМ в корінь проєкту і запустити python extract_dict.py
.
Результат роботи знаходиться в папці out:
- kobza_filtered_dict.txt - словник з метаінформацією
- kobza_filtered_dict_words.txt - просто список відфільтрованих слів
Результуючий словник знаходиться під ліцензією Сreative Commons BY-NC-SA, як і вихідний набір даних. Код фільтру доступний без обмежень (ліцензія MIT).