Овај репозиторијум настоји да прикупи што већи број речи на српском језику, у лако читљивом формату тако да се може користити за даљу машинску обраду. Речи су дате у облику обичног текстуалног фајла, при чему је свака реч написана у посебном реду.
Списак је настао обједињавањем више различитих спискова који се тренутно могу пронаћи на интернету. Властите именинице написане су великим почетним словом.
База тренутно садржи 2.788.833 речи, сортираних у азбучном реду и без дупликата. Доступне су и ћириличне и латиничне верзије.
Списак је настао обрадом и сортирањем речи прикупљених са следећих локација:
- Hunspell речник за српски језик
- Списак српских речи из пројекта LanguageTools
- Списак речи које прикупља корисник "reader" са mycity.rs форума
- Списак речи из пројекта Serbian Language Pipeline for Spacy
- Српски речник пројекта Android LatinIME
- Списак српских имена и српских презимена Фондације Гласник
- Списак српских имена и њихових вокатива
- Језичка лабораторија
Уколико сматрате да постоји грешка у неким речима или сте пронашли речи које недостају, pull request-ови су и више него добродошли.