Skip to content

Latest commit

 

History

History

stoppord

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 

Stoppord

Filer

  • 438 svenska stoppord, som är väligt inkluderande för vad som räknas som stoppord där även värdeord finns med (CSV).
  • 330 svenska stoppord, som endast innehåller de vanligaste småorden oberoende av typen av text (CSV). Använd denna om du är osäker på vilken du ska använda!
  • 285 svenska politiska stoppord, som framför allt är lämplig för att användas inom politik (CSV). Framför allt baserad på stoppord.csv.

Datastruktur

Kolumn Beskrivning Datatyp
word Stoppord Text

Källa

Se även

Källkod

Python

# Import stop words.
import pandas as pd

def get_stopwords(wordlist = "standard"):
    if wordlist == "standard":
        url = "https://raw.githubusercontent.com/peterdalle/svensktext/master/stoppord/stoppord.csv"
    elif wordlist == "many":
        url = "https://raw.githubusercontent.com/peterdalle/svensktext/master/stoppord/stoppord-mycket.csv"
    elif wordlist == "politics":
        url = "https://raw.githubusercontent.com/peterdalle/svensktext/master/stoppord/stoppord-politik.csv"
    else:
        raise ValueError("Argument 'wordlist' must be 'standard', 'many' or 'politics', not '{}'.".format(wordlist))
    return pd.read_csv(url, header=1, encoding="utf-8")

# Print stop words.
stopwords = get_stopwords()
stopwords["word"]

R

# Import stop words.
get_stopwords <- function(wordlist = "standard") {
  if (wordlist == "standard") {
    url <- "https://raw.githubusercontent.com/peterdalle/svensktext/master/stoppord/stoppord.csv"
  } else if (wordlist == "many") {
    url <- "https://raw.githubusercontent.com/peterdalle/svensktext/master/stoppord/stoppord-mycket.csv"
  } else if (wordlist == "politics") {
    url <- "https://raw.githubusercontent.com/peterdalle/svensktext/master/stoppord/stoppord-politik.csv"
  } else {
    stop(paste0("Argument 'wordlist' must be 'standard', 'many' or",
                " 'politics', not '", wordlist, "'."), call.=FALSE)
  }
  return(read.csv(url, header=TRUE, encoding="UTF-8", stringsAsFactors=FALSE,
                  col.names=c("word")))
}

# Print stopwords.
stopwords <- get_stopwords()
stopwords$word