Smilegate AI에서 공개하는 한국어 혐오표현 "
본 데이터셋에서의 혐오(hate)표현은 “사회적·역사적으로 차별과 억압을 받아온 소수자 집단의 정체성을 그 대상으로 하여 공격을 일삼는 표현” 으로 정의합니다.
- 혐오의 대상이 집단으로서 명확히 지칭된 악플/비난/비하/차별발언
- 대상에 대한 고정관념 (e.g. 동양인은 수학 잘하지 않아?, 역시 흑형이라 운동을 잘하네)
- 대상을 강제로 고착화하는 발언 (e.g. 여자는 집에서 애나 봐야지!, 임신은 축복이지!, 게이는 잘생겨야지)
- 화자가 속한 집단에 대한 혐오발언 (e.g. 나도 급식이지만, 하여간 급식충들 ㅉㅉㅉ)
- 화자 스스로를 자조적으로 표현하는 경우는 혐오 발언이 아님 (e.g. 아 내가 급식충이다!)
단일 데이터는 [혐오표현, 악플/욕설, clean]으로 분류될 수 있으며, 혐오 표현은 다중 레이블(multi-label)로 전문가 집단을 통해 레이블링되었습니다.
항목 | 문장 수 |
---|---|
혐오표현 | 10,136 |
악플/욕설 | 3,859 |
Clean | 4,696 |
Total | 18,742 |
문장 | 여성/가족 | 남성 | 성소수자 | 인종/국적 | 연령 | 지역 | 종교 | 기타혐오 | 악플/욕설 | clean | 개인 지칭 |
---|---|---|---|---|---|---|---|---|---|---|---|
전라도 이야기로 낚시하니 홍어가 만선이노 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
대한민국은 진짜빨갱이 전라도 이슬람 개독교총체적 난국 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 0 | 0 | 0 |
꼭 키 작은 급식충이 이런 글 씀 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
뭐 어쩌라고 시발 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 |
혐오가 당연한 건 없습니다 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 |
- [여성/가족]
여성성과 여성의 젠더 역할을 고착화하는 발언과 여성의 불평등을 비난하는 표현을 포함합니다.
또한, 여성의 불평등과 고착화를 타파하고, 여성의 인권 신장을 위해 발생한 페미니즘과 여성부에 대한 비난 역시 여성혐오로 분류하였습니다.
여초 직장, 여경 등, 여성으로만 이루어진 집단에 대한 혐오 역시 여성 혐오로 분류하였습니다. - [남성]
남성 비하 은어의 사용 및 남성 집단의 혐오를 분류하였습니다. - [성소수자]
이성애 이외의 섹슈얼리티를 배척하는 발언을 분류하였습니다.
또한, 비이성애 섹슈얼리티를 부정적인 대상으로 연관시키는 행동 및 성소수 문화에 대한 비난을 성소수자에 대한 혐오로 분류하였습니다. - [인종/국적]
특정 인종/국적에 대한 비속어를 포함한 경우와, 특정 인종에 대한 고정관념과 선입견을 고착화하는 표현에 대해 분류하였습니다. - [연령]
특정 세대나 연령을 비하하는 은어의 사용 및 혐오 표현을 분류하였습니다. - [지역]
특정 지역에 대한 은어 및 혐오 표현을 분류하였습니다. - [종교]
특정 종교에 대한 혐오 및 종교인 집단에 대한 비난을 분류하였습니다. - [기타혐오]
위에서 정의한 카테고리 이외의 집단을 대상으로 하는 혐오 표현을 분류하였습니다. (e.g. 장애인, 정부, 기자, 경찰, 차별금지법 반대 등) - [악플/욕설]
어떤 집단을 향한 혐오 표현인지 지칭할 수는 없지만, 타인 혹은 외모에 대한 비하/욕설이 포함되어 있거나, 불쾌감을 주거나, 음란성 문장을 분류하였습니다. - [Clean]
혐오표현, 욕설, 불쾌감, 음란성 내용을 포함하고 있지 않은 일반 문장을 분류하였습니다.
- 혐오 및 욕설의 대상이 특정 인물을 지칭하고, 그 대상을 대중들이 누구인지 눈치챌 수 있을 경우 '개인 지칭' 항목으로 추가 태깅하였습니다.
- 단일 댓글 문장에 대해 3명의 작업자가 혐오 카테고리 분류
- 5인의 혐오 표현 전문가가 최종 검수
- 혐오의 판단 기준은 사람마다 상이할 수 있으며, 태깅 결과는 100%의 정확도를 보장하지 않습니다. 태깅 오류를 발견하실 경우, issue에 남겨주세요!
본 데이터셋은 huggingface datasets hub를 통해 사용할 수 있습니다.
(작업중)
항목 | 여성/가족 | 남성 | 성소수자 | 인종/국적 | 연령 | 지역 | 종교 | 기타혐오 | 악플/욕설 | clean |
---|---|---|---|---|---|---|---|---|---|---|
Train | 1,599 | 1,141 | 1,138 | 1,728 | 603 | 1,052 | 1,181 | 569 | 3,146 | 3,739 |
Validation | 394 | 334 | 280 | 426 | 146 | 260 | 290 | 134 | 786 | 935 |
Total | 1,993 | 1,475 | 1,418 | 2,154 | 749 | 1,312 | 1,471 | 703 | 3,932 | 4,674 |
- Python
>>> from datasets import load_dataset
>>> datasets = load_dataset('smilegate_ai/kor_unsmile')
>>> print(datasets)
DatasetDict({
train: Dataset({
features: ['id', 'sentence', 'categories'],
num_rows: 111
})
validation: Dataset({
features: ['id', 'sentence', 'categories'],
num_rows: 111
})
})
Google colab을 통해 모델 학습과 테스트를 할 수 있는 tutorial 노트북을 공유합니다.
문장 | 여성/가족 | 남성 | 성소수자 | 인종/국적 | 연령 | 지역 | 종교 | 기타혐오 | 악플/욕설 | clean |
---|---|---|---|---|---|---|---|---|---|---|
이래서 여자는 게임을 하면 안된다 | 0.89 | 0.02 | 0.00 | 0.02 | 0.01 | 0.00 | 0.01 | 0.02 | 0.03 | 0.06 |
한남 재기해 | 0.01 | 0.94 | 0.01 | 0.02 | 0.01 | 0.02 | 0.01 | 0.02 | 0.06 | 0.04 |
게이면 당연히 잘생긴거 아님? | 0.00 | 0.01 | 0.77 | 0.01 | 0.01 | 0.01 | 0.00 | 0.00 | 0.06 | 0.14 |
니네 나라로 좀 돌아가라 | 0.01 | 0.01 | 0.01 | 0.94 | 0.01 | 0.01 | 0.03 | 0.01 | 0.03 | 0.13 |
틀니 압수할게요 | 0.02 | 0.03 | 0.02 | 0.03 | 0.88 | 0.02 | 0.01 | 0.02 | 0.06 | 0.03 |
너도 설마 머구 출신? | 0.01 | 0.00 | 0.01 | 0.02 | 0.02 | 0.83 | 0.01 | 0.00 | 0.02 | 0.20 |
개독이나 이슬람이나 똑같지 않냐 | 0.02 | 0.02 | 0.02 | 0.08 | 0.02 | 0.02 | 0.97 | 0.02 | 0.01 | 0.04 |
지잡 나와서 고생한다 | 0.02 | 0.06 | 0.02 | 0.01 | 0.09 | 0.05 | 0.04 | 0.77 | 0.17 | 0.07 |
진짜 극혐이네요 | 0.02 | 0.00 | 0.02 | 0.01 | 0.01 | 0.01 | 0.00 | 0.01 | 0.95 | 0.03 |
남자 여자 모두 응원합니다 | 0.12 | 0.05 | 0.02 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.02 | 0.87 |
precision recall f1-score support
여성/가족 0.83 0.78 0.81 412
남성 0.85 0.83 0.84 325
성소수자 0.86 0.82 0.84 280
인종/국적 0.86 0.82 0.84 426
연령 0.87 0.84 0.85 145
지역 0.89 0.92 0.91 260
종교 0.86 0.89 0.88 290
기타혐오 0.76 0.24 0.36 109
악플/욕설 0.70 0.68 0.69 772
clean 0.78 0.72 0.75 939
micro avg 0.81 0.76 0.79 3958
macro avg 0.83 0.75 0.78 3958
weighted avg 0.81 0.76 0.78 3958
samples avg 0.77 0.77 0.77 3958
@misc{SmilegateAI2021KoreanUnSmileDataset,
title = {Korean UnSmile dataset: Human-annotated Korean Hate Speech Dataset},
author = {Seonghyun Kim},
year = {2021},
howpublished = {\url{https://github.smilegate.net/SGH-AI-Center/korean_unsmile_dataset}},
}
Smilegate AI UnSmile
의 소스코드 및 baseline 모델
은 Apache 2.0 라이선스 하에 공개되어 있습니다.
Smilegate AI UnSmile
의 데이터셋
은 CC-BY-NC-ND 4.0 라이선스 하에 공개되어 있습니다.
코드 및 모델, 데이터셋을 사용할 경우 라이선스 내용을 준수해 주십시오.
라이선스 전문은 Apache 2.0, LICENSE.cc-by-nc-nd-4.0 파일에서 확인하실 수 있습니다.
본 데이터셋의 내용은 Smilegate AI의 의견과 무관합니다.