3月2日
1、下载数据集
2、对cnews进行了预处理data_preprocess.ipynb
3、学习召回率、准确率、ROC曲线、AUC、PR曲线基本概念:https://www.imooc.com/article/48072
3月3日
1、新增imdb.ipynb, 主要对该数据的进行了解
2、添加以下笔记
真实值 | 预测值 | |
---|---|---|
真正类(True Positive,TP) | 1 | 1 |
假负类(False Negative,FN) | 1 | 0 |
真负类(True Negative,TN) | 0 | 0 |
假正类(False Positive,FP) | 0 | 1 |
真正类:真的正样本(y=1)
假负类:假的负样本(y=1)
真负类:真的负样本(y=0)
假正类:假的正样本(y=0)
计算公式 | |
---|---|
真正类率( TPR ) | |
假正类率( FPR ) | |
真负类率( TNR ) |
|
precision |
ROC曲线 | 横坐标为 FPR, 众坐标为TPR。 当一个样本被分类器判为正例,若其本身是正例,则TPR增加;若其本身是负例,则FPR增加。 因此ROC曲线可以看作是随着阈值的不断移动,所有样本中正例与负例之间的“对抗”。 曲线越靠近左上角,意味着越多的正例优先于负例,模型的整体表现也就越好。 |
---|---|
AUC值 | ROC曲线下方的面积。 从所有正例中随机选取一个样本A,再从所有负例中随机选取一个样本B,分类器将A判为正例的概率比将B判为正例的概率大的可能性。 |
PR曲线 | Precision vs Recall曲线,PR曲线的两个指标都聚焦于正例。 类别不平衡问题中由于主要关心正例,所以在此情况下PR曲线被广泛认为优于ROC曲线。 |
1、上文提到ROC曲线的优点是不会随着类别分布的改变而改变,但这在某种程度上也是其缺点。因为负例N增加了很多,而曲线却没变,这等于产生了大量FP。像信息检索中如果主要关心正例的预测准确性的话,这就不可接受了。
2、上文提到ROC曲线的优点是不会随着类别分布的改变而改变,但这在某种程度上也是其缺点。因为负例N增加了很多,而曲线却没变,这等于产生了大量FP。像信息检索中如果主要关心正例的预测准确性的话,这就不可接受了。
1、ROC曲线由于兼顾正例与负例,所以适用于评估分类器的整体性能,相比而言PR曲线完全聚焦于正例。
2、如果有多份数据且存在不同的类别分布,比如信用卡欺诈问题中每个月正例和负例的比例可能都不相同,这时候如果只想单纯地比较分类器的性能且剔除类别分布改变的影响,则ROC曲线比较适合,因为类别分布改变可能使得PR曲线发生变化时好时坏,这种时候难以进行模型比较;反之,如果想测试不同类别分布下对分类器的性能的影响,则PR曲线比较适合。
3、如果想要评估在相同的类别分布下正例的预测情况,则宜选PR曲线。 4、类别不平衡问题中,ROC曲线通常会给出一个乐观的效果估计,所以大部分时候还是PR曲线更好。
5、最后可以根据具体的应用,在曲线上找到最优的点,得到相对应的precision,recall,f1 score等指标,去调整模型的阈值,从而得到一个符合具体应用的模型。