论文名词解释
ROC曲线:
1. POC曲线的定义:
ROC
的全称是Receiver Operating Characteristic Curve
,中文名字叫“受试者工作特征曲线“。顾名思义,其主要的分析方法就是画这条特征曲线。这里在网上找了一个比较好的图样示例如下:
该曲线的横坐标为假阳性率(False Positive Rate, FPR),N是真实负样本的个数,FP是N个负样本中被分类器预测为正样本的个数。
纵坐标为真阳性率(True Positive Rate, TPR) \[ TPR=\frac{TP}{P} \]
P是真实正样本的个数,TP是P个正样本中被分类器预测为正样本的个数。
2. ROC曲线的应用场景
ROC曲线的应用场景有很多,根据上述的定义,其最直观的应用就是能反映模型在选取不同阈值的时候其敏感性(sensitivity, FPR)和其精确性(specificity, TPR)的趋势走向。不过,相比于其他的P-R曲线(精确度和召回率),ROC曲线有一个巨大的优势就是,当正负样本的分布发生变化时,其形状能够基本保持不变,而P-R曲线的形状一般会发生剧烈的变化,因此该评估指标能降低不同测试集带来的干扰,更加客观的衡量模型本身的性能。要解释清楚这个问题的话,大家还是先回顾一下混淆矩阵。
其中,精确率P的计算公式为: \[ P=\frac{TP}{TP+FP} \] 召回率R的计算公式为: \[ R=\frac{TP}{TP+FN} \] 此时,若将负样本的数量增加,扩大个10倍,可以预见FP,TN都会增加,必然会影响到P,R。但ROC曲线的俩个值,FPR只考虑第二行,N若增大10倍,则FP,TN也会成比例增加,并不影响其值,TPR更是只考虑第一行,不会受到影响。
其中第一行ab均为原数据的图,左边为ROC曲线,右边为P-R曲线。第二行cd为负样本增大10倍后俩个曲线的图。可以看出,ROC曲线基本没有变化,但P-R曲线确剧烈震荡。因此,在面对正负样本数量不均衡的场景下,ROC曲线(AUC的值)会是一个更加稳定能反映模型好坏的指标。
摘自:https://www.jianshu.com/p/2ca96fce7e81
AUC面积:
当绘制完成曲线后,就会对模型有一个定性的分析,如果要对模型进行量化的分析,此时需要引入一个新的概念,就是AUC(Area under roc Curve)面积。这个概念其实很简单,就是指ROC曲线下的面积大小。而计算AUC值只需要沿着ROC横轴做积分就可以了。真实场景中ROC曲线一般都会在 \[ y=x \]
这条直线的上方,所以AUC的取值一般在0.5~1之间。AUC的值越大,说明该模型的性能越好。
摘自:https://www.jianshu.com/p/2ca96fce7e81
AUPR
AUPR是PR曲线下的面积,PR即召回率和正确率组成的曲线图。
F-measure(F值)
F值定义为”精度“和”召回率“的调和平均 \[ F-measure=\frac{2Recall*Precision}{Recall+Precision} \] F值较高的时候说明试验方法有效,结果比较符合预期。
细粒度
“细粒度”指的是在普通的物种分类之下,更加精细的划分。