论文名词解释

ROC曲线:

1. POC曲线的定义:

ROC 的全称是Receiver Operating Characteristic Curve,中文名字叫“受试者工作特征曲线“。顾名思义,其主要的分析方法就是画这条特征曲线。这里在网上找了一个比较好的图样示例如下:

ROC曲线示例

该曲线的横坐标为假阳性率False Positive Rate, FPR),N真实负样本的个数FPN个负样本中被分类器预测为正样本的个数

纵坐标为真阳性率True Positive Rate, TPR\[ TPR=\frac{TP}{P} \]

P真实正样本的个数TPP个正样本中被分类器预测为正样本的个数

2. ROC曲线的应用场景

ROC曲线的应用场景有很多,根据上述的定义,其最直观的应用就是能反映模型在选取不同阈值的时候其敏感性(sensitivity, FPR)和其精确性(specificity, TPR)的趋势走向。不过,相比于其他的P-R曲线(精确度和召回率),ROC曲线有一个巨大的优势就是,当正负样本的分布发生变化时,其形状能够基本保持不变,而P-R曲线的形状一般会发生剧烈的变化,因此该评估指标能降低不同测试集带来的干扰,更加客观的衡量模型本身的性能。要解释清楚这个问题的话,大家还是先回顾一下混淆矩阵。

混淆矩阵

其中,精确率P的计算公式为: \[ P=\frac{TP}{TP+FP} \] 召回率R的计算公式为: \[ R=\frac{TP}{TP+FN} \] 此时,若将负样本的数量增加,扩大个10倍,可以预见FP,TN都会增加,必然会影响到P,R。但ROC曲线的俩个值,FPR只考虑第二行,N若增大10倍,则FP,TN也会成比例增加,并不影响其值,TPR更是只考虑第一行,不会受到影响。ROC曲线和P-R曲线对比图

其中第一行ab均为原数据的图,左边为ROC曲线,右边为P-R曲线。第二行cd为负样本增大10倍后俩个曲线的图。可以看出,ROC曲线基本没有变化,但P-R曲线确剧烈震荡。因此,在面对正负样本数量不均衡的场景下,ROC曲线(AUC的值)会是一个更加稳定能反映模型好坏的指标。

摘自:https://www.jianshu.com/p/2ca96fce7e81

AUC面积:

当绘制完成曲线后,就会对模型有一个定性的分析,如果要对模型进行量化的分析,此时需要引入一个新的概念,就是AUCArea under roc Curve)面积。这个概念其实很简单,就是指ROC曲线下的面积大小。而计算AUC值只需要沿着ROC横轴做积分就可以了。真实场景中ROC曲线一般都会在 \[ y=x \]

这条直线的上方,所以AUC的取值一般在0.5~1之间。AUC的值越大,说明该模型的性能越好。

摘自:https://www.jianshu.com/p/2ca96fce7e81

AUPR

AUPR是PR曲线下的面积,PR即召回率和正确率组成的曲线图。

F-measure(F值)

F值定义为”精度“和”召回率“的调和平均 \[ F-measure=\frac{2Recall*Precision}{Recall+Precision} \] F值较高的时候说明试验方法有效,结果比较符合预期。

细粒度

“细粒度”指的是在普通的物种分类之下,更加精细的划分。


论文名词解释
https://excelius.xyz/论文名词解释/
作者
Ther
发布于
2021年7月29日
许可协议