论文名词解释

ROC曲线：

1. POC曲线的定义：

ROC 的全称是Receiver Operating Characteristic Curve，中文名字叫“受试者工作特征曲线“。顾名思义，其主要的分析方法就是画这条特征曲线。这里在网上找了一个比较好的图样示例如下：

ROC曲线示例

该曲线的横坐标为假阳性率（False Positive Rate, FPR)，N是真实负样本的个数，FP是N个负样本中被分类器预测为正样本的个数。

纵坐标为真阳性率（True Positive Rate, TPR） \[ TPR=\frac{TP}{P} \]

P是真实正样本的个数，TP是P个正样本中被分类器预测为正样本的个数。

2. ROC曲线的应用场景

ROC曲线的应用场景有很多，根据上述的定义，其最直观的应用就是能反映模型在选取不同阈值的时候其敏感性（sensitivity, FPR）和其精确性（specificity, TPR）的趋势走向。不过，相比于其他的P-R曲线（精确度和召回率），ROC曲线有一个巨大的优势就是，当正负样本的分布发生变化时，其形状能够基本保持不变，而P-R曲线的形状一般会发生剧烈的变化，因此该评估指标能降低不同测试集带来的干扰，更加客观的衡量模型本身的性能。要解释清楚这个问题的话，大家还是先回顾一下混淆矩阵。

混淆矩阵

其中，精确率P的计算公式为： \[ P=\frac{TP}{TP+FP} \] 召回率R的计算公式为： \[ R=\frac{TP}{TP+FN} \] 此时，若将负样本的数量增加，扩大个10倍，可以预见FP，TN都会增加，必然会影响到P，R。但ROC曲线的俩个值，FPR只考虑第二行，N若增大10倍，则FP，TN也会成比例增加，并不影响其值，TPR更是只考虑第一行，不会受到影响。 ROC曲线和P-R曲线对比图

其中第一行ab均为原数据的图，左边为ROC曲线，右边为P-R曲线。第二行cd为负样本增大10倍后俩个曲线的图。可以看出，ROC曲线基本没有变化，但P-R曲线确剧烈震荡。因此，在面对正负样本数量不均衡的场景下，ROC曲线（AUC的值）会是一个更加稳定能反映模型好坏的指标。

摘自：https://www.jianshu.com/p/2ca96fce7e81

AUC面积：

当绘制完成曲线后，就会对模型有一个定性的分析，如果要对模型进行量化的分析，此时需要引入一个新的概念，就是AUC（Area under roc Curve）面积。这个概念其实很简单，就是指ROC曲线下的面积大小。而计算AUC值只需要沿着ROC横轴做积分就可以了。真实场景中ROC曲线一般都会在 \[ y=x \]

这条直线的上方，所以AUC的取值一般在0.5~1之间。AUC的值越大，说明该模型的性能越好。

摘自：https://www.jianshu.com/p/2ca96fce7e81

AUPR

AUPR是PR曲线下的面积，PR即召回率和正确率组成的曲线图。

F-measure（F值）

F值定义为”精度“和”召回率“的调和平均 \[ F-measure=\frac{2Recall*Precision}{Recall+Precision} \] F值较高的时候说明试验方法有效，结果比较符合预期。

细粒度

“细粒度”指的是在普通的物种分类之下，更加精细的划分。

#科研训练

论文名词解释

https://excelius.xyz/论文名词解释/

作者

Excelius

发布于

2021年7月29日

许可协议

Hexo问题总结上一篇

python常用方法总结下一篇