终于搞懂了PR曲线(pr曲线含义)
toqiye 2024-11-10 11:42 19 浏览 0 评论
PR(Precision Recall)曲线
问题
最近项目中遇到一个比较有意思的问题, 如下所示为:
图中的PR曲线很奇怪, 左边从1突然变到0.
PR源码分析
为了搞清楚这个问题, 对源码进行了分析. 如下所示为上图对应的代码:
from sklearn.metrics import precision_recall_curve
import matplotlib.pyplot as plt
score = np.array([0.9, 0.8, 0.7, 0.6, 0.3, 0.2, 0.1])
label = np.array([0, 1, 1, 1, 0, 0, 0])
precision, recall, thres = precision_recall_curve(label, score)
plt.plot(recall, precision)
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.show()
代码中得到precision和recall使用的是sklearn.metrics.precision_recall_curve, 下面为从其对应的源码中抽取出来的关键代码:
# 按预测概率(score)降序排列
desc_score_indices = np.argsort(y_score, kind="mergesort")[::-1]
y_score = y_score[desc_score_indices]
y_true = y_true[desc_score_indices]
# 概率(score)阈值, 取所有概率中不相同的
distinct_value_indices = np.where(np.diff(y_score))[0]
threshold_idxs = np.r_[distinct_value_indices, y_true.size-1]
thresholds = y_score[threshold_idxs]
# 累计求和, 得到不同阈值下的 tps, fps
tps = np.cumsum(y_true)[threshold_idxs]
fps = 1 + threshold_idxs - tps
# PR
precision = tps / (tps + fps)
precision[np.isnan(precision)] = 0 # 将nan替换为0
recall = tps / tps[-1]
last_ind = tps.searchsorted(tps[-1]) # 最后一个tps的index
sl = slice(last_ind, None, -1) # 倒序
precision = np.r_[precision[sl], 1] # 添加 precision=1, recall=0, 可以让数据从0开始
recall = np.r_[recall[sl], 0]
从代码中总结了计算PR的几个关键步骤:
- 对于预测概率(score)排序, 从高到低
- 以预测概率(score)作为阈值统计tps和fps
- 计算precision和recall, 并倒序
这里补充说明几个特点:
- 以测试数据的预测概率(score)作为阈值, 因而阈值只能在测试数据预测概率(score)集合中, 不是连续变化的;
- 统计tps和fps时, 统计的是大于等于阈值的数据的个数, 因而理想情况下, tps>=1和fps>=1, 这里说的是理想情况下, 不理想情况后面说明;
- 测试数据预测概率(score)可能不会出现为1的情况, 此种情况下, recall=0, 为了使得PR曲线从0开始, 添加了recall=0, precision=1;
- 使用倒序, 让阈值从小到大, 因而PR曲线是从左向右画的, 如下图所示:
问题原因分析
弄清楚了PR原理及计算方法, 就好分析上述问题产生的原因了.
1的来历
从上述原理及计算过程分析可以看到, 最后添加了recall=0, precision=1, 对应图中最左边的1, 这里就知道了1是怎么来的;
0的来历
precision的计算公式是precision=TP/(TP+FP), 理想情况下(score值越大, Positive的可能性就越大), 随着阈值的增加, TP越来越小, FP越来越小, precision是越来越大的, 是不可能出现为0情况的; 只有当TP=0时, precision才会出现为0的情况, 这种情况属于非理想情况(score值越大, Positive的可能性不一定越大).
来看看tps的计算方法, 统计的是大于等于阈值thres的数据中为Positive的个数, 只有Positive个数为0的情况下, tps才能为0, 那么thres对应的数据就不是Positive的, 而是Negative的.
我们来看看上面例子中的数据:
score | 0.9 | 0.8 | 0.7 | 0.6 | 0.3 | 0.2 | 0.1 |
label | 0 | 1 | 1 | 1 | 0 | 0 | 0 |
从上表中可以看到, 最大score=0.9的标签为0, 这里对应图中precision=0的情况, 这里就知道了0是怎么来的: 数据中有存在最高概率为Negative的数据.
这里可以做个扩展, 理想情况下, PR曲线从右向左, precision应该是越来越大的, 如果出现了减小或者变为0的情况, 可看看对应阈值下的数据是否存在标签有误, 或者是困难样本.
解决方法
最好的方法, 是通过PR曲线分析是否存在标签有错误的样本或者困难样本, 然后对测试样本进行调整.
这里有2个折中的解决方法, 可以去除这种突变:
一是限制显示范围:
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
一是把最后一个数据去除:
precision = precision[:-1]
recall = recall[:-1]
PR 与 ROC(Receiver Operating Characteristics)曲线
相互关系
有文章已经证明, PR 和 ROC 可以相互转换:
Theorem 3.1. For a given dataset of positive and negative examples, there exists a one-to-one correspon- dence between a curve in ROCspace and a curve in PR space, such that the curves contain exactly the same confusion matrices, if Recall != 0
详见: The Relationship Between Precision-Recall and ROC Curves, 网上也有很多资料有详细的说明, 下图为二者的变化趋势:
优劣
PR 和 ROC 的区别主要在于不平衡数据的表现: PR对数据不平衡是敏感的, 正负样本比例变化会引起PR发生很大的变化; 而ROC曲线是不敏感的, 正负样本比例变化时ROC曲线变化很小. 如下图所示为不同比例正负样本情况下PR和ROC的变化:
ROC曲线变化很小的原因分析: tpr=TP/P, fpr=FP/N, 可以看到其计算都是在类别内部进行计算的, 只要数据内部的比例不发生变化, ROC也不会发生变化.
参考:
- 分类模型评估之ROC-AUC曲线和PRC曲线皮皮blog-CSDN博客auc曲线
- 精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么? - 知乎 (zhihu.com)
相关推荐
- 基于Python查找图像中最常见的颜色
-
如果我们能够得知道一幅图像中最多的颜色是什么的话,可以帮助我们解决很多实际问题。例如在农业领域中想确定水果的成熟度,我们可以通过检查水果的颜色是否落在特定范围内,来判断它们是否已经成熟。接下来我们将使...
- 出大要几次/圣彼得堡悖论
-
程序:fromrandomimportrandomdeffn():n=1whilerandom()<0.5:n+=1returnny=[fn()...
- 使用OpenCV测量图像中物体之间的距离
-
原文链接:https://www.pyimagesearch.com/2016/04/04/measuring-distance-between-objects-in-an-image-with-op...
- 让颜色更加饱满和有冲击力:图像颜色校正
-
大家拍照或图片时,获取会遇到图像颜色与实际颜色存在色差的现象。我们看一个标准色卡的图片:第一张图片就是有色差的图片,这种现象一般是相机或光线的原因造成的,我们可以通过标准色卡进行校正。第一张图片是有色...
- Python 数据分析 : 实例
-
1、构建矩阵生成4x4形式的矩阵,矩阵中的数据是1~10之间的随机数random_list=np.random.random(16)random_list=np.round(...
- 用这些免费开源的图标库,为你的项目画龙点睛
-
精致好看的图标能够为你的项目增色不少,今天我就整理了一期图标库精选系列,希望你可以从中找到自己喜欢的图标库。下面就跟我来一场视觉的盛宴,我会一一介绍GitHub上品牌、流行、极小,各具特色的免费精...
- ICON设计规范之图标尺寸
-
编辑导语:图标设计是UI设计中不可缺少的元素,它看似简单,但其实内含门道。本篇文章里,作者就对icon设计的相关知识和icon绘制方法做出经验介绍。如果你对icon设计也想要有所了解的话,那就点进来看...
- PHP开发必备VSCode插件(大全)
-
通用chinese(simplified...):简体中文语言包liveserverhtml:实时预览prettier-codeformatter:最流行的代码格式化插件...
- 增强用户体验:前端开发中HTML5和CSS3表格属性的应用与优化研究
-
摘要:本文探讨了在前端开发中HTML5和CSS3表格属性的应用与优化。首先介绍了HTML5中常用的表格元素和CSS3中丰富的表格样式属性,旨在帮助开发人员定制表格的外观和样式。其次,研究了表格结构的优...
- 产品经理小技术:图片素材随手找,原型设计快又好
-
数十万互联网从业者的共同关注!作者:牛冰峰博客:http://uxfeng.com/画图——这项古老而精细的做法,是一代代产品狗们得以传承的立足之本。草图、线框图、思维导图、PPT插图、数据汇报图表、...
- MAUI Blazor 项目实战 - 从0到1轻松构建多平台应用UI
-
前言最近在项目中尝鲜了MAUI,总体感受下来还是挺不错的,优缺点并存,但是瑕不掩瑜,目前随着.Net版本的迭代升级对它的支持也越来越友好,相信未来可期!感兴趣的朋友欢迎关注。文章中如有不妥的地方,也请...
- webstorm常用的插件
-
1、AtomMaterialIcons推荐原因:这款插件不仅...
- 「智能家居」自动化平台nodered第三方节点dashboard的使用
-
自带节点库讲完了,开始说说第三方节点库dashboard,该库提供另一个可配置的UI页面,可以配置一些表单元素,以及图表。先来看一下别人使用dashboard制作的面板吧,是不是很漂亮。接下来我们一...
- 「炫丽」从0开始做一个WPF+Blazor对话小程序
-
大家好,我是沙漠尽头的狼。...
- MAUI使用Masa blazor组件库
-
上一篇(点击阅读)我们实现了UI在Web端(BlazorServer/Wasm)和客户端(Windows/macOS/Android/iOS)共享,这篇我加上MasaBlazor组件库的引用,并...
你 发表评论:
欢迎- 一周热门
-
-
如何评估预测值与真实值之间的匹配质量
-
如何解决npm安装依赖报错ERESOLVE unable to resolve dependency tree
-
超详细的cmder工具介绍及功能、快捷键说明
-
畅网 N5105 四口 2.5G 小主机安装 WIN10 对比 WIN11 跑分
-
常见面试第三题之Activity的几种启动模式介绍
-
软件推荐丨gocron —— 定时任务管理系统
-
一分钟带你认识了解电信光猫(电信光猫有什么用途)
-
聊聊C++20最大的变革之一 —— Coroutine,看不懂你打我(一)
-
硬核!Rust异步编程方式重大升级:新版Tokio如何提升10倍性能详解
-
Vite 4.0 正式发布(vite版本)
-
- 最近发表
- 标签列表
-
- systemproperties (65)
- npm版本管理 (61)
- localhost:15672 (59)
- materialtheme (86)
- node-ssh (68)
- 图床搭建 (62)
- vue3addeventlistener (60)
- mybatisselectone (78)
- css圆形进度条 (69)
- androidble蓝牙开发 (62)
- android-gif-drawable (60)
- appender-ref (64)
- springbootmockito (68)
- css边框渐变色和圆角 (58)
- gsonfastjson (59)
- 依赖注入的方式 (62)
- cookie跨域共享 (63)
- easyexcel导出图片 (77)
- dp数组 (61)
- js获取兄弟节点 (68)
- sysctl-a (60)
- java知音 (58)
- window.target (62)
- apimodel注解的作用 (60)
- window.onerror (66)