RAG 检索可信度模拟器 Made by ChatGPT 关于本站

把医学里的 Sensitivity/Specificity/PPV/NPV 迁移到 RAG:Recall/Noise Control/Precision/NPV。支持用 TopK 作为旋钮做“筛查→会诊”式的系统理解。
TopK ↔ 阈值
Recall ↔ Sensitivity
Precision ↔ PPV
NPV ↔ 负预测值

参数面板

模式:直接设置 Recall / Precision
TopK 驱动(用一条简单曲线模拟“TopK ↑ → Recall ↑、Precision ↓”)
0.20
含义:随机一个问题中,语料里 确实存在可用证据 的概率。越低越像“低患病率筛查场景”。
0.80
0.60
这里的 Recall/Precision 是“检索系统”层面的指标:可理解为在大量问题上统计得到的平均水平。
100
N 越大,矩阵数值越“平滑”。点阵可视化最多显示 60 个点(做抽样)。
术语翻译:
Recall = TP / (TP + FN)
Precision = TP / (TP + FP)
Specificity = TN / (TN + FP)
NPV = TN / (TN + FN)
在 RAG 里,FN(漏召回)通常意味着模型更容易“凭空回答”;FP(噪音召回)通常意味着 token 浪费与轻微干扰。

结果可视化

直接设定 Recall=80.0% Precision=60.0%
Recall(Sensitivity)
80.00%
TP/(TP+FN) = 16/(16+4)
Precision(PPV)
59.26%
TP/(TP+FP) = 16/(16+11)
Specificity(噪音控制)
86.25%
TN/(TN+FP) = 69/(69+11)
NPV(负预测值)
94.52%
TN/(TN+FN) = 69/(69+4)
F1
68.09%
2PR/(P+R) = 0.5926·0.8000
Accuracy(仅供参考)
85.00%
(TP+TN)/N = (16+69)/100
TP(召回到的相关证据)
FN(漏掉的相关证据)
FP(召回到的噪音)
TN(没召回的噪音)
真实相关(Relevant) 真实无关(Irrelevant)
召回(Retrieved)
16
TP
11
FP
未召回(Not Retrieved)
4
FN
69
TN
如何读这个矩阵:把“召回到的文档/片段”当作“检测阳性”。
Recall 低 → 漏掉关键证据(更容易幻觉)。Precision 低 → 噪音变多(token 浪费、干扰)。
真实相关(R)= TP+FN
TP: 16
FN: 4
真实无关(I)= FP+TN
FP: 11
TN: 69(抽样)
召回结果(Retrieved)= TP+FP
TP: 16
FP: 11
未召回(Not Retrieved)= FN+TN
FN: 4
TN: 69(抽样)
一句话解释
🔸 Recall 较高:关键证据大概率能被召回。 🔸 Precision 中等:可用,注意控制上下文长度。
提示:本页面把“是否存在可用证据”抽象成二分类。真实 RAG 里,一个问题可能对应多条证据、多粒度 chunk、以及“部分相关”的灰度。这个模拟器的价值在于帮助你用医学筛查的思维理解 TopK、Recall、Precision 的权衡。