Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method
http://arxiv.org/abs/2409.14781
EMNLP2024 BEST PAPER 图 1:概念性示例:让我们 x1 表示非训练文本和 x2 训练文本。(a) Min-K…
熵Entropy and 散度Divergence
Shannon信息量
信息量也称为Shannon信息量,常用于刻画消除随机变量x在 x i x_i xi处的不确定性所需的信息量的大小。假设考虑离散型随机变量的情况,设p为随机变量x的概率分布,即 p ( x i ) p(x_i) p(xi)为…