Population Stability Index (PSI) 是评估特征分布稳定性的重要指标,广泛应用于模型开发和部署阶段。通过在建模前筛除不稳定特征和在建模后监控模型稳定性,PSI 有助于提升模型的可靠性和准确性。理解和正确应用 PSI 是构建高效稳健分类模型的关键步骤。

PSI 的用途

  1. 建模前:用于筛除不稳定特征
    在模型开发之前,通过计算特征的 PSI 值,可以识别和剔除那些在不同时间段或不同数据集中表现不稳定的特征,从而提高模型的稳健性和泛化能力。

  2. 建模后:用于衡量和监控模型稳定性
    在模型部署后,定期计算 PSI 值可以监控模型的输入特征是否发生了显著变化。如果 PSI 值超出预设的阈值,可能意味着模型需要重新训练或调整,以适应新的数据分布。

PSI 的计算

数据划分

PSI 是对两个时间点或两个数据集中的特征数据进行计算。具体步骤如下:

  1. 选择基准集(Base 集)和测试集(Test 集)

    • 基准集(Base 集):通常是模型训练时使用的数据集,或某一固定时间点的数据。
    • 测试集(Test 集):可以是最新的数据集,或另一时间点的数据,用于与基准集进行比较。
  2. 确保两个数据集中的特征具有相同的分布区间
    通常需要将特征划分为多个区间(如分箱),以便进行比较。

计算公式

其中:

  • $n$:特征的分箱数量
  • $\text{Base}_i \text{占比}$:基准集中第 $i$ 个分箱的样本比例
  • $\text{Test}_i \text{占比}$:测试集中第 $i$ 个分箱的样本比例

步骤详解

  1. 分箱(Binning)
    将特征数据划分为多个区间(分箱),例如按照百分位数进行分箱。

  2. 计算每个分箱的占比
    对于基准集和测试集,分别计算每个分箱中样本所占的比例。

  3. 计算 PSI 值
    将每个分箱的占比差异代入公式进行计算,并对所有分箱的结果求和。

PSI 值的解释

  • PSI < 0.1:特征分布稳定,没有显著变化。
  • 0.1 ≤ PSI < 0.2:特征分布有轻微变化,需关注。
  • PSI ≥ 0.2:特征分布显著变化,需采取措施(如重新建模)。