实际问题

问题设定

如果使用 $X$ 和 $T$ 一起对 $Y$ 建模会存在估计量有偏问题,非渐进正态:

偏差来源

  • 部分来自于 $g(X)$ 估计的偏差:残差建模构建内曼正交
  • 部分来自于对样本的过拟合:Cross-Fitting

DML策略

1. 结果模型和处理模型得到残差

  1. 结果模型
  2. 处理模型

    2. 拟合残差

$\theta(X)$ 的拟合可以是参数模型也可以是非参数模型

  • 参数模型可以直接拟合(式 1
  • 非参数模型因为只接受输入和输出,模型 label 变为 $\tilde{Y}/\tilde{T}$,样本权重为 $T^2$(式2, 3
    • 注意这时候所认为的 $\tilde{Y}/\tilde{T}$ 是真实值,预测模型为 $\mu(\tilde{Y}/\tilde{T}|x)$

3. Cross-Fitting

解决 Overfitting 问题,反映在统计学上是解决收敛速度的问题。

以 $K=2$ 为例:

  • 划分数据集:将数据集分为两个不相交的子集 $I_1$ 和 $I_2$。

  • 第一轮

    • 在 $I_2$ 上估计烦恼参数:得到 $\hat{l}^{(1)}(X)$ 和 $\hat{m}^{(1)}(X)$。
    • 在 $I_1$ 上计算残差并估计 $\theta^{(1)}$
  • 第二轮

    • 在 $I_1$ 上估计烦恼参数:得到 $\hat{l}^{(2)}(X)$ 和 $\hat{m}^{(2)}(X)$。
    • 在 $I_2$ 上计算残差并估计 $\theta^{(2)}$
  • 合并结果