因果模型-04-DML
实际问题
问题设定
如果使用 $X$ 和 $T$ 一起对 $Y$ 建模会存在估计量有偏问题,非渐进正态:
偏差来源
- 部分来自于 $g(X)$ 估计的偏差:残差建模构建内曼正交
- 部分来自于对样本的过拟合:Cross-Fitting
DML策略
1. 结果模型和处理模型得到残差
$\theta(X)$ 的拟合可以是参数模型也可以是非参数模型
- 参数模型可以直接拟合(式 1)
- 非参数模型因为只接受输入和输出,模型 label 变为 $\tilde{Y}/\tilde{T}$,样本权重为 $T^2$(式2, 3)
- 注意这时候所认为的 $\tilde{Y}/\tilde{T}$ 是真实值,预测模型为 $\mu(\tilde{Y}/\tilde{T}|x)$
3. Cross-Fitting
解决 Overfitting 问题,反映在统计学上是解决收敛速度的问题。
以 $K=2$ 为例:
划分数据集:将数据集分为两个不相交的子集 $I_1$ 和 $I_2$。
第一轮:
- 在 $I_2$ 上估计烦恼参数:得到 $\hat{l}^{(1)}(X)$ 和 $\hat{m}^{(1)}(X)$。
- 在 $I_1$ 上计算残差并估计 $\theta^{(1)}$。
第二轮:
- 在 $I_1$ 上估计烦恼参数:得到 $\hat{l}^{(2)}(X)$ 和 $\hat{m}^{(2)}(X)$。
- 在 $I_2$ 上计算残差并估计 $\theta^{(2)}$。
合并结果:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 IAN's SITE!

