VFC算法详解2
数据集的联合似然函数\(p(Y | X, \theta)\)
一、公式(4)原文与符号定义
1. 公式原文
\[ p(Y | X, \theta) =\prod_{n=1}^{N} \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) =\prod_{n=1}^{N}\left(\frac{\gamma}{\left(2 \pi \sigma^{2}\right)^{D / 2}} e^{-\frac{\left\| y_{n}-f\left(x_{n}\right)\right\| ^{2}}{2 \sigma^{2}}}+\frac{1-\gamma}{a}\right) \]
2. 符号统一定义(与论文完全一致)
| 符号 | 数学定义 | 工程物理意义 |
|---|---|---|
| \(N\) | 候选匹配对总数 | 输入的特征点匹配对数量 |
| \(x_n\) | 第\(n\)个输入点,\(\in \mathbb{R}^P\) | 第一张图中第\(n\)个特征点的坐标 |
| \(y_n\) | 第\(n\)个输出向量,\(\in \mathbb{R}^D\) | 第\(n\)个匹配对的位移向量(第二张图相对第一张图) |
| \(X\) | 所有输入点的集合 \(\{x_n\}_{n=1}^N\) | 输入特征点坐标集 |
| \(Y\) | 所有输出向量的集合 \(\{y_n\}_{n=1}^N\) | 匹配对位移向量集 |
| \(\theta\) | 参数集 \(\{f, \sigma^2, \gamma\}\) | 待估计的未知参数:向量场\(f\)、内点噪声方差\(\sigma^2\)、内点先验概率\(\gamma\) |
| \(z_n\) | 二值隐变量 \(\in \{0,1\}\) | 标记第\(n\)个匹配对的类型:\(z_n=1\)=内点,\(z_n=0\)=外点 |
| \(D\) | 输出向量的维度 | 2D图像匹配中\(D=2\),3D点云匹配中\(D=3\) |
| \(a\) | 输出空间有界区域的体积 | 外点均匀分布的区域大小 |
| \(f(\cdot)\) | 待估计的向量场函数 | 从输入点坐标到位移向量的映射(即公式(2)定义的RKHS中的函数) |
二、推导的核心前置假设(论文+2011 CVPR原文依据)
公式(4)的推导完全基于以下4个独立同分布(i.i.d.)的概率假设,该建模逻辑最早在2011年CVPR的VFC前身论文中提出,2014年TIP论文将其与贝叶斯MAP、RKHS正则化框架做了严谨融合,核心假设完全一致。
假设1:隐变量的先验分布(混合系数)
每个匹配对是内点的先验概率固定为\(\gamma\),外点的先验概率为\(1-\gamma\),所有样本独立:
\[ p(z_n=1) = \gamma, \quad p(z_n=0) = 1-\gamma \]
论文原文依据:"γ is the mixing coefficient specifying the marginal distribution over the latent variable" 2011 CVPR论文对应:明确用\(\gamma\)表示内点的先验比例,建模混合模型的权重。
假设2:内点的条件分布(\(z_n=1\))
内点的位移向量\(y_n\)服从各向同性的D维高斯分布,均值为向量场的预测值\(f(x_n)\),协方差矩阵为\(\sigma^2 I_D\)(\(I_D\)为D阶单位矩阵),即噪声在各维度独立同分布:
\[ p(y_n | x_n, z_n=1, \theta) = \frac{1}{\left(2 \pi \sigma^{2}\right)^{D / 2}} e^{-\frac{\left\| y_{n}-f\left(x_{n}\right)\right\| ^{2}}{2 \sigma^{2}}} \]
论文原文依据:"for the inliers, the noise is Gaussian on each component with zero mean and uniform standard deviation σ" 2011 CVPR论文对应:内点建模为高斯分布,均值为向量场输出,是鲁棒拟合的核心。
假设3:外点的条件分布(\(z_n=0\))
外点的位移向量\(y_n\)与输入\(x_n\)无关,服从输出空间有界区域内的均匀分布,概率密度为常数\(1/a\)(\(a\)为该区域的体积):
\[ p(y_n | x_n, z_n=0, \theta) = \frac{1}{a} \]
论文原文依据:"for the outliers, the output space is a bounded region of \(\mathbb{R}^D\), and the distribution is assumed to be uniform \(\frac{1}{a}\)" 2011 CVPR论文对应:外点建模为均匀分布,与向量场无关,用于区分随机噪声匹配。
假设4:样本独立性
所有候选匹配对之间相互独立,因此整个数据集的联合概率等于所有单个样本概率的乘积。
三、公式(4)分步完整推导
步骤1:写出单个样本的联合概率密度
根据条件概率公式 \(p(A,B)=p(A|B)p(B)\),单个样本\((x_n,y_n)\)的联合概率(含隐变量\(z_n\))为:
\[ p(y_n, z_n | x_n, \theta) = p(y_n | x_n, z_n, \theta) \cdot p(z_n | \theta) \]
将假设1-3的分布代入,分两种情况展开: - 当\(z_n=1\)(内点): \[ p(y_n, z_n=1 | x_n, \theta) = \gamma \cdot \frac{1}{\left(2 \pi \sigma^{2}\right)^{D / 2}} e^{-\frac{\left\| y_{n}-f\left(x_{n}\right)\right\| ^{2}}{2 \sigma^{2}}} \] - 当\(z_n=0\)(外点): \[ p(y_n, z_n=0 | x_n, \theta) = (1-\gamma) \cdot \frac{1}{a} \]
步骤2:对隐变量边缘化,得到单个样本的边缘似然
隐变量\(z_n\)是不可观测的隐藏变量,我们需要对其所有可能的取值求和(离散变量的边缘化),得到仅关于观测数据\(y_n\)的边缘概率密度:
\[ p(y_n | x_n, \theta) = \sum_{z_n \in \{0,1\}} p(y_n, z_n | x_n, \theta) \]
将步骤1的两种情况代入求和,直接得到单个样本的边缘似然:
\[ p(y_n | x_n, \theta) = \frac{\gamma}{\left(2 \pi \sigma^{2}\right)^{D / 2}} e^{-\frac{\left\| y_{n}-f\left(x_{n}\right)\right\| ^{2}}{2 \sigma^{2}}} + \frac{1-\gamma}{a} \]
步骤3:利用样本独立性,得到整个数据集的似然函数
根据假设4,所有样本独立同分布,因此整个数据集的联合似然是所有单个样本边缘似然的乘积:
\[ p(Y | X, \theta) = \prod_{n=1}^N p(y_n | x_n, \theta) \]
将步骤2得到的单个样本似然代入,最终得到论文中的公式(4):
\[ \boxed{ p(Y | X, \theta) =\prod_{n=1}^{N}\left(\frac{\gamma}{\left(2 \pi \sigma^{2}\right)^{D / 2}} e^{-\frac{\left\| y_{n}-f\left(x_{n}\right)\right\| ^{2}}{2 \sigma^{2}}}+\frac{1-\gamma}{a}\right) } \]