精读解析 | 深度标签分布学习 2.0:分布与期望的联合优化

本文精读 Geng 等《Age Estimation Using Expectation of Label Distribution Learning》(2018),从方法、理论、工程与实验四方面展开。先推导高斯标签分布的 CDF,并证明 Ranking≈1−CDF 的极限等价,统一两路线;再给出联合学习框架(KL+L1)及 logits 梯度,阐明与 MAE 的对齐;随后解析 Thin/TinyAgeNet 与混合池化的轻量化;最后概括实验设置与结论,解释“分布+期望”的稳健增益。

论文链接:Age Estimation Using Expectation of Label Distribution Learning

本文前置文章链接:

精读解析|从单一标签到标签分布:面部年龄估计的新方法

精读解析|深度标签分布学习:分布监督与实用构造

分布与期望的联合优化

Ranking本质上在学习标签分布

设年龄随机变量 \(A\sim\mathcal N(y,\sigma^2)\),其高斯标签分布密度为 \[ f_{y,\sigma}(t)=\frac{1}{\sigma\sqrt{2\pi}}\exp\!\Big(-\frac{(t-y)^2}{2\sigma^2}\Big). \]

在离散刻度 \(l_k\) 处的累积分布取值为 \[ c_k \;=\; F(l_k)\;=\;\int_{-\infty}^{\,l_k} f_{y,\sigma}(t)\,dt. \] 作代换 \(u=\frac{t-y}{\sigma\sqrt{2}}\)(因此 \(dt=\sigma\sqrt{2}\,du\)),得到标准闭式 \[ c_k \;=\;\int_{-\infty}^{\,\frac{l_k-y}{\sigma\sqrt{2}}}\frac{1}{\sqrt{\pi}}e^{-u^2}\,du \;=\;\tfrac12\Big[1+\operatorname{erf}\!\Big(\frac{l_k-y}{\sigma\sqrt{2}}\Big)\Big]. \] 其中 \(\operatorname{erf}(x)\) 为误差函数(error function),定义为 \[ \operatorname{erf}(x)\;=\;\frac{2}{\sqrt{\pi}}\int_{0}^{x} e^{-t^2}\,dt, \] 并满足与标准正态 \(\Phi(\cdot)\) 的关系 \(\;\Phi(z)=\tfrac12\!\big[1+\operatorname{erf}(z/\sqrt{2})\big]\)

由上式可见,当 \(l_k<y\)\(1-c_k>0.5\),当 \(l_k>y\)\(1-c_k<0.5\),在 \(l_k=y\)\(1-c_k=0.5\)

Ranking 的监督在每个阈值 \(l_k\) 上学习事件 \(\{A>l_k\}\) 的指示,理想标签可写为 \[ (p_{\mathrm{rank}})_k \;=\; \mathbf 1\{y>l_k\} \;=\; 1 - F_{\delta_y}(l_k), \] 其中 \(F_{\delta_y}\) 为以 \(y\) 为质点的退化分布的 CDF。注意到高斯族在 \(\sigma\to0\) 时弱收敛到 \(\delta_y\),对任意固定的 \(l_k\ne y\) 有极限 \[ \lim_{\sigma\to 0}\big[\,1-F(l_k;y,\sigma)\,\big] =\begin{cases} 1, & l_k<y,\\[2pt] 0, & l_k>y, \end{cases} \]\[ \lim_{\sigma\to0}(1-c_k)\;=\;\mathbf 1\{y>l_k\}. \]

因此,\(1-\mathrm{CDF}\)\(\sigma\to0\) 的极限下逐点逼近 Ranking 的阶梯标签;而当 \(\sigma>0\) 时,标签分布不仅给出与阈值相关的右尾概率,还通过可调的 \(\sigma\) 显式保留峰形与不确定性信息,因而相较仅有左右累计关系的 Ranking 更具表达力。

联合学习框架

联合学习框架的目标是同时学习标签分布与其期望,使训练目标与评测的 MAE 对齐。给定真值年龄 \(y\) 与离散网格 \(\{l_k\}_{k=1}^{K}\),先在网格上用高斯生成标签分布 \[ p_k \;=\; \frac{\exp\!\big(-\tfrac{(l_k-y)^2}{2\sigma^2}\big)}{\sum_{j=1}^{K}\exp\!\big(-\tfrac{(l_j-y)^2}{2\sigma^2}\big)}. \] 设特征经过线性映射得到 logits \(x\in\mathbb R^{K}\),预测分布由 softmax 给出 \[ \hat p_k \;=\; \frac{e^{x_k}}{\sum_{j=1}^{K}e^{x_j}}, \] 并在分布之后接入无参数的期望层 \[ \hat y \;=\; \sum_{k=1}^{K}\hat p_k\,l_k. \] 总损失联合了分布端的 KL 散度与期望端的 L1 误差 \[ L \;=\; \underbrace{\sum_{k=1}^{K} p_k\,\log\frac{p_k}{\hat p_k}}_{L_{\mathrm{ld}}} \;+\; \lambda\,\underbrace{|\hat y - y|}_{L_{\mathrm{er}}}. \] 该目标把“学分布的形状”(\(L_{\mathrm{ld}}\))与“学最终年龄值”(\(L_{\mathrm{er}}\))在同一网络中端到端联合起来,其中期望层不引入任何可学习参数。

联合损失对 logits 的梯度可以显式写出。注意 \(L_{\mathrm{ld}}\)\(x\) 的梯度为 \(\hat p - p\),而 \(\hat y=\sum_k \hat p_k l_k\)\(\tfrac{\partial \hat p_k}{\partial x_i}=\hat p_k(\mathbf 1\{i=k\}-\hat p_i)\),由此 \[ \frac{\partial \hat y}{\partial x_i} =\sum_{k=1}^{K} l_k\,\frac{\partial \hat p_k}{\partial x_i} =\hat p_i\,(l_i-\hat y), \] 再结合 \(L_{\mathrm{er}}=|\hat y-y|\) 的导数 \(\tfrac{\partial L_{\mathrm{er}}}{\partial \hat y}=\operatorname{sign}(\hat y-y)\),得到总梯度 \[ \frac{\partial L}{\partial x_i} \;=\; \hat p_i - p_i \;+\; \lambda\,\operatorname{sign}(\hat y-y)\,\hat p_i\,(l_i-\hat y), \qquad i=1,\dots,K. \] 可见分布项与期望项在 logits 处天然耦合:第一项推动 \(\hat p\) 逼近标签分布 \(p\),第二项根据 \(\hat y\)\(y\) 的偏差沿年龄轴方向重分配概率质量。\(\lambda\!\to\!0\) 时退化为 DLDL 的纯分布学习;若仅保留期望项,则等价于在 softmax 概率上进行无参数的期望回归。训练阶段使用上式对网络参数做标准反向传播;推理阶段直接读取 \(\hat y\) 作为预测年龄(必要时可对原图与水平翻转的预测取平均)。

轻量网络设计

轻量网络设计的出发点是以较小的模型容量与计算量,维持甚至提升分布学习与期望回归的联合训练效果。实现上,从 VGG16 出发进行结构性瘦身:首先移除全部全连接层,避免高维向量到类别空间的巨量参数;随后以混合池化替代“卷积—展平—全连接”这一路径,将最终特征通过全局平均池化与全局最大池化的组合得到紧凑表征,再接线性映射与 softmax 输出分布并衔接期望层。卷积部分按 stage 统一减小通道数,并在每个卷积后加入批归一化以稳定训练与缓解容量下降带来的优化困难。上述改动共同作用,使得 ThinAgeNet 与 TinyAgeNet 在不牺牲表征完整性的前提下显著降低参数规模与内存带宽占用,同时提升推理吞吐。

混合池化的动机在于避免单一全局平均池化对强响应的过度平滑,同时借由全局最大池化保留显著部位的激活峰值,两者的组合在年龄估计等细粒度任务上提供更鲁棒的全局描述,并可直接替代昂贵的全连接层而不引入明显的过拟合风险。与之配套的通道削减与批归一化,使有效容量与优化难度达到更合理的平衡,从而为联合损失带来更稳定的收敛路径。

在规模与效率上,这一设计将参数量从传统 VGG16 级别降至数百万量级(ThinAgeNet 约 3.7M,TinyAgeNet 约 0.9M),同时带来多倍的推理加速(约 2.6× 与 5.5×),而联合学习框架在此骨干上仍能给出与大模型相当或更优的误差。因而,轻量骨干不是独立于方法的工程附加,而是与“分布 + 期望”的端到端目标相适配的结构选择:通过减少冗余参数、提升特征聚合的有效性与稳定性,为分布拟合与期望回归同时提供足够但不过度的表示能力。

实验与结果分析

实验设置:作者在三套基准数据上评估:ChaLearn15 与 ChaLearn16 属于野外场景的 apparent age 数据集,均为每张图给出均值和标准差;Morph 属于 real age 数据集、规模较大。ChaLearn15 采用官方训练/验证/测试划分,ChaLearn16 在官方训练+验证上训练并在测试集上报告结果;Morph 依常见设置随机划分为 80% 训练、20% 测试。评测指标以 MAE 为主,针对 ChaLearn 的比赛数据同时报告 ε-error。实现层面使用轻量骨干 ThinAgeNet/TinyAgeNet,输入为对齐与标准化后的人脸,训练时进行常规数据增广;网络顶层以全连接映射得到 logits,经 softmax 输出预测的年龄分布,再由无参数的期望层得到单值年龄,并以 KL(分布端)+ L1(期望端)的联合损失端到端优化。推理阶段对原图与水平翻转各前向一次并平均。

结果分析:综合对比显示,DLDL-v2 在 Morph 上将单模型 MAE 推至 1.969,是首次低于两年的报告;在不使用外部年龄标注的前提下,其在 ChaLearn15/16 上亦达到与或优于同期方法的性能。轻量骨干显著降低复杂度:ThinAgeNet 约 3.7M 参数、TinyAgeNet 约 0.9M,相比基于 VGG16 的 DEX/DLDL 分别小约 36×/150×,前向吞吐提升约 2.6×/5.5×。消融实验表明两项工程策略稳定有效:数据增广在 apparent 与 Morph 上均带来显著 MAE 改善,混合池化相较仅用全局平均池化在三套数据上进一步降低误差。与强基线的对比亦支持论文的理论解读:Ranking 与 DLDL 均明显优于直接回归与 DEX,且 DLDL 略优于 Ranking,符合“标签分布比 Ranking 信息更充分”的结论;当把“分布 + 期望”联合优化后整体最好,说明对齐训练目标与评测指标是关键所在。对超参数的扫描显示方法对 λ 与年龄步长不敏感,在较宽范围内性能稳定,具有良好的可调性与落地性。