Lable Distribution for Multimodal Machine Learning

导读

多模态机器学习致力于通过多源数据来了解世界，如图像、语音和文本等。相比于单模态，多模态数据包含更多的信息，且模态之间具有互补性，因此多模态机器学习模型往往表现出比单模态更好的性能。然而，如何有效进行多模态融合，挖掘其中深层的特征表达，始终是多模态机器学习的重难点。区别于以往的多模态融合方法，本文考虑边信息引导多模态融合。提出多模态标记分布学习框架，利用边信息恢复出多模态标记分布，表示每个模态在描述示例时所占比例，然后采用多模态标记分布指导多模态融合，从而更准确的获取融合特征。针对不同的时序数据，本文进一步提出两个多模态标记分布学习算法，并分别应用于多模态情感识别与疾病诊断任务。实验结果正式了该算法优于现有先进算法。

多模态标记分布学习

区别于以往的多模态机器学习算法仅考虑各个模态特征，本文认为多模态融合会受到环境影响，如图1所示，当视频处于昏暗的环境中，我们会更关注于音频与字幕，而当视频处于嘈杂且没有字幕的时候，我们会更关注于图像来分析视频的内容。因此，本文提出利用边信息恢复出多模态标记分布，用于表示各个模态在环境影响下对示例的描述程度，并用多模态标记分布指导多模态融合，从而获得更准确的融合特征。由于真实世界数据中，缺少多模态标记分布的确切标注，因此，我们提出了一个端到端的多模态标记分布学习框架，利用任务的监督信号，通过反馈学习来获得多模态标记分布。

图1. 模态重要性示意图。在不同环境下，各个模态在描述示例时的比重会发生变化。

定义 $\mathcal{X} = \mathbb{R}^{r_s} \times \mathbb{R}^{r_1} \times \mathbb{R}^{r_2} \times \cdots \times \mathbb{R}^{r_M}$ 为输入空间，包括边信息（ $r_s$ 维）与 $M$ 个模态特征（用 $r_m$ 表示第 $m$ 个模态维度）。用 $\mathcal{Y} = \{y_j\}^q_{j=1}$ 表示标记空间，共 $q$ 个类。给定训练集 $\mathcal{D} = \{(\textbf{x}_i,\textbf{y}_i)|1 \le i \le N \}$ ，其中 $\textbf{x}_i = [ \textbf{s}_i, \textbf{x}_i^1, \textbf{x}_i^2, \cdots, \textbf{x}_i^M] \in \mathcal{X}$ 为特征向量，包括边信息 $\textbf{s}_i$ 与模态特征 $\textbf{x}_i^m$ ， $\textbf{y}_i \subseteq \mathcal{Y}$ 为相应标记， $N$ 为训练集数量。则多模态标记分布学习的任务为学习一个预测模型： $f: \mathcal{X} \to 2^{\mathcal{Y}}$ 。

图2. 多模态标记分布学习框架。

多模态标记分布学习框架如图2所示。定义 $d_{\textbf{s}}^{m} \in \mathbb{R}$ 为第 $m$ 个模态的描述度，则多模态标记分布为 $\textbf{d} = \{ d_{\textbf{s}}^1, d_{\textbf{s}}^{2}, \cdots, d_{\textbf{s}}^{M} \}$ 。我们假设 $d_{\textbf{s}}^{m} \in [0,1]$ ，那么所有模态可以完整描述该示例，即 $\sum{ \textbf{d} } = 1$ 。由于描述度与概率分布具有相同的约束，因此 $d_{\textbf{s}}^{m}$ 可以表示为条件概率， $d_{\textbf{s}}^{m} = P( \textbf{x}^m| \textbf{s})$ 。本文构建条件概率函数 $p(\textbf{x}^m|\textbf{s};\textbf{w})$ 来求解：

$\textbf{d} = p(\textbf{x}|\textbf{s};\textbf{w}) \\ = softmax(\textbf{h}_{\textbf{d}} \textbf{w}_{\textbf{d}} + b_{\textbf{d}})$

其中， $\textbf{w}_{\textbf{d}} \in \mathbb{R}^{r_{h,d} \times M}$ 为模型参数， $b_{\textbf{d}} \in \mathbb{R}$ 为偏置， $\textbf{h}_{\textbf{d}} \in \mathbb{R}^{r_{h,d}}$ 为隐含层输出，本文设置为两层隐含层：

$\textbf{h}_{\textbf{d}} = \sigma( \textbf{h}_{\textbf{d},1} \textbf{w}_{\textbf{h},\textbf{d}} + b_{\textbf{h},\textbf{d}}) \\ \textbf{h}_{\textbf{d},1} = \sigma( \textbf{s}_a \textbf{w}_{\textbf{h},\textbf{d},1} + b_{\textbf{h},\textbf{d},1})$

其中， $\textbf{w}_{\textbf{h},\textbf{d}} \in \mathbb{R}^{r_{h,d,1} \times r_{h,d}}$， $\textbf{w}_{\textbf{h},\textbf{d},1} \in \mathbb{R}^{r_s \times r_{h,d,1}}$ ， $\sigma$ 为激活函数，可以为任意非线性函数如tanh或relu等。为了获得更好的理解能力，本文采用了自注意力机制：

$\textbf{s}_a = softmax(\frac{QK^T}{\sqrt{r_s}})V\\ Q = \textbf{s} \textbf{w}_Q\\ K = \textbf{s} \textbf{w}_K\\ V = \textbf{s} \textbf{w}_V$

其中， $Q, K \in \mathbb{R}^{r_k}$ ， $V \in \mathbb{R}^{r_s}$ ， $\textbf{w}_Q , \textbf{w}_K, \in \mathbb{R}^{r_s \times r_k}$ and $\textbf{w}_V \in \mathbb{R}^{r_s \times r_s}$ 为参数矩阵。

在对多模态进行融合前，我们采用线性变换将各模态特征映射到同一特征空间：

$\widetilde{\textbf{x}}^m = \sigma( \textbf{x}^m \textbf{w}_{x,m}+b_{x,m})$

再用多模态标记分布指导多模态融合：

$\textbf{x}_F = Concat( \textbf{d} \otimes \widetilde{\textbf{x}} )\\ = [d_{\textbf{s}}^1 \widetilde{\textbf{x}}^1, d_{\textbf{s}}^2 \widetilde{\textbf{x}}^2, \cdots ,d_{\textbf{s}}^M \widetilde{\textbf{x}}^M ]$

最后，我们通过前馈神经网络构建多模态融合特征到任务标记的映射：

$\hat{\textbf{y}} = sigmoid( \textbf{h}_{\textbf{y}} \textbf{w}_{\textbf{y}} +b_{\textbf{y}}) \\ \textbf{h}_{\textbf{y}} = \sigma( \textbf{h}_{\textbf{y},1} \textbf{w}_{\textbf{h},{\textbf{y}}} + b_{\textbf{h},{\textbf{y}}}) \\ \textbf{h}_{\textbf{y},1} = \sigma(\textbf{x}_F \textbf{w}_{\textbf{h},\textbf{y},1} + b_{\textbf{h},\textbf{y},1})$

则多模态标记分布学习的任务为最小化分类交叉熵损失：

$L = -\sum y\cdot log\hat{y}$

时序多模态标记分布学习

对于时序数据，其特征空间为 $\widehat{\mathcal{X}} = \mathbb{R}^{r_s \times T_s} \times \mathbb{R}^{r_1 \times T_1} \times \mathbb{R}^{r_2 \times T_2} \times \cdots \times \mathbb{R}^{r_M \times T_M}$ ，其中 $T_s$ 表示边信息的时间序列， $T_m$ 则表示第 $m$ 个模态的时间序列。本文根据时序数据特点，提出了先融合多模态标记分布学习和后融合标记分布学习算法。

对于各个模态数据可对齐，且边信息会随时发生改变的时序数据，即 $T_s = T_1 = T_2 = \cdots = T_m$ ，如图1所示的视频数据，本文提出先融合多模态标记分布。首先将边信息与各个模态在时间轴上进行对齐，并根据多模态标记分布学习框架进行融合，然后采用双向LSTM对融合后的时序特征进行学习：

$\textbf{H} = BiLSTM(\textbf{X}_F)$

其中， $\textbf{X}_F = [ \textbf{x}_F^1, \textbf{x}_F^2, \cdots, \textbf{x}_F^T]$ 为融合后的时序特征，利用注意力机制进行池化：

$\textbf{H}_a = \textbf{a} \textbf{H} \\ \textbf{a} = softmax( \textbf{H}\textbf{w}_a )$

则融合后特征到任务标记的映射变为：

$\hat{\textbf{y}} = sigmoid( \textbf{h}_H \textbf{w}_{\hat{y}} +b_{\hat{y}}) \\ \textbf{h}_H = \sigma( \textbf{h}_{H,1} \textbf{w}_{H} + b_{H}) \\ \textbf{h}_{H,1} = \sigma( \textbf{H}_a \textbf{w}_{H,1} + b_{H,1})$

而对于各个模态无法对齐，且边信息不会发生改变的时序数据，如多模态疾病预测问题中，我们可以将患者信息作为边信息，而其检查结果作为多模态特征，则在该次就诊时患者信息不会发生改变，且检查结果数据之间不存在对齐，本文提出了后融合多模态标记分布学习。首先采用双向LSTM对时序数据进行特征表达：

$\textbf{H}_m = BiLSTM(\textbf{X}_m), 1 \le m \le M$

其中， $\textbf{X}_m = [\textbf{x}_m^1, \textbf{x}_m^2, \cdots, \textbf{x}_m^{T_m}]$ 为第 $m$ 个模态的时序数据，同样采用注意力机制进行池化：

$\textbf{h}_{m,a} = \textbf{a}_m \textbf{H}_m\\ \textbf{a}_{m} = softmax( \textbf{H}_m \textbf{w}_{a,m} )$

则 $\textbf{h}_{m,a}$ 可以替代多模态标记分布学习框架中的 $\textbf{x}_m$ 进行多模态融合。

实验

本文将先融合多模态标记分布学习算法应用于情感分析任务，并在CMU-MOSI与CMU-MOSEI数据集上进行实验，与现有先进算法进行比较，展现出了更好的鲁棒性。如图3所示，为部分实验结果，展示了随着环境变化，各个模态重要性发生改变。

图3. 部分实验结果展示。

本文将后融合多模态标记分布学习算法应用于疾病诊断任务，在MIMIC-III数据集上进行实验。采用Word2vec方法将结构化的患者特征与检查结果进行词嵌入，从而挖掘特征间的潜在联系。该算法与现有先进算法进行比较，表现出更高的准确性与泛化能力。