Graph MFN


paper: Multimodal Language Analysis in the Wild: CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph

Reference From: https://github.com/pliang279/MFN & https://github.com/A2Zadeh/CMU-MultimodalSDK

开源实现仓库:https://github.com/iyuge2/MSA-AAAI2021 目前属于 private 状态,之后会 public 。

DFG 模型

下图为 graph-mfn 模型于原本的 mfn 模型的对比图。(可以看出使用 DFG 代替了Delta-memory Attention Network)

image-20200723232140382

  • 目前正在为 https://github.com/Columbine21/MSA-AAAI2021/commits?author=iyuge2 贡献模型代码。
  • 目前已经完成了模型部分的编写,预计本周内跑通 graph-mfn 模型,并对于模型超参数进行 一定调优。
  • 模型的解释:使用 DFG 模型代替了原来的 attention 部分。使用 DFG 的顶层节点的 representation 作为原MFN 模型的 attened,$\hat{c}$ 进行相应的 gate 操作。

实验结果 & 启发

本文值得学习的地方在于: 评估 modalities fusion 过程中,模态间的交互。(模态融合可解释性的核心)

文章通过 DFG 模型中不同 n-modal 之间的权重值随时间变化的热度图进行了以下分析:

  1. 多模态融合是一个易变的过程

    即在不同的 case 中,DFG 总体来看 n-modal 之间的权重值变化较大。

  2. 融合有一定的优先级

    可以从图中看到 (l → l,a)、 (a → l,a) 这两行权值在 4 个 case 中权值均很大。(语言 l 声音 a 之间 交互频繁)

    多模态结果 很少直接受单模态影响。l → $\tau$ a → $\tau$ v → $\tau$ 的权值均较低。

    视觉 v 频繁表现出独立于其他模态的信息。

  3. 多模态融合主导路径分析

    声音和文本信息交互密切(实质上他们本事可通过 word intonations 对齐,即表达完全相同语义)。

    视频信息只有当非常具有信息量的时候才参与融合。(图1、4中(对应视频信息量大)v 的链路权重大,而图2、3中含 v 的链路权重小)

复现结果

  • 模型效果复现

    • MOSEI 数据集

      最终模型参数选择:

      模型实现效果对比:(我们的复现采用了 grid search 方法,但还是比paper 中的效果低几个 pp )

    • MOSI 数据集

      最终模型参数选择:

      模型实现效果对比:

  • 可视化效果复现

可视化工作核心代码(使用 matplotlib 绘制,可进一步改善):

部分可解释性部分复现结果展示:(如下图中:可以验证 video 的信息是几乎没有贡献的)


文章作者: Jason Yuan
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Jason Yuan !
  目录