多模态感情分析数据集调研


多模态感情分类(一)数据集调研

本文主要关注 图像 + 文本 的多模态任务,除此之外还有 语音 + 图像 + 文本 & 视频 + 文本 的数据集。

模态 任务 数据集 数据集 方法
图像 + 文本 图文情感分类 Yelp 数据集 Tumblr 数据集 VistaNet [1]
图像 + 文本 图文的方面级情感分类 Multi-ZOL 数据集 Twitter15/17数据集 MINI [2]
图像 + 文本 图文反讽识别 Twitter反讽数据集 / HFM [3]

(1)各个数据集详细说明

(1.1)面向图文的情感分类任务

  • Yelp 数据集
    • 数据内容:来自Yelp.com评论网站,收集的是波士顿,芝加哥,洛杉矶,纽约,旧金山五个城市关于餐厅和食品的Yelp上的评论。
    • 数据集规模:一共有44305条评论,244569张图片(每条评论的图片有多张),平均每条评论有13个句子,230个单词。
    • 数据集的情感标注:是对每条评论的情感倾向打1,2,3,4,5五个分值。
  • Tumblr 数据集
    • 数据内容:从Tumblr收集来的多模态情绪数据集。Tumblr是一种微博客服务,用户在上面发布的多媒体内容通常包含:图片、文本和标签。数据集是根据选定的十五种情绪搜索对应的情绪标签的推文,并且只选择其中既有文本又有图片的部分,然后进行了数据处理,删除了那些文本中原本就包含对应情绪词的内容,以及那些主要不是英文为主的推文。
    • 数据集规模:共有256897个多模态推文。
    • 数据集的情感标注:包含高兴,悲伤,厌恶在内的十五种情绪。

(1.2) 面向图文的方面级情感分类任务

方面级情感分类任务是对给定一个方面(Aspect),研究多模态文档在该方面的情感极性。一个方面可能由多个词语组成,例如“Eatingenvironment”,方面本身包含的信息对于文本和图像信息的提取有重要的指导意义。

  • Multi-ZOL 数据集
    • 数据内容:数据集收集整理了IT信息和商业门户网站ZOL.com上的关于手机的评论。
    • 数据集规模:原始数据有12587条评论(7359条单模态评论,5288条多模态评论),覆盖114个品牌和1318种手机。其中的5288多模态评论,构成了Multi-ZOL数据集。在这个数据集中,每条多模态数据包含一个文本内容、一个图像集,以及至少一个但不超过六个评价方面。
    • 数据集的情感标注:这六个方面分别是性价比、性能配置、电池寿命、外观与感觉、拍摄效果、屏幕。总共得到28469(=5288*([1-6]))个方面。对于每个方面,都有一个从1到10的情感得分。
  • Twitter15/17数据集
    • 数据内容:包含文本和文本对应图片的多模态数据集,数据集标注了目标实体及对其图文中表达的情感倾向。
    • 数据集规模:Twitter-15(3179/1122/1037)条带图片推文,Twitter-17(3562/1176/1234)条带图片推文(train, dev, test)
    • 数据集的情感标注:情感标注为三分类

(1.3)面向图文的反讽识别任务

反讽识别任务的目的是判断一段文档是否含有反讽表达。

  • Twitter 反讽数据集
    • Twitters反讽数据集构建自Twitter平台,其从Twitter上收集包含图片和一些特定话题标签(例如#sarcasm,等等)的英语推文,将其作为正例,并收集带有图片但没有此类标签的英语推文,作为反例。
    • 数据集规模:数据集分为训练集、开发集和测试集,分别是19816,2410,2409条带图片推文。
    • 数据集的情感标注:标注为是讽刺/不是讽刺二分类

(2)Yelp 数据集 详细调研

数据集链接:来源 kaggle 网站 https://www.kaggle.com/yelp-dataset/yelp-dataset/discussion

在该网站上我们可以看到一些其他人对于数据集做的 EDA 工作。然而,我们也可以看到,原始数据集需要进过很多额外的处理才能真正的融入使用。(不妨直接找找在这个数据集上运行的代码,从那里找数据集。)

STOA : [1] 实现代码:https://github.com/PreferredAI/vista-net

(3)Todo Next

Reference

  • [1] Truong T Q, Lauw H W. VistaNet:Visual Aspect Attention Network for Multimodal Sentiment Analysis[C]. nationalconference on artificial intelligence, 2019: 305-312.

  • [2] Xu N, Mao W, Chen G, et al.Multi-Interactive Memory Network for Aspect Based Multimodal SentimentAnalysis[C]. national conference on artificial intelligence, 2019: 371-378.

  • [3] Cai Y, Cai H, Wan X, et al.Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model[C].meeting of the association for computational linguistics, 2019: 2506-2515.

文章作者: Jason Yuan
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Jason Yuan !
 上一篇
多模态论文感情分类篇(VistaNet) 多模态论文感情分类篇(VistaNet)
多模态论文感情分类篇(VistaNet)写在前面:本计划好直接从 code 入手直接看模型实现,但是一看 source code:tensorflow,奈何 PyTorch 党看 tensorflow 过于不适,只能先从 paper 读起,
下一篇 
Sklearn:Gaussian Mixture Model Sklearn:Gaussian Mixture Model
Sklearn 源码阅读笔记(一)GMM(一)GMM 模型简述关于模型中_m_step更新公式推导,有两种方式 (推荐一:https://datawhalechina.github.io/pumpkin-book/#/chapter9/ch
  目录