多模态感情分类(一)数据集调研
本文主要关注 图像 + 文本 的多模态任务,除此之外还有 语音 + 图像 + 文本 & 视频 + 文本 的数据集。
模态 | 任务 | 数据集 | 数据集 | 方法 |
---|---|---|---|---|
图像 + 文本 | 图文情感分类 | Yelp 数据集 | Tumblr 数据集 | VistaNet [1] |
图像 + 文本 | 图文的方面级情感分类 | Multi-ZOL 数据集 | Twitter15/17数据集 | MINI [2] |
图像 + 文本 | 图文反讽识别 | Twitter反讽数据集 | / | HFM [3] |
(1)各个数据集详细说明
(1.1)面向图文的情感分类任务
- Yelp 数据集
- 数据内容:来自Yelp.com评论网站,收集的是波士顿,芝加哥,洛杉矶,纽约,旧金山五个城市关于餐厅和食品的Yelp上的评论。
- 数据集规模:一共有44305条评论,244569张图片(每条评论的图片有多张),平均每条评论有13个句子,230个单词。
- 数据集的情感标注:是对每条评论的情感倾向打1,2,3,4,5五个分值。
- Tumblr 数据集
- 数据内容:从Tumblr收集来的多模态情绪数据集。Tumblr是一种微博客服务,用户在上面发布的多媒体内容通常包含:图片、文本和标签。数据集是根据选定的十五种情绪搜索对应的情绪标签的推文,并且只选择其中既有文本又有图片的部分,然后进行了数据处理,删除了那些文本中原本就包含对应情绪词的内容,以及那些主要不是英文为主的推文。
- 数据集规模:共有256897个多模态推文。
- 数据集的情感标注:包含高兴,悲伤,厌恶在内的十五种情绪。
(1.2) 面向图文的方面级情感分类任务
方面级情感分类任务是对给定一个方面(Aspect),研究多模态文档在该方面的情感极性。一个方面可能由多个词语组成,例如“Eatingenvironment”,方面本身包含的信息对于文本和图像信息的提取有重要的指导意义。
- Multi-ZOL 数据集
- 数据内容:数据集收集整理了IT信息和商业门户网站ZOL.com上的关于手机的评论。
- 数据集规模:原始数据有12587条评论(7359条单模态评论,5288条多模态评论),覆盖114个品牌和1318种手机。其中的5288多模态评论,构成了Multi-ZOL数据集。在这个数据集中,每条多模态数据包含一个文本内容、一个图像集,以及至少一个但不超过六个评价方面。
- 数据集的情感标注:这六个方面分别是性价比、性能配置、电池寿命、外观与感觉、拍摄效果、屏幕。总共得到28469(=5288*([1-6]))个方面。对于每个方面,都有一个从1到10的情感得分。
- Twitter15/17数据集
- 数据内容:包含文本和文本对应图片的多模态数据集,数据集标注了目标实体及对其图文中表达的情感倾向。
- 数据集规模:Twitter-15(3179/1122/1037)条带图片推文,Twitter-17(3562/1176/1234)条带图片推文(train, dev, test)
- 数据集的情感标注:情感标注为三分类
(1.3)面向图文的反讽识别任务
反讽识别任务的目的是判断一段文档是否含有反讽表达。
- Twitter 反讽数据集
- Twitters反讽数据集构建自Twitter平台,其从Twitter上收集包含图片和一些特定话题标签(例如#sarcasm,等等)的英语推文,将其作为正例,并收集带有图片但没有此类标签的英语推文,作为反例。
- 数据集规模:数据集分为训练集、开发集和测试集,分别是19816,2410,2409条带图片推文。
- 数据集的情感标注:标注为是讽刺/不是讽刺二分类
(2)Yelp 数据集 详细调研
数据集链接:来源 kaggle 网站 https://www.kaggle.com/yelp-dataset/yelp-dataset/discussion
在该网站上我们可以看到一些其他人对于数据集做的 EDA 工作。然而,我们也可以看到,原始数据集需要进过很多额外的处理才能真正的融入使用。(不妨直接找找在这个数据集上运行的代码,从那里找数据集。)
STOA : [1] 实现代码:https://github.com/PreferredAI/vista-net
(3)Todo Next
- 下一篇中,我们将相近的阅读 [1] paper 并且 分析 https://github.com/PreferredAI/vista-net 实现代码。
Reference
[1] Truong T Q, Lauw H W. VistaNet:Visual Aspect Attention Network for Multimodal Sentiment Analysis[C]. nationalconference on artificial intelligence, 2019: 305-312.
[2] Xu N, Mao W, Chen G, et al.Multi-Interactive Memory Network for Aspect Based Multimodal SentimentAnalysis[C]. national conference on artificial intelligence, 2019: 371-378.
- [3] Cai Y, Cai H, Wan X, et al.Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model[C].meeting of the association for computational linguistics, 2019: 2506-2515.