多模态感情分类（一）数据集调研

本文主要关注图像 + 文本的多模态任务，除此之外还有语音 + 图像 + 文本 & 视频 + 文本的数据集。

（1）各个数据集详细说明

Yelp 数据集
- 数据内容：来自Yelp.com评论网站，收集的是波士顿，芝加哥，洛杉矶，纽约，旧金山五个城市关于餐厅和食品的Yelp上的评论。
- 数据集规模：一共有44305条评论，244569张图片（每条评论的图片有多张），平均每条评论有13个句子，230个单词。
- 数据集的情感标注：是对每条评论的情感倾向打1,2,3,4,5五个分值。
Tumblr 数据集
- 数据内容：从Tumblr收集来的多模态情绪数据集。Tumblr是一种微博客服务，用户在上面发布的多媒体内容通常包含：图片、文本和标签。数据集是根据选定的十五种情绪搜索对应的情绪标签的推文，并且只选择其中既有文本又有图片的部分，然后进行了数据处理，删除了那些文本中原本就包含对应情绪词的内容，以及那些主要不是英文为主的推文。
- 数据集规模：共有256897个多模态推文。
- 数据集的情感标注：包含高兴，悲伤，厌恶在内的十五种情绪。

方面级情感分类任务是对给定一个方面（Aspect），研究多模态文档在该方面的情感极性。一个方面可能由多个词语组成，例如“Eatingenvironment”，方面本身包含的信息对于文本和图像信息的提取有重要的指导意义。

Multi-ZOL 数据集
- 数据内容：数据集收集整理了IT信息和商业门户网站ZOL.com上的关于手机的评论。
- 数据集规模：原始数据有12587条评论(7359条单模态评论，5288条多模态评论)，覆盖114个品牌和1318种手机。其中的5288多模态评论，构成了Multi-ZOL数据集。在这个数据集中，每条多模态数据包含一个文本内容、一个图像集，以及至少一个但不超过六个评价方面。
- 数据集的情感标注：这六个方面分别是性价比、性能配置、电池寿命、外观与感觉、拍摄效果、屏幕。总共得到28469（=5288*([1-6])）个方面。对于每个方面，都有一个从1到10的情感得分。
Twitter15/17数据集
- 数据内容：包含文本和文本对应图片的多模态数据集，数据集标注了目标实体及对其图文中表达的情感倾向。
- 数据集规模：Twitter-15(3179/1122/1037)条带图片推文，Twitter-17（3562/1176/1234）条带图片推文(train, dev, test)
- 数据集的情感标注：情感标注为三分类

反讽识别任务的目的是判断一段文档是否含有反讽表达。

Twitter 反讽数据集
- Twitters反讽数据集构建自Twitter平台，其从Twitter上收集包含图片和一些特定话题标签(例如#sarcasm，等等)的英语推文，将其作为正例，并收集带有图片但没有此类标签的英语推文，作为反例。
- 数据集规模：数据集分为训练集、开发集和测试集，分别是19816,2410,2409条带图片推文。
- 数据集的情感标注：标注为是讽刺/不是讽刺二分类

在该网站上我们可以看到一些其他人对于数据集做的 EDA 工作。然而，我们也可以看到，原始数据集需要进过很多额外的处理才能真正的融入使用。（不妨直接找找在这个数据集上运行的代码，从那里找数据集。）

[1] Truong T Q, Lauw H W. VistaNet:Visual Aspect Attention Network for Multimodal Sentiment Analysis[C]. nationalconference on artificial intelligence, 2019: 305-312.
[2] Xu N, Mao W, Chen G, et al.Multi-Interactive Memory Network for Aspect Based Multimodal SentimentAnalysis[C]. national conference on artificial intelligence, 2019: 371-378.
[3] Cai Y, Cai H, Wan X, et al.Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model[C].meeting of the association for computational linguistics, 2019: 2506-2515.

Jason Yuan

http://Columbine21.github.io/2020/06/09/multimodal-sentiment-analysis/