VQA_ORIGIN


Visual Question Answering

  • 最近在帮助学长写论文的 introduction,自己找机会补充了一些多模态其他任务的 paper 以及一些相关的综述 Survey。这篇用于简单总结一下 VQA 任务。

(1)VQA 任务的起源

  • VQA 任务正式被提出是在 2015 ICCV 会议中的论文:VQA: Visual Question Answering Link
  • VQA 任务的提出缘由是研究人员发现仅仅对于图片有 scene-level 级别粗略的理解,加上简单的 n-grram 语言模型足以解决 image caption 等任务,并不能完成引导 “AI complete” 的 desire。为此需要提出一种 “更难”的任务(require a potentially vast set of AI capabilities to answer),且便于人为评估的任务。VQA 任务由此而生。
  • Related Work 中也提到之前出现的部分 VQA Efforts,但前人的工作往往对于问题有严格的限制。

(2)VQA 任务的分类

  • 在这篇文章中提出了两个数据集:MS COCO dataset; newly created abstract scene dataset Link Link2

  • 分别对应于两种不同的任务,MS COCO 数据集上使用的是真实世界的图像,而另一个数据集使用的是 abstract 的图像,他们的功能不尽相同,MS COCO 数据集 depicting diverse and complex scenes that are effective at eliciting compelling and di- verse questions. 而合成的数据集专注于 VQA 中的逻辑推理能力。

(3)VQA 数据集获取

Collection

  • MS COCO :包含123,287 训练验证集图片,81,434测试集图片来自MS COCO 数据集,从MS COCO 数据集挑选有多个 object 语义丰富的图片作为我们数据集的图片,并且尽量保证图片的 diverse
  • abstract scene dataset :50000 scence 数据集包含20种“纸娃娃”人类模型 Link,包含 8 种不同性别,种族和年龄的组合。 肢体是可调的,以允许连续的姿势变化。 剪贴画可用于描述室内和室外场景。 该场景包含100多种物体和31种动物(摆姿势各异)。 通过使用此剪贴画,可以创建更逼真的场景(请参见图2的下一行),比以前的论文 Link 更能真实地反映真实图像。

Split

  • MS COCO 和原始数据集采用相同的 split 方法(including test-dev, test-standard, test-challenge, test-reserve)
  • abstract scene dataset 20K/10K/20K for train/val/test splits

Question

  • Question 的核心是:首先找一些 “难” 的问题(不能仅使用 low-level computer vision knowledge)同时也要保证问题需要图片才能回答,不能是不需要图片就能回答的常识问题。

Answer

  • 我们为每个问题从10个不同的工作人员收集10个答案(保证回答者不是提问者)。 我们要求受试者提供的答案是“简短的短语而不是完整的句子”。 除了回答问题之外,还向受试者询问“您认为您能够正确回答问题吗?” 可以的选择“是”、“否”、“或许”。
  • 两类 VQA 回答:(i) open-answer and (ii) multiple-choice.
    • Open-answer 的评估方法使用 $\min(\frac{\ humans\ that\ provide\ that\ answer}{3}, 1)$ 进行评估(在评估之前所有字母转为小写,numbers 转为 digits,标点符号去掉)。
      • 我们没有使用诸如 Word2Vec 之类的软指标,因为它们经常将我们希望区分的单词组合在一起,例如“左”和“右”。
    • multiple-choice task :每个问题有 18 候选答案。同 Open-answer 的评估方法,使用 $\min(\frac{\ humans\ that\ provide\ that\ answer}{3}, 1)$ 计算答案精度。
      • 对于候选答案的选择,从以下四类回答中选择:1. Correct 10个人中最多的回答 2. 合理的回答,虽然不是正确的答案,但是对于问题是合理的回应。3. 常见的回答,包含 10 个对于所有问题常用的回答 4.随机回答

(4)VQA 数据集分析

  • 统计信息:The dataset includes 614,163 questions and 7,984,119 an- swers (including answers provided by workers with and without looking at the image) for 204,721 images from the MS COCO dataset and 150,000 questions with 1,950,000 answers for 50, 000 abstract scenes.

  • Question

    • distribution of questions ( first four words statistics)

    • Question length statistics

  • Answers

    • distribution of answers for several question types.

    • Lengths : Most answers consist of a single word, with the distribution of answers containing one, two, or three words, respectively being 89.32%, 6.91%, and 2.74% for real images and 90.51%, 5.89%, and 2.49% for abstract scenes.

    • There are currently 23,234 unique one-word answers in our dataset for real images and 3,770 for abstract scenes.

    • Answer Bias Problem:Many questions are answered using either “yes” or “no” (or sometimes “maybe”) – 38.37% and 40.66% of the questions on real images and abstract scenes respectively. Among these ‘yes/no’ questions, there is a bias towards “yes” – 58.83% and 55.86% of ‘yes/no’ answers are “yes” for real images and abstract scenes. Question types such as “How many. . . ” are answered using numbers – 12.31% and 14.48% of the questions on real images and abstract scenes are ‘number’ questions. “2” is the most popular answer among the ‘number’ questions, making up 26.04% of the ‘number’ answers for real images and 39.85% for abstract scenes.

    • 回答者对于回答置信度分析:

      • 和预期相同,回答者置信度高的答案更容易和别人相同(agreement)。

    • Image Necessary : 我们让三个受访者不看 image 回答问题,结果如表所示(demonstrates that understanding the visual information is critical to VQA and that commonsense information alone is not sufficient.)

    • Which Questions Require Common Sense : 对于不同年龄分组的人进行回答采集,解决回答问题是否需要外部知识,最小能够回答问题的年龄段。

    • 是否通过现有方法生成的 caption 可以完整表述图片信息?

(5)Baselines and Methods

  • 基础 baseline:For reference, if we randomly choose an answer from the top 1K answers of the VQA train/val dataset, the test-standard accuracy is 0.12%. If we always select the most popular answer (“yes”), the accuracy is 29.72%. Pick- ing the most popular answer per question type does 36.18% and a nearest neighbor approach does 40.61% on val (see the supplement for details).
  • 我们使用 VQA train/val 训练,除非特殊说明使用 test-standard 进行human acc 的计算, 使用 test-dev 计算machine acc, and results involving human captions are trained on train and tested on val (because captions are not available for test)。
  • 文章使用 MLP (with 2 hidden layers and 1000 hidden units (dropout 0.5) in each layer with tanh non-linearity)和 LSTM followed by a softmax layer 作为 baseline.


文章作者: Jason Yuan
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Jason Yuan !
 本篇
VQA_ORIGIN VQA_ORIGIN
Visual Question Answering 最近在帮助学长写论文的 introduction,自己找机会补充了一些多模态其他任务的 paper 以及一些相关的综述 Survey。这篇用于简单总结一下 VQA 任务。 (1)VQA
下一篇 
Kwai-Internship-Summary Kwai-Internship-Summary
Intern Experience @KwaiTimeline @Kwai: 在 2020-9-2 日,我正式和组内 leader、部门 leader 以及 hrbp 提出了离职申请。 2020-3-20 提交实习生的 Resume 并完
2020-09-02
  目录