重大突破！达摩院AI刷新全球VQA纪录

阿里云 2022-07-02

近日，国际权威机器视觉问答榜单

VQA Leaderboard出现关键突破

阿里巴巴达摩院以81.26%的准确率

创造了新纪录

让AI在“读图会意”上首次超越人类基准

近10年来，AI技术保持高速发展。然而在视觉问答VQA(Visual Question Answering）这一涉及视觉-文本多模态理解的高阶认知任务上，AI始终未取得超越人类水平的突破。

为攻克这一难题而设立的挑战赛VQA Challenge，自2015年起先后于全球计算机视觉顶会ICCV及CVPR举办，形成了国际上规模最大、认可度最高的VQA数据集，其包含超20万张真实照片、110万道考题。

在首届VQA挑战赛上，AI的最高准确率仅能达到55%。今年8月，达摩院以81.26%的准确率创造VQA Leaderboard全球纪录，首次超越人类基准线80.83%。

这是VQA测试以来，AI第一次超过人类水平，是标志性的重大突破。

VQA技术自2015年的进展

01什么是VQA？

自然语言技术与计算机视觉交融，是多模态领域重要的前沿研究方向。其中，VQA是AI领域难度最高的挑战之一，对研发通用AI具有重要意义。

VQA的任务是根据给定图片及自然语言问题，生成正确的自然语言回答。

例如下面这张图，AI先提取了问题关键信息——玩具人；再根据常识做出回答——星球大战。

VQA问题

What movie franchise are the action figures from?（图中玩具人的IP出自哪部电影？）

△点击查看AI回答

完成VQA挑战，需要AI从图像中提取与问题相关的信息，包含从细微物体的监测到抽象场景的推理，并基于对视觉、语言和常识性知识的理解做出回答，也就是“读图会意”——通过视觉理解信息，是人类的一项基础能力，但对AI来说却是要求极高的认知任务。

VQA挑战的核心难点也在于此：单个AI模型需融合复杂的计算机视觉及自然语言技术，才能够根据给定的图片以及自然语言问题生成正确的回答。

02 VQA高分背后

为了解决VQA挑战，达摩院对AI视觉-文本推理体系进行了系统性的设计，并融合大量算法创新，针对运算流程进行优化：

提升图片理解能力

测试中，AI需要先对图像信息进行扫描，为提高图片理解能力，达摩院运用了多项创新算法。

多样性视觉特征表示：同时使用Region，Grid，Patch等多样性视觉特征表示，从各方面刻画图片的局部和全局语义信息。

更好地让AI理解图文关联

AI需结合对问题文本的理解，建立图片与文字的关联性：即多模态信息融合。

多模态预训练模型：达摩院提出SemVLP，Grid-VLP，E2E-VLP和Fusion-VLP等预训练模型，用于进行多模态信息融合和语义映射。

自适应的跨模态语义融合和对齐技术：为使这一融合更加高效，研发自适应的跨模态语义融合和对齐技术，在预训练模型中，加入了Learning to Attend机制。

其中自研的多模态预训练模型E2E-VLP，StructuralLM已被国际顶级会议ACL2021接受。