AI 的 VQA (讀圖會意)首次超越人類 - 飛虎行空

字體：小中大

AI 的 VQA (讀圖會意)首次超越人類

2021/09/28 21:51:24瀏覽627｜回應0｜推薦3

在 2021 年 8 月阿里達摩院在 VQA Leaderboard 以 81.26% 的準確率首次超越人類基準 (80.83 %)，繼 2015 年的視覺識別和 2018 年的本文理解超越人類分數之後，人工智能在多模態技術領域的一大進展。

讀圖會意 VQA (Visual Question Answering) 是涉及視覺-本文多模態理解的高階認知任務，古人有言道"詩是無形畫，畫是有形詩"，這就可以知道它的難度，對於研發通用人工智能具有重要意義。

為鼓勵功克這一難題，CVPR 從 2015 年起連續 6 年舉辦 VQA 挑戰賽，其中包含超過 20 萬張真實照片，110 萬道考題。在測試中，AI 須根據給定的圖片及自然語言問題，生成正確的自然語言回答。典型 VQA 應用包括: 商品圖文信息理解，直播視頻交互和多模態搜索。

VQA 考卷難度堪稱"變態"，要拿到漂亮的分數，AI 不僅要修練好圖像識別，文本識別，文本理解等基本功，還要解鎖計數，獨鐘錶，推理認知等附加技能，此外還必須有百棵全書的豐富常識。

( 創作｜散文 )