網路城邦
上一篇 回創作列表 下一篇   字體:
AI 的 VQA (讀圖會意)首次超越人類
2021/09/28 21:51:24瀏覽321|回應0|推薦3
在 2021 年 8 月 阿里達摩院在 VQA Leaderboard 以 81.26% 的準確率首次超越人類基準 (80.83 %),繼 2015 年的視覺識別和 2018 年的本文理解超越人類分數之後,人工智能在多模態技術領域的一大進展。

讀圖會意 VQA (Visual Question Answering) 是涉及視覺-本文多模態理解的高階認知任務,古人有言道"詩是無形畫,畫是有形詩",這就可以知道它的難度,對於研發通用人工智能具有重要意義。

為鼓勵功克這一難題,CVPR 從 2015 年起連續 6 年舉辦 VQA 挑戰賽,其中包含超過 20 萬張真實照片,110 萬道考題。在測試中,AI 須根據給定的圖片及自然語言問題,生成正確的自然語言回答。典型 VQA 應用包括: 商品圖文信息理解,直播視頻交互和多模態搜索。

VQA 考卷難度堪稱"變態",要拿到漂亮的分數,AI 不僅要修練好圖像識別,文本識別,文本理解等基本功,還要解鎖計數,獨鐘錶,推理認知等附加技能,此外還必須有百棵全書的豐富常識。
( 創作散文 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=robertyjlai&aid=168594844