||
作为OpenAI公司ChatGPT模型的竞品,谷歌公司提出的BARD模型已经在会话型人工智能领域取得了显著进展。特别值得注意的是,BARD模型的最新版本在对话过程中具备了处理文本提示和视觉输入的能力。鉴于BARD模型在文本输入处理方面取得的令人嘱目的成就,来自苏黎世联邦理工学院(ETHZ)、澳大利亚国立大学(ANU)和穆罕默德·本·扎伊德人工智能大学(MBZUAI)的研究者们聚焦于探索其在理解并解析由文本问题引导的视觉数据(图像)方面的潜力。这一探索有望揭示BARD模型以及其他即将涌现的多模态生成式模型背后的新见解与挑战,特别是在解决那些需要准确的视觉和语言理解能力的复杂问题时。具体而言,本研究针对15种不同的任务场景展开研究,涵盖了通用、伪装、医疗、水下和遥感数据等领域,用于全面评估BARD模型的表现。实验结果表明,在这些视觉场景中,BARD模型仍然面临一定的困难,表明其在视觉理解能力方面具有提升空间。这项实证研究有助于推动未来相关模型的发展,增强模型在理解和解析细粒度视觉数据方面的能力。
全文下载:
How Good is Google Bard’s Visual Understanding? An Empirical Study on Open Challenges
Haotong Qin, Ge-Peng Ji, Salman Khan, Deng-Ping Fan, Fahad Shahbaz Khan & Luc Van Gool
https://www.mi-research.net/article/doi/10.1007/s11633-023-1469-x
https://link.springer.com/article/10.1007/s11633-023-1469-x
全文导读
BARD(谷歌AI聊天机器人)是一款基于LaMDA模型和后续的PaLM模型的生成式人工智能系统。于2023年3月初步推出,并于5月在全球范围内推广开来。该系统能够接受文本提示,并根据这些提示执行多种基于文本的任务,如提供答案、摘要和创作各类文本内容。截至2023年7月13日,谷歌的BARD宣布了一项重大更新,该更新允许用户以图像作为输入,并结合文本提示使用。据报道,BARD能够分析视觉内容,提供相应的描述(如图像标题), 或者运用视觉信息回答问题。值得关注的是,尽管其他模型如GPT-4声称能够接受并理解图像输入作为提示,但这些模型并未公开使用。因此,BARD模型为计算机视觉领域提供了首个机会,去评估它的可靠性和鲁棒性,以理解现有的优势和局限性。
图片来自网络
本研究工作的目标是基于计算机视觉领域中长期存在的一些问题,分析BARD模型在应对这类问题上所具备的能力。
本研究针对计算机视觉问题,确定了一系列具有趣味性的任务场景用于BARD模型的定性评价。考虑到当前BARD模型尚未提供开放的API访问权限,因此无法进行大规模基准的定量测试。这些任务场景和提示不仅适用于评估BARD模型的视觉理解能力,也可以为未来的大规模多模态模型(例如GPT-4)的评估提供一定的参考依据。本研究特别选用BARD模型的原因是,其在所有开/闭源多模态对话模型中表现突出,包括于2023年7月18日推出的Bing-Chat模型。相关数据请参考LLaVA-Bench。
图1 使用谷歌的BARD进行多模态交互会话的若干示例,其中AI系统根据从Microsoft COCO数据集中获取的图像回答用户的问题
实证实验
为了评估BARD在给定文本提示的条件下的视觉感知和语境理解等能力,研究者们设计了一系列视觉-语言任务场景。随后深入研究了从这些实证研究中提取出的若干例子,涵盖了总共15个视觉问答(VQA)场景,涉及对象检测和定位、分析对象属性、计数、可供性以及自然图像中的细粒度识别等任务。研究者们还在一些具有挑战性的情况下进行了实验,例如识别伪装对象,以及医疗、水下和遥感图像等多样的领域。以下是本研究具体涉及的场景。对应场景的详细解释请见原文:
How Good is Google Bard’s Visual Understanding? An Empirical Study on Open Challenges
场景#1–对象属性
场景#2–对象存在
场景#3–对象位置
场景#4–关系推理
场景#5–适用性
场景#6–对抗样本
场景#7–雨天条件
场景#8–情感理解
场景#9–细粒度识别
场景#10–识别伪装对象
场景#11–对象计数
场景#12–发现工业缺陷
场景#13–识别光学字符
场景#14–分析医疗数据
场景#15–解释遥感数据
全文下载:
How Good is Google Bard’s Visual Understanding? An Empirical Study on Open Challenges
Haotong Qin, Ge-Peng Ji, Salman Khan, Deng-Ping Fan, Fahad Shahbaz Khan & Luc Van Gool
https://www.mi-research.net/article/doi/10.1007/s11633-023-1469-x
https://link.springer.com/article/10.1007/s11633-023-1469-x
BibTex:
@Article{MIR-2023-08-155,
author = {Haotong Qin and Ge-Peng Ji and Salman Khan and Deng-Ping Fan and Fahad Shahbaz Khan and Luc Van Gool},
journal = {Machine Intelligence Research},
title = {How Good is Google Bard′s Visual Understanding? An Empirical Study on Open Challenges},
year = {2023},
pages = {605-613},
doi = {10.1007/s11633-023-1469-x}}
纸刊免费寄送
Machine Intelligence Research
MIR为所有读者提供免费寄送纸刊服务,如您对本篇文章感兴趣,请点击下方链接填写收件地址,编辑部将尽快为您免费寄送纸版全文!
说明:如遇特殊原因无法寄达的,将推迟邮寄时间,咨询电话010-82544737
收件信息登记:
https://www.wjx.cn/vm/eIyIAAI.aspx#
∨关于Machine Intelligence Research
Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等数据库收录。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 09:46
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社