Kaiyun网页版·「中国」开云官方网站 登录入口

Kaiyun网页版·「中国」开云官方网站 登录入口

新闻 你的位置:Kaiyun网页版·「中国」开云官方网站 登录入口 > 新闻 > 开云体育为 VLM 的评估提供了更可靠的基准-Kaiyun网页版·「中国」开云官方网站 登录入口

开云体育为 VLM 的评估提供了更可靠的基准-Kaiyun网页版·「中国」开云官方网站 登录入口

发布日期:2025-08-18 07:00    点击次数:194

开云体育为 VLM 的评估提供了更可靠的基准-Kaiyun网页版·「中国」开云官方网站 登录入口

幻觉(Hallucination),即生成事实失实或不一致的信息,已成为视觉 - 谈话模子 ( VLMs)可靠性濒临的中枢挑战。跟着 VLMs 在自动驾驶、医疗会诊等枢纽领域的无为应用开云体育,幻觉问题因其潜在的首要后果而备受热心。

可是,现时针对幻觉问题的究诘濒临多重制约:图像数据集的有限性、短少针对各样化幻觉触发要素的轮廓评估体系,以及在复杂视觉问答任务中进行通达式评估的固有贫苦。

为打破这些肃除,来自哥伦比亚大学和 Google DeepMind 的究诘团队忽视了一种创新的视觉问答数据集构建决策。

该决策通过整合真正图像与合成生成图像,愚弄基于教导的图像生成本领,克服了传统数据集(如 MS-COCO 和 Flickr)在图像各样性和尽头性方面的局限。这别称为 HaloQuest 的数据集选用"机器 - 东说念主工"协同的数据生成经过,要点集聚了三类针对现时 VLM 模子固有瑕玷的挑战性样本,旨在系统性地触发典型幻觉场景:

a. 基于失实前提的联结性问题;

b. 短少充分高下文解救的纵脱性问题;

c. 其他具有高度复杂性的疑难问题;

此外,HaloQuest 创新性地引入了基于大谈话模子(LLM)的自动评估系统(AutoEval),杀青了通达式、动态化的评估机制,并探索了合成图像在 VLM 评估中的创新性应用价值。传统评估才能经常局限于多项给与题或有限词汇的封锁式回答,这种评估形式不仅肃除了模子展现复杂推理和幽微抒发能力,也难以准确评估模子在履行场景中的内容发达。

卓越是在处理生成式幻觉瞻望时,现存才能无法全面预计模子生成连贯性、细节丰富度及高下文一致性等方面的能力。HaloQuest 忽视的 AutoEval 系统通过解救对模子反馈的细粒度、通达式评估,确立了一个可随本领发展动态演进的评估框架,为 VLMs 的可靠性评估提供了新的范式。

HaloQuest 先容

图 2 展示了 HaloQuest 数据集的构建经过,该经过通过整合真正图像与合成图像,确保了数据集的丰富性和各样性。真正图像选自 Open Images 数据集的当场样本,而合成图像则来源于 Midjourney 和 Stable Diffusion 在线画廊。为确保图像质料,筛选过程优先研究高浏览量和正面评价的图像,并蚁集经心预备的主题词列表进行搜索查询。

在东说念主类标注阶段,图像需满足两个圭臬:既需具备兴味性或独到性,又需易于默契。举例,展示冷落场景、包含卓越规物体组合(如图 2 所示的"衣服报纸的狗"),或具有视觉冲击力的图像被视为"兴味"。同期,这些图像即使违反履行物理章程,也需保持视觉连贯性和了了度,确保东说念主类八成默契其内容。

这一两重圭臬的预备,旨在均衡生成具有挑战性的场景与确保模子反馈的可解释性,从而八成准确归因于模子在推理或默契上的特定颓势。

图像筛选完成后,东说念主类标注者与大谈话模子互助,围绕图像预备问题和谜底,要点热心创造性、幽微推理能力以及模子潜在偏见的检测。HaloQuest 包含三类旨在诱发幻觉的问题:

a. 失实前发问题(False Premise Questions):这些问题包含与图像内容径直矛盾的敷陈或假定,用于测试模子是否八成优先研究视觉凭据而非误导性谈话痕迹。

b. 视觉挑战性问题(Visually Challenging Questions):这些问题条款模子久了默契图像细节,举例物体计数、空间关系判断或被庇荫区域的推理,用于评估模子的复杂视觉分析能力。

c. 信息不及问题(Insufficient Context Questions):这些问题无法仅凭图像内容得出明确谜底,旨在探伤模子是否会依赖固有偏见或无根据的臆想,而非承认信息的局限性。

在问题创建过程中,东说念主类标注者为每张图像预备两个问题偏激谜底。领先,他们需忽视一个对于图像中某个视觉元素的问题,但该问题无法仅通过图像内容回答。其次,标注者需忽视一个对于图像中深重细节的问题,该问题需有明确且客不雅的谜底,幸免主不雅偏见的搅扰。

为提高成果,HaloQuest 还愚弄 LLMs(如 IdealGPT 框架,蚁集 GPT-4 和 BLIP2)自动生成图像刻画。这些刻画被拆分为多个原子敷陈(举例:"这是一只金毛猎犬的特写","狗的背上披着报纸")。东说念主类标注者评估每个敷陈的真正性(是 / 否),随后 LLMs 基于这些评估肃除生成对应的问答对。

为进一步提高数据质料,HaloQuest 选用筛选机制:领先,高性能 VQA 模子对脱手问题池进行预回答;随后,劝诫丰富的东说念主类标注者审查问题及模子回答,确保问题的挑战性和谜底的了了性。过于简单的问题会被修改或丢弃,牵丝攀藤的谜底会被标记,以确保每个问题齐具有迷漫的难度和明确的解答。

通过这一严谨的经过,HaloQuest 构建了一个高质料、高挑战性的数据集,为 VLM 的评估提供了更可靠的基准。下图展示了 HaloQuest 的部分数据样本,并与其他数据集进行了对比,突显了其在各样性和复杂性方面的上风。

自动评估

为了大领域解救解放面孔和通达式视觉 - 谈话模子(VLM)幻觉评估,HaloQuest 斥地了一种基于大谈话模子(LLM)的自动评估才能。尽管原则上任何 LLM 只需基础教导即可奉行此类评估,但 HaloQuest 忽视了一种更为高效和精确的评估框架。

具体而言,HaloQuest 引入了 Langfun 结构,该才能通过结构化教导预备,匡助 Gemini 模子准确索取模子反馈与参考谜底的中枢内容,并判断二者之间的一致性。图 7 展示了用于杀青自动评估的 Gemini 教导词偏激结构,而图 8 则提供了 Auto-Eval 评估的具体示例。

如图所示,Gemini 模子需要根据输入的问题、模子回答和参考谜底,填充 PredictionEvaluation 类的相干属性。通过 Langfun 结构,HaloQuest 不仅贬责了 VLM 幻觉评估中的本领挑战,还为以前更无为的 AI 模子评估提供了创新想路和实践劝诫。

实验与分析

究诘发现,现存视觉 - 谈话模子(VLMs)在 HaloQuest 数据集上的发达不尽如东说念想法,幻觉率较高。这一肃除揭示了模子在默契和推理能力上的显赫不及,同期也突显了斥地更肃穆的幻觉缓解才能的垂危需求。

枢纽发现:

a. 模子领域与幻觉率的关系

究诘发现,更大的模子领域并不一定八成镌汰幻觉率。出人意外的是,较小的 BEiT-3 模子在多个任务上发达优于更大的模子。这一发现标明,单纯依赖模子膨大并不成有用贬责幻觉问题,数据驱动的幻觉缓解政策可能更具后劲。

b. Auto-Eval 的可靠性

Auto-Eval 与东说念主工评估肃除具有较高的相干性。这一肃除标明,在东说念主工评估不可行或资本过高的情况下,Auto-Eval 不错动作一种可靠的替代决策,为大领域模子评估提供解救。

c. 微调的有用性

在 HaloQuest 上进行微调显赫镌汰了 VLMs 的幻觉率,同期并未影响模子在其他基准测试上的发达。这解说了 HaloQuest 在提高模子安全性方面的后劲,且不会缩小其举座有用性。

d. 跨数据集的泛化能力

表 6 展示了各模子在 POPE 幻觉基准测试上的发达。肃除高慢,经过 HaloQuest 考研的模子在新数据集上的发达也有所提高,进一步考证了 HaloQuest 八成匡助模子在新环境中幸免幻觉。

合成图像与真正图像的对比

究诘还按照真正图像和合成图像区分评估了模子的发达。尽管大巨额模子在真正图像上的幻觉率更高,但合成图像上的幻觉率仍然显赫。值得珍惜的是,合成图像在数据集构建中具有独到上风

低资本与可膨大性:合成图像提供了一种经济高效的贬责决策,有助于快速膨大数据集领域。

镌汰幻觉率:实验肃除标明,考研数据加入合成图像有助于镌汰模子的幻觉率(见表 5 和表 7)。

本领逾越的后劲:尽管现在合成图像的难度略低于真正图像,但跟着图像生成本领的逾越,这一差距有望缩小。

内容应用的重要性:跟着图像生成本领的无为应用,确保模子在合成图像上具备抗幻觉能力将变得愈发重要。

幻觉成因与模子发达

究诘进一步分析了模子在 HaloQuest 三类问题上的发达:

失实前发问题(False Premise Questions):开源模子在处理此类问题时发达较差,但 GPT-4 展现出一定上风。

信息不及问题(Insufficient Context Questions):模子重大发达欠安,标明其在处理纵脱信息时容易依赖偏见或无根据的臆想。

视觉挑战性问题(Visually Challenging Questions):模子发达略有提高,但 GPT-4 在此类任务上的发达不如其他模子。

这些发现为以前究诘提供了新的地点,包括:

数据集优化:通过改良数据集构建才能,进一步提高模子的抗幻觉能力。

受控图像生成:愚弄更先进的图像生成本领,创建更具挑战性的合成图像。

标注偏差缓解:减少数据标注过程中的偏差,提高数据集的各样性和自制性。

针对性优化:针对不同模子的特定瑕玷,斥地定制化的幻觉缓解政策。

论断

HaloQuest 是一个创新的视觉问答基准数据集,通过整合真正寰宇图像和合成图像,蚁集受控的图像生成本领和针对特定幻觉类型预备的问题,为分析 VLMs 的幻觉触发要素提供了更精确的用具。实验肃除标明,现时来源进的模子在 HaloQuest 上的发达重大欠安,涌现了其能力与内容应用需求之间的显赫差距。

在 HaloQuest 上进行微调的 VLMs 显赫镌汰了幻觉率,同期保持了其在旧例推理任务上的性能,这解说了该数据集在提高模子安全性和可靠性方面的后劲。此外,究诘忽视了一种基于大谈话模子(LLM)的 Auto-Eval 评估机制,八成对 VLMs 的回答进行通达式、细粒度的评估。与传统才能比拟,Auto-Eval 克服了肃除模子抒发能力或难以评估复杂幻觉的局限性,杀青了评估成果和准确性的显赫优化。

HaloQuest 不仅为 VLMs 的幻觉问题究诘提供了新的基准,还通过其创新的数据集构建才能和评估机制,为以前多模态 AI 的发展指明了地点。跟着图像生成本领和评估才能的抑制逾越,HaloQuest 有望在鼓动更安全、更可靠的视觉 - 谈话模子究诘中施展重要作用。

一键三连「点赞」「转发」「预防心」

接待在指摘区留住你的方针!

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 样式主页一语气,以及研究形式哦

咱们会(尽量)实时报恩你

� � 点亮星标 � �

科技前沿进展逐日见开云体育