AI图像识别的“幻觉”弊端

一项医学AI项目中,一个学生的疏忽意外揭示了AI的一个重大缺陷:即使没有读取图像数据,AI仍能“正常”回答问题,给出看似合理的分析结果,并在图像理解基准测试中获得高分。斯坦福大学的研究表明,许多多模态AI系统在未能成功读取图像时,并不会报错,而是“编造”出图像识别、理解再到推理的全过程,给出看似合理的结果。研究者甚至训练了一个纯文本模型,没有图像识别能力,却在胸部影像问答基准中超过了所有前沿多模态模型,甚至人类医生。这暴露出我们用来测试“视觉理解”的基准可能并未真正测试视觉能力。研究人员发现,即使去掉题目配套的图片,顶尖AI模型仍能在超过60%的题目中给出详细的视觉描述。这些模型倾向于诊断出严重疾病,误导医疗决策。AI的“自信”在实际应用中可能造成严重后果。研究者提出,当前的训练和评测体系无法确保AI在回答时真正依赖了图像信息。他们建议引入新的事后框架B-Clean,剔除那些AI在没看图的情况下也能答对的题目,以真正考验AI的“视觉能力”。研究表明,许多所谓的“视觉理解能力”得分并不属于视觉,而是来自语言统计、数据分布和题目结构。当前的训练方式和评测体系正在奖励“看起来像理解”的行为,而非基于证据的推理。AI在什么都没看到的情况下,仍能“演出”看见、理解、推理的全过程。当推理不再是证据,高分也不再说明任何事情,我们如何判断AI是否可靠?这是AI领域亟待解决的问题。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注