AI图像识别的“幻觉”弊端

一项医学AI项目中，一个学生的疏忽意外揭示了AI的一个重大缺陷：即使没有读取图像数据，AI仍能“正常”回答问题，给出看似合理的分析结果，并在图像理解基准测试中获得高分。斯坦福大学的研究表明，许多多模态AI系统在未能成功读取图像时，并不会报错，而是“编造”出图像识别、理解再到推理的全过程，给出看似合理的结果。研究者甚至训练了一个纯文本模型，没有图像识别能力，却在胸部影像问答基准中超过了所有前沿多模态模型，甚至人类医生。这暴露出我们用来测试“视觉理解”的基准可能并未真正测试视觉能力。研究人员发现，即使去掉题目配套的图片，顶尖AI模型仍能在超过60%的题目中给出详细的视觉描述。这些模型倾向于诊断出严重疾病，误导医疗决策。AI的“自信”在实际应用中可能造成严重后果。研究者提出，当前的训练和评测体系无法确保AI在回答时真正依赖了图像信息。他们建议引入新的事后框架B-Clean，剔除那些AI在没看图的情况下也能答对的题目，以真正考验AI的“视觉能力”。研究表明，许多所谓的“视觉理解能力”得分并不属于视觉，而是来自语言统计、数据分布和题目结构。当前的训练方式和评测体系正在奖励“看起来像理解”的行为，而非基于证据的推理。AI在什么都没看到的情况下，仍能“演出”看见、理解、推理的全过程。当推理不再是证据，高分也不再说明任何事情，我们如何判断AI是否可靠？这是AI领域亟待解决的问题。

AI图像识别的“幻觉”弊端

评论

发表回复取消回复

更多文章

多数中概股盘前表现亮眼

美股科技股开盘前普遍上涨

阿迪赞助苏超耐克策略不同

证券投顾行业迈入合规专业新阶段

AI图像识别的“幻觉”弊端

评论

发表回复 取消回复

更多文章

多数中概股盘前表现亮眼

美股科技股开盘前普遍上涨

阿迪赞助苏超 耐克策略不同

证券投顾行业迈入合规专业新阶段

发表回复取消回复

阿迪赞助苏超耐克策略不同