注意力科学

AI 内容分析的工作原理:注意力预测背后的技术

深入探讨 AI 如何预测人类在图像上的视觉焦点。从 DeepGaze 神经网络到认知激活建模的技术解析。

当您将图像上传到 FlowDx 时,三个 AI 系统会同时对其进行分析。以下是其背后的实际运作机制——没有营销辞令,只有技术真相。

引擎 1:注意力预测 (DeepGaze IIE)

注意力热力图由图宾根大学 Bethge 实验室开发的 DeepGaze IIE 生成。它是 MIT Saliency Benchmark(MIT 显著性基准测试)中排名第一的模型。

工作原理

DeepGaze IIE 构建在两个预训练神经网络(DenseNet-201 和 ResNeXt-50)之上,用于提取多尺度的视觉特征。随后,这些特征通过学习到的读出层(readout layers)进行组合,从而预测注视概率图。

核心洞察:该模型不仅仅是检测“明亮”或“高对比度”区域。它学习了与实际人类眼动相关的复杂特征交互。训练数据来自 Bylinskii et al. (2019) 的大规模眼动追踪数据集——包含数千张图像以及来自数百名参与者的相应注视数据。

准确率

DeepGaze IIE 在 MIT 基准测试中获得了 0.87+ 的 AUC-Judd 评分,这意味着其预测结果与人类实际注视的位置高度相关。作为对比,理论上限(受试者间一致性)约为 0.92。

引擎 2:认知激活分析

该引擎基于视觉处理的计算神经科学模型,估算不同大脑区域对视觉刺激的反应。

五个维度

  • 视觉皮层 (V1-V4) —— 低级视觉处理:边缘、颜色、纹理。与“视觉冲击力”相关。基于 Hubel & Wiesel 关于视觉皮层感受野的基础研究。
  • 杏仁核 —— 情感显著性检测。LeDoux (2000) 的研究表明,该结构能在 170 毫秒内评估情感内容。
  • 海马体 —— 记忆编码。Stern et al. (1996) 证明了海马体的激活可以预测刺激是否会被记住。
  • 前额叶皮层 —— 决策和行动规划。Miller & Cohen (2001) 确立了 PFC 在目标导向行为中的作用。
  • 梭状回 (FFA) —— 面部和身体识别。Kanwisher et al. (1997) 发现了这个面部选择性区域。

引擎 3:Gemini Vision AI 诊断

第三个引擎使用 Google 的 Gemini 多模态 AI(具备深度思考能力)对图像进行整体分析。与前两个引擎(专门的神经网络)不同,Gemini 执行的是高级视觉推理。

Gemini 的不同之处

Gemini 能够理解上下文、读取图像中的文本、识别构图问题并生成自然语言建议。它接收来自引擎 1 和 2 的注意力数据作为背景信息,然后生成:

  • 视觉问题的具体诊断(不仅是“注意力低”,而是“白色文字在浅色背景下无法辨认”)
  • 基于证据的建议(参考注意力数据)
  • 用于标记问题区域的精确标注坐标

为什么需要三个引擎?

每个引擎都有盲点:

  • DeepGaze 预测人们看哪里,但不知道为什么如何修复
  • 认知激活告诉您哪些大脑系统有反应,但不知道是针对哪些具体元素
  • Gemini 理解语境和含义,但缺乏专门显著性模型的感知准确度

它们共同提供了一个完整的图景:注意力流向何处 (DeepGaze)、大脑如何反应 (认知激活) 以及该如何处理 (Gemini)。

亲自尝试

将任何图像上传到 FlowDx,即可看到这三个引擎的运作。分析大约需要 30 秒,消耗 1 个积分。

参考文献

用 FlowDx 诊断你的内容

上传你的缩略图、封面或广告素材,30 秒获得 AI 驱动的注意力诊断报告。

免费试用 FlowDx