当您将图像上传到 FlowDx 时,三个 AI 系统会同时对其进行分析。以下是其背后的实际运作机制——没有营销辞令,只有技术真相。
引擎 1:注意力预测 (DeepGaze IIE)
注意力热力图由图宾根大学 Bethge 实验室开发的 DeepGaze IIE 生成。它是 MIT Saliency Benchmark(MIT 显著性基准测试)中排名第一的模型。
工作原理
DeepGaze IIE 构建在两个预训练神经网络(DenseNet-201 和 ResNeXt-50)之上,用于提取多尺度的视觉特征。随后,这些特征通过学习到的读出层(readout layers)进行组合,从而预测注视概率图。
核心洞察:该模型不仅仅是检测“明亮”或“高对比度”区域。它学习了与实际人类眼动相关的复杂特征交互。训练数据来自 Bylinskii et al. (2019) 的大规模眼动追踪数据集——包含数千张图像以及来自数百名参与者的相应注视数据。
准确率
DeepGaze IIE 在 MIT 基准测试中获得了 0.87+ 的 AUC-Judd 评分,这意味着其预测结果与人类实际注视的位置高度相关。作为对比,理论上限(受试者间一致性)约为 0.92。
引擎 2:认知激活分析
该引擎基于视觉处理的计算神经科学模型,估算不同大脑区域对视觉刺激的反应。
五个维度
- 视觉皮层 (V1-V4) —— 低级视觉处理:边缘、颜色、纹理。与“视觉冲击力”相关。基于 Hubel & Wiesel 关于视觉皮层感受野的基础研究。
- 杏仁核 —— 情感显著性检测。LeDoux (2000) 的研究表明,该结构能在 170 毫秒内评估情感内容。
- 海马体 —— 记忆编码。Stern et al. (1996) 证明了海马体的激活可以预测刺激是否会被记住。
- 前额叶皮层 —— 决策和行动规划。Miller & Cohen (2001) 确立了 PFC 在目标导向行为中的作用。
- 梭状回 (FFA) —— 面部和身体识别。Kanwisher et al. (1997) 发现了这个面部选择性区域。
引擎 3:Gemini Vision AI 诊断
第三个引擎使用 Google 的 Gemini 多模态 AI(具备深度思考能力)对图像进行整体分析。与前两个引擎(专门的神经网络)不同,Gemini 执行的是高级视觉推理。
Gemini 的不同之处
Gemini 能够理解上下文、读取图像中的文本、识别构图问题并生成自然语言建议。它接收来自引擎 1 和 2 的注意力数据作为背景信息,然后生成:
- 视觉问题的具体诊断(不仅是“注意力低”,而是“白色文字在浅色背景下无法辨认”)
- 基于证据的建议(参考注意力数据)
- 用于标记问题区域的精确标注坐标
为什么需要三个引擎?
每个引擎都有盲点:
- DeepGaze 预测人们看哪里,但不知道为什么或如何修复
- 认知激活告诉您哪些大脑系统有反应,但不知道是针对哪些具体元素
- Gemini 理解语境和含义,但缺乏专门显著性模型的感知准确度
它们共同提供了一个完整的图景:注意力流向何处 (DeepGaze)、大脑如何反应 (认知激活) 以及该如何处理 (Gemini)。
亲自尝试
将任何图像上传到 FlowDx,即可看到这三个引擎的运作。分析大约需要 30 秒,消耗 1 个积分。
参考文献
- Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
- MIT Saliency Benchmark. saliency.mit.edu.
- Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
- LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
- Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
- Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
- Google DeepMind. Gemini.