AI 内容分析的工作原理：注意力预测背后的技术

当您将图像上传到 FlowDx 时，三个 AI 系统会同时对其进行分析。以下是其背后的实际运作机制——没有营销辞令，只有技术真相。

引擎 1：注意力预测 (DeepGaze IIE)

注意力热力图由图宾根大学 Bethge 实验室开发的 DeepGaze IIE 生成。它是 MIT Saliency Benchmark（MIT 显著性基准测试）中排名第一的模型。

DeepGaze IIE 构建在两个预训练神经网络（DenseNet-201 和 ResNeXt-50）之上，用于提取多尺度的视觉特征。随后，这些特征通过学习到的读出层（readout layers）进行组合，从而预测注视概率图。

核心洞察：该模型不仅仅是检测“明亮”或“高对比度”区域。它学习了与实际人类眼动相关的复杂特征交互。训练数据来自 Bylinskii et al. (2019) 的大规模眼动追踪数据集——包含数千张图像以及来自数百名参与者的相应注视数据。

DeepGaze IIE 在 MIT 基准测试中获得了 0.87+ 的 AUC-Judd 评分，这意味着其预测结果与人类实际注视的位置高度相关。作为对比，理论上限（受试者间一致性）约为 0.92。

该引擎基于视觉处理的计算神经科学模型，估算不同大脑区域对视觉刺激的反应。

视觉皮层 (V1-V4) —— 低级视觉处理：边缘、颜色、纹理。与“视觉冲击力”相关。基于 Hubel & Wiesel 关于视觉皮层感受野的基础研究。
杏仁核 —— 情感显著性检测。LeDoux (2000) 的研究表明，该结构能在 170 毫秒内评估情感内容。
海马体 —— 记忆编码。Stern et al. (1996) 证明了海马体的激活可以预测刺激是否会被记住。
前额叶皮层 —— 决策和行动规划。Miller & Cohen (2001) 确立了 PFC 在目标导向行为中的作用。
梭状回 (FFA) —— 面部和身体识别。Kanwisher et al. (1997) 发现了这个面部选择性区域。

第三个引擎使用 Google 的 Gemini 多模态 AI（具备深度思考能力）对图像进行整体分析。与前两个引擎（专门的神经网络）不同，Gemini 执行的是高级视觉推理。

Gemini 能够理解上下文、读取图像中的文本、识别构图问题并生成自然语言建议。它接收来自引擎 1 和 2 的注意力数据作为背景信息，然后生成：

每个引擎都有盲点：

它们共同提供了一个完整的图景：注意力流向何处 (DeepGaze)、大脑如何反应 (认知激活) 以及该如何处理 (Gemini)。

将任何图像上传到 FlowDx，即可看到这三个引擎的运作。分析大约需要 30 秒，消耗 1 个积分。

Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
MIT Saliency Benchmark. saliency.mit.edu.
Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
Google DeepMind. Gemini.