加载中...

注意力机制

发表于2026-01-20|更新于2026-01-20|智能体开发

|总字数:1.1k|阅读时长:3分钟

注意力提示

自主性提示被称为查询（query），即图10.2.2中“想要看书的想法”。感官输入被称为值（value），即图中的书本。每个值都与一个键（key）配对，这可以想象为感官输入的非自主提示，即“书”这个概念本身。

非自主提示基于突出性，自主提示则依赖于意识。

注意力汇聚

平均汇聚

非参数注意力汇聚

带参数注意力汇聚

• Nadaraya‐Watson核回归的注意力汇聚是对训练数据中输出的加权平均。从注意力的角度来看，分配给每个值的注意力权重取决于将值所对应的键和查询作为输入的函数。

• 注意力汇聚可以分为非参数型和带参数型。

注意力评分函数

掩蔽softmax操作

加性注意力

缩放点积注意力

编码器-解码器架构

为了处理长度可变的输入和输出序列，我们使用编码器-解码器架构。

序列到序列学习（seq2seq）

整体模型

编码器

解码器

Bahdanau注意力

多头注意力

自注意力和位置编码

有了注意力机制之后，我们将词元序列输入注意力池化中，以便同一组词元同时充当查询、键和值。具体来说，每个查询都会关注所有的键－值对并生成一个注意力输出。

卷积神经网络和自注意力都拥有并行计算的优势，而且自注意力的最大路径长度最短。但是因为其计算复杂度是关于序列长度的二次方，所以在很长的序列中计算会非常慢。

为了使用序列的顺序信息，可以通过在输入表示中添加位置编码，来注入绝对的或相对的位置信息。

逐位置前馈网络（Position-wise Feed-Forward Network, FFN）

核心概念与定位

1.逐位置独立处理：序列长度维度无交互，仅在特征维度做变换，同一组参数共享于所有位置，等价于序列维度的 1×1 卷积。

2.功能分工：注意力机制负责跨位置上下文聚合（“从哪儿拿信息”），FFN 负责位置内特征的非线性精炼（“拿到后怎么加工”），两者互补提升模型能力。

3.残差与归一化：标准实现包含残差连接与层归一化（LayerNorm），缓解梯度消失，加速训练收敛。

关键作用与价值

增加非线性表达：注意力输出为线性组合，FFN 引入非线性，使模型能学习语言中的隐喻、歧义等复杂模式。
提升模型容量：通过维度扩张与两层变换，增加可学习参数，增强特征拟合能力。
特征精炼与维度转换：在高维空间挖掘细粒度特征，再压缩回原维度，输出更具区分度的表示。
高效并行：逐位置独立计算，序列维度可完全并行，适合 GPU/TPU 加速，训练与推理效率高。

逐位置前馈网络是 Transformer 的核心组件，通过 “独立处理 + 非线性变换 + 残差连接”，与注意力层协同，在保持高效并行的同时，显著提升模型的特征表达能力。其简洁结构与强大功能，使其成为大语言模型（LLM）与序列建模任务中不可或缺的部分。

Transformer

Trans former的编码器和解码器是基于自注意力的模块叠加而成的，源（输入）序列和目标（输出）序列的嵌入（embedding）表示将加上位置编码（positionalencoding），再分别输入到编码器和解码器中。

思考（为什么自注意力能解决长序列依赖？）

自注意力打破了传统序列模型的“顺序依赖计算范式”，用全局并行的注意力权重建模替代了 RNN/CNN 的 “局部逐步信息传递”，让序列中任意两个位置直接建立连接，无论距离多远，都能通过注意力权重直接交互信息，且全程并行计算、梯度直接传播。

文章作者: Lee

文章链接: http://www.lee666.xyz/2026/01/20/智能体开发/注意力机制/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Lee的学习之旅！

数据加载中