NLP on Yang

NLP on Yang/tags/nlp/Recent content in NLP on YangHugo -- gohugo.iozh-CNFri, 06 Mar 2026 20:00:00 +0800Attention Is All You Need — Transformer 架构精读/research/attention-is-all-you-need/Fri, 06 Mar 2026 20:00:00 +0800/research/attention-is-all-you-need/<h2 id="-论文背景"><a href="#-%e8%ae%ba%e6%96%87%e8%83%8c%e6%99%af" class="header-anchor"></a>📄 论文背景 </h2><p>在 Transformer 出现之前，序列到序列（Seq2Seq）任务主要依赖 <strong>RNN/LSTM</strong> 结构，这类模型存在两个核心瓶颈：</p> <ol> <li><strong>顺序计算难以并行</strong>：每个时间步依赖前一步的隐状态，无法高效利用 GPU</li> <li><strong>长距离依赖问题</strong>：信息在长序列中传递时容易衰减</li> </ol> <p>Vaswani 等人在 2017 年 NeurIPS 提出的 <strong>Transformer</strong> 完全抛弃了递归结构，纯粹依赖注意力机制来建模全局依赖关系。</p>