<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>NLP on Yang</title><link>/tags/nlp/</link><description>Recent content in NLP on Yang</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><lastBuildDate>Fri, 06 Mar 2026 20:00:00 +0800</lastBuildDate><atom:link href="/tags/nlp/index.xml" rel="self" type="application/rss+xml"/><item><title>Attention Is All You Need — Transformer 架构精读</title><link>/research/attention-is-all-you-need/</link><pubDate>Fri, 06 Mar 2026 20:00:00 +0800</pubDate><guid>/research/attention-is-all-you-need/</guid><description>&lt;h2 id="-论文背景"&gt;&lt;a href="#-%e8%ae%ba%e6%96%87%e8%83%8c%e6%99%af" class="header-anchor"&gt;&lt;/a&gt;📄 论文背景
&lt;/h2&gt;&lt;p&gt;在 Transformer 出现之前，序列到序列（Seq2Seq）任务主要依赖 &lt;strong&gt;RNN/LSTM&lt;/strong&gt; 结构，这类模型存在两个核心瓶颈：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;顺序计算难以并行&lt;/strong&gt;：每个时间步依赖前一步的隐状态，无法高效利用 GPU&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;长距离依赖问题&lt;/strong&gt;：信息在长序列中传递时容易衰减&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Vaswani 等人在 2017 年 NeurIPS 提出的 &lt;strong&gt;Transformer&lt;/strong&gt; 完全抛弃了递归结构，纯粹依赖注意力机制来建模全局依赖关系。&lt;/p&gt;</description></item></channel></rss>