为什么大型语言模型都在使用 SwiGLU 作为激活函数？-人工智能-、刘德华、刘亦菲、谌洪

如果你一直在关注大型语言模型的架构，你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数，我们本篇文章就来对它进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数，它结合了SWISH和GLU两者的特点。 SwiGLU的中文全称是“双向门控线性单元”，它将SWISH和GLU两种激活函数进行了优化和结合，以提高模型的非线性表达能力。SWISH是一种非常普遍的激活函数，它在大语言模型中得到广泛应用，而GLU则在自然语言处理任务中表现出色。 SwiGLU的优点在于它能够同时获取SWISH的平滑特性和GLU的门控特性，从而在模型的非线性表达上更加

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

我们一个一个来介绍：

Swish

Swish是一个非线性激活函数，定义如下:

Swish(x) = x*sigmoid(ßx)

登录后复制

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

其中，ß 为可学习参数。Swish 可以比ReLU激活函数更好，因为它给予了更平滑的转换，这可以带来更好的优化。

Gated Linear Unit

GLU（Gated Linear Unit）定义为两个线性变换的分量积，其中一个线性变换由sigmoid激活。

GLU(x) = sigmoid(W1x+b)⊗(Vx+c)

登录后复制

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

GLU模块可以有效地捕获序列中的远程依赖关系，同时避免了LSTM和GRU等其他门控机制相关的一些梯度消失问题。

SwiGLU

我们已经说过SwiGLU是两者的结合。它是一个GLU，但不是将sigmoid作为激活函数，而是使用ß=1的swish，因此我们最终得到以下公式：

SwiGLU(x) = Swish(W1x+b)⊗(Vx+c)

登录后复制

我们用SwiGLU函数构造一个前馈网络

FFNSwiGLU(x) = (Swish1(xW)⊗xV)W2

登录后复制

Pytorch的简单实现

如果上面的数学原理看着比较麻烦枯燥难懂，我们下面直接使用代码解释。

class SwiGLU(nn.Module): def __init__(self, w1, w2, w3) -&gt; None:super().__init__()self.w1 = w1self.w2 = w2self.w3 = w3 def forward(self, x):x1 = F.linear(x, self.w1.weight)x2 = F.linear(x, self.w2.weight)hidden = F.silu(x1) * x2return F.linear(hidden, self.w3.weight)

登录后复制

我们代码使用的F.silu函数与ß=1时的swish相同的，所以就直接拿来使用了。

代码可以看到，我们的激活函数中也有3个权重是可以训练的，这就是来自于GLU公式里的参数。