栏目分类
热点资讯
你的位置:se情在线 > 哥也色中文娱乐网 > 足交 twitter 字节豆包大模子团队冷落稀少模子架构 推理资本最高可裁汰83%

哥也色中文娱乐网

足交 twitter 字节豆包大模子团队冷落稀少模子架构 推理资本最高可裁汰83%

发布日期:2025-03-31 14:22    点击次数:111

足交 twitter 字节豆包大模子团队冷落稀少模子架构 推理资本最高可裁汰83%

据豆包大模子团队音讯,字节逾越豆包大模子Foundation团队近期冷落UltraMem,一种雷同将计较和参数解耦的稀少模子架构,在保证模子着力的前提下不断了推理的访存问题。据先容足交 twitter,该架构灵验不断了MoE推理时高额的访存问题,推理速率较MoE架构晋升2-6倍,推理资本最高可裁汰83%。

跟着模子边界的扩大,推理资本和访存着力已成为截至大模子边界行使的要津瓶颈。近期,字节逾越豆包大模子团队冷落了全新的稀少模子架构 UltraMem,该架构灵验不断了 MoE 推理时高额的访存问题,推理速率较 MoE 架构晋升 2-6 倍,推理资本最高可裁汰 83%。该贪图还揭示了新架构的 Scaling Law,解释其不仅具备优异的 Scaling 特质,更在性能上超越了 MoE。

实验扫尾标明,锻真金不怕火边界达 2000 万 value 的 UltraMem 模子,在同等计较资源下,可同期已毕业界启航点的推理速率和模子性能,为构建数十亿边界 value 或 expert 开荒了新旅途。

在 Transformer 架构下,模子的性能与其参数数目和计较复杂度呈对数相干。跟着 LLM 边界不竭增大,推理资本会急剧加多,速率变慢。

尽管 MoE 架构还是收效将计较和参数解耦,但在推理时,较小的 batch size 就会激活一王人行家,导致访存急剧高潮,进而使推理蔓延大幅加多。

为此,字节逾越豆包大模子 Foundation 团队冷落 UltraMem,一种雷同将计较和参数解耦的稀少模子架构,在保证模子着力的前提下不断了推理的访存问题。

实验扫尾标明,在参数和激活条目相易的情况下,UltraMem 在模子着力上超越了 MoE,并将推理速率晋升了 2-6 倍。此外,在常见 batch size 边界下,UltraMem 的访存资本竟然与同计较量的 Dense 模子十分。

当今,该论文已被 ICLR 2025 秉承。

Ultra-Sparse Memory Network

论文结合:https://arxiv.org/abs/2411.12364

1. MoE 与 PKM 的局限性

LLM 的能力增长需要指数级增长的计较资源,这在及时行使等资源有限的环境中颇具挑战。为了不断计较问题,先前的贪图者冷落了 MoE 和 Product Key Memory(PKM)有规划,但它们都有各自的局限性。

MoE 通过稀少激活 expert 解耦了计较和参数,但在推理场景中,速率其实很慢。原因在于,模子在推理时只可一个字一个字的生成,因此 batch size 和 sequence length 都很小,在这个场景下,MoE 的扫数行家每每会被一王人造访到,极其容易遭遇访存瓶颈,导致推理蔓延激增。

PKM 最早冷落 large memory layer,其中包含了数目高大的稀少参数 value,这里 value 其实便是一个向量,每个 token 会凭证一个「行路由」和一个「列路由」定位到得分最高的几个 value,激活这些 value 后作念 weighted sum pooling 行动 memory layer 的输出。这种法子因为每个 token 在推理时只是只激活少许数的 value,是以推理时不会遭遇访存瓶颈,但其着力很差,且 scaling 能力差。

2. UltraMem 兼顾访存和着力

UltraMem 参考了 PKM 的想象,但针对 PKM 的 3 个弱势赐与补充,以已毕更高效的访存、更优质的 value 检索,同期,裁汰了显存和部署资本。

① 优化模子结构

PKM 的想象中,memory layer 惟有 1 层,插在扫数这个词 Transformer 的中间层,这对大边界锻真金不怕火并不友好,况且如斯高大的稀少参数应该尽可能多的参与到每次的残差勾通中。

因此,贪图团队拆分出多个小 memory layer,以固定的阻隔散播在 transformer layer 中;况且加多了 skip-layer 的操作,即面前层的 memory layer 的输出会加到后头某层 transformer layer 的输出。这使得模子不错并行地履行 memory layer 的访存操作和 transformer layer 的计较。

② 优化 value 检索神气

在检索时,惟有 score 最高的 m 个 value 会被激活,PKM 的 score 是通过「行 score」+「列 score」得到的。团队进一步探索了一种更复杂的乘法法子 Tucker Decomposed Query-Key Retrieval(TDQKR)。这一要遴荐启发于 Tucker Decomposition。具体来看,给定 values,shape 为(n,n,h),其中 h 为 hidden size,那么 values 的 score S_grid 不错作念如下认识:

其中

是可学习的 tucker core。这个结构下,每个 value 的 score 由 r 个行 score 和 r 个列 score 的组合乘加取得,具备更高的复杂度。

③ 隐式扩张稀少参数

更多的稀少参数每每会带来更好的着力,但过多的参数又会给显存和部署带来盘曲。为此,贪图团队冷落了 Implicit Value Expansion (IVE)法子隐式地扩张稀少参数,并引入了 virtual memory 和 physical memory 的看法。

以 4 倍扩张为例(如下图所示),virtual memory 的数目是 physical memory 的 4 倍,给定多对(score,index)后,启航点按照 virtual memory address table 作念查表,4 个 virtual block 会查询并吞个 physical memory table,之后各自作念 weighted sum pooling,并进程不同的线性层,临了再乞降输出。

插插综合

由于临了的 Linear 和取 value 之间莫得任何非线性操作,因此每个 Linear 都不错和 physical memory table 作念交融,生成一个全新的 memory table,这个例子下,现实上隐式扩张了 4 倍的 value 数目。

3. 实验扫尾:推理速率较 MoE 最高晋升 6 倍

① 模子性能评估

贪图团队在 151M、680M、1.6B 三个尺寸的激活参数上作念了庸碌实验,其中 MoE、PKM 和 UltraMem 的总稀少参数保执在激活参数的 12 倍。

如下表所示,不错发现 UltraMem 在 680M、1.6B 上具有显耀的着力上风。

跟着稀少参数的加多,UltraMem 的着力和推理速率若何变化?

下图(b)展示了 UltraMem 的着力变化,横轴为稀少参数和茂密参数的比值,每个心情的线代表了一种稀少度。稀少度界说为 value 的数目 / 每个 token 激活的 value 数目。不雅察发现,执续加多稀少参数和 loss 的下跌呈对数相干;且稀少度越小,模子着力越好;然而稀少度执续裁汰带来的收益在冉冉足够。

下图(c)展示了 UltraMem 的推理时刻变化,横轴为稀少参数和茂密参数的比值。不雅察发现,UltraMem 在执续加多稀少参数时推理时刻竟然不变,反不雅 MoE 有显耀增长的趋势。

② 消融实验

贪图团队在 151M 激活、1.5B 总参数的稀少模子上进行了全面的消融实验。从最原始的 PKM 运行,冉冉加多一些 trick 和上文冷落的结构蜕变,最终能拿到 C4 validation loss -0.092 的显耀收益,同期稀少参数和计较量竟然不变。

说七说八,贪图团队冷落的 UltraMem 具有极小的访存,因此,比拟 MoE 已毕了最高达 6 倍的速率晋升,推理资本最高可裁汰 83%。同期,在性能方面,跟着模子容量的加多,在相易的参数和计较量情况下,UltraMem 卓绝了 MoE,标明其具有更强的扩张能力。这项职责为建造更高效和可扩张的讲话模子提供了一个有但愿的标的。

4. 写在临了

UltraMem 能灵验地行使于对蔓延要求较高的推理场景(举例代码补全),幸免了肖似 MoE 的访存瓶颈。即使在通用场景下,UltraMem 相较于 MoE 都展现出了显耀的速率上风,除非 batch size 上万的极点场景。

面前,针对 UltraMem 的本事演进仍存在几许值得探索的标的,包括但不限于:若何高效优化稀少参数、若何晋升稀少模子推理能力、若何更优地激活稀少参数等。这些本事标的或将成为后续贪图的病笃切入点。

(著作着手:财联社) 足交 twitter