Introducing SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

2026年3月23日 7点热度 0人点赞 0条评论

推测解码 (SD) 已成为加速 LLM 推理的关键技术。SD 使用轻量级草案模型来推测多个未来令牌，然后由目标模型并行验证。这样，SD 可以显着提高吞吐量，同时保留目标模型的精确输出分布。

尽管 SD 算法取得了快速进展，但它们的评估仍然是碎片化的，并且通常不能代表现实世界的数据和服务条件。在实践中，SD 推测质量和推理加速本质上是数据依赖、服务机制依赖和系统依赖的。然而，大多数现有基准依赖于小提示集、有限的语义多样性、短输入序列长度、批量大小为 1 或不反映生产环境的高级推理堆栈。

为了解决这些差距，我们引入了 SPEED-Bench：一个统一的基准，旨在使用生产级推理引擎评估跨不同语义域和现实服务机制的 SD。

SD必须从两个角度来评估。

一方面，草稿质量取决于输入文本的语义域和熵。另一方面，现实世界的加速取决于批次大小、输入序列长度 (ISL) 和系统约束，这些约束决定推理是受内存限制还是受计算限制。

因此，SPEED-Bench 引入了 SD 基准测试生态系统。它结合了两个专门构建的数据集分割和统一的测量框架，每个框架都旨在捕获 SD 行为的不同方面：

“定性”数据分割，针对语义多样性进行了优化，旨在衡量跨领域的推测质量（起草者准确性）。

“吞吐量”数据分割，旨在评估各种输入序列长度和高并发性下的系统级加速。

统一的测量框架，与生产推理引擎集成，标准化跨系统的评估。

这些组件共同使从业者和研究人员能够分析经常被现有基准掩盖的 SD 行为。

图 1 提供了 SPEED-Bench 生态系统的高级概述。

定性划分：语义覆盖率和草稿准确性

定性分割的目标是跨广泛的语义域测量推测解码质量，特别是条件接受率 (AR) 和接受长度 (AL)。

SpecBenchin 通过将广泛使用的数据集中的实例聚合到统一的测试环境中，推出了第一个跨不同应用场景（例如多轮对话、翻译和数学推理）的统一 SD 基准测试。然而，尽管这是迈向标准化评估的重要一步，但它在规模和多样性方面存在严重局限性。大多数类别只包含 10 个样本，平均输入长度较短（< 100 个标记），这可能不会给现代起草者带来压力。此外，它的一些类别通常缺乏结构多样性，例如完全由德语到英语翻译提示组成的多语言类别。虽然理论上可以对大量数据集进行广泛评估，但对于快速实验而言，这很乏味且不切实际，并且阻碍了发布 SD 算法和模型的不同研究小组之间的直接比较。我们没有依赖于对不同数据集的详尽评估，而是策划了一个紧凑但具有高度代表性的子集，旨在最大限度地提高语义多样性。我们汇总了来自 18 个公开来源的数据，并将其组织为 11 个类别，包括编码、数学、人文、STEM、写作、总结、角色扮演、RAG、多语言、推理和 QA。每个类别包含 80 个样本，总共有 880 个提示。与通常遭受类别内多样性较低的先前基准测试不同，SPEED-Bench 定性分割明确优先考虑语义多样性。为了实现这一点，每个候选提示都使用 p 嵌入到密集向量空间中

🔗 原文链接: 点击阅读原文

Introducing SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

文章评论