魅力程序猿

  • 首页
  • Java
  • Android
  • APP
    • 扑克计分器
    • Video Wallpaper
  • 联系我
  • 关于我
  • 资助
道子
向阳而生
  1. 首页
  2. AI技术
  3. 正文

Introducing SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

2026年3月23日 7点热度 0人点赞 0条评论

📰 来源: Hugging Face


推测解码 (SD) 已成为加速 LLM 推理的关键技术。SD 使用轻量级草案模型来推测多个未来令牌,然后由目标模型并行验证。这样,SD 可以显着提高吞吐量,同时保留目标模型的精确输出分布。

尽管 SD 算法取得了快速进展,但它们的评估仍然是碎片化的,并且通常不能代表现实世界的数据和服务条件。在实践中,SD 推测质量和推理加速本质上是数据依赖、服务机制依赖和系统依赖的。然而,大多数现有基准依赖于小提示集、有限的语义多样性、短输入序列长度、批量大小为 1 或不反映生产环境的高级推理堆栈。

为了解决这些差距,我们引入了 SPEED-Bench:一个统一的基准,旨在使用生产级推理引擎评估跨不同语义域和现实服务机制的 SD。

SD必须从两个角度来评估。

一方面,草稿质量取决于输入文本的语义域和熵。另一方面,现实世界的加速取决于批次大小、输入序列长度 (ISL) 和系统约束,这些约束决定推理是受内存限制还是受计算限制。

因此,SPEED-Bench 引入了 SD 基准测试生态系统。它结合了两个专门构建的数据集分割和统一的测量框架,每个框架都旨在捕获 SD 行为的不同方面:

“定性”数据分割,针对语义多样性进行了优化,旨在衡量跨领域的推测质量(起草者准确性)。

“吞吐量”数据分割,旨在评估各种输入序列长度和高并发性下的系统级加速。

统一的测量框架,与生产推理引擎集成,标准化跨系统的评估。

这些组件共同使从业者和研究人员能够分析经常被现有基准掩盖的 SD 行为。

图 1 提供了 SPEED-Bench 生态系统的高级概述。

定性划分:语义覆盖率和草稿准确性

定性分割的目标是跨广泛的语义域测量推测解码质量,特别是条件接受率 (AR) 和接受长度 (AL)。

SpecBenchin 通过将广泛使用的数据集中的实例聚合到统一的测试环境中,推出了第一个跨不同应用场景(例如多轮对话、翻译和数学推理)的统一 SD 基准测试。然而,尽管这是迈向标准化评估的重要一步,但它在规模和多样性方面存在严重局限性。大多数类别只包含 10 个样本,平均输入长度较短(< 100 个标记),这可能不会给现代起草者带来压力。此外,它的一些类别通常缺乏结构多样性,例如完全由德语到英语翻译提示组成的多语言类别。 虽然理论上可以对大量数据集进行广泛评估,但对于快速实验而言,这很乏味且不切实际,并且阻碍了发布 SD 算法和模型的不同研究小组之间的直接比较。我们没有依赖于对不同数据集的详尽评估,而是策划了一个紧凑但具有高度代表性的子集,旨在最大限度地提高语义多样性。我们汇总了来自 18 个公开来源的数据,并将其组织为 11 个类别,包括编码、数学、人文、STEM、写作、总结、角色扮演、RAG、多语言、推理和 QA。 每个类别包含 80 个样本,总共有 880 个提示。与通常遭受类别内多样性较低的先前基准测试不同,SPEED-Bench 定性分割明确优先考虑语义多样性。 为了实现这一点,每个候选提示都使用 p 嵌入到密集向量空间中


🔗 原文链接: 点击阅读原文

标签: AI 人工智能 技术博客
最后更新:2026年3月23日

daozi

这个人很懒,什么都没留下

点赞
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复
搜索
联系方式

QQ群:179730949
QQ群:114559024
欢迎您加入Android大家庭
本人QQ:136049925

赐我一丝安慰
给我一点鼓励

COPYRIGHT © 2023 魅力程序猿. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

豫ICP备15000477号