📰 来源: Hugging Face
推测解码 (SD) 已成为加速 LLM 推理的关键技术。SD 使用轻量级草案模型来推测多个未来令牌,然后由目标模型并行验证。这样,SD 可以显着提高吞吐量,同时保留目标模型的精确输出分布。
尽管 SD 算法取得了快速进展,但它们的评估仍然是碎片化的,并且通常不能代表现实世界的数据和服务条件。在实践中,SD 推测质量和推理加速本质上是数据依赖、服务机制依赖和系统依赖的。然而,大多数现有基准依赖于小提示集、有限的语义多样性、短输入序列长度、批量大小为 1 或不反映生产环境的高级推理堆栈。
为了解决这些差距,我们引入了 SPEED-Bench:一个统一的基准,旨在使用生产级推理引擎评估跨不同语义域和现实服务机制的 SD。
SD必须从两个角度来评估。
一方面,草稿质量取决于输入文本的语义域和熵。另一方面,现实世界的加速取决于批次大小、输入序列长度 (ISL) 和系统约束,这些约束决定推理是受内存限制还是受计算限制。
因此,SPEED-Bench 引入了 SD 基准测试生态系统。它结合了两个专门构建的数据集分割和统一的测量框架,每个框架都旨在捕获 SD 行为的不同方面:
“定性”数据分割,针对语义多样性进行了优化,旨在衡量跨领域的推测质量(起草者准确性)。
“吞吐量”数据分割,旨在评估各种输入序列长度和高并发性下的系统级加速。
统一的测量框架,与生产推理引擎集成,标准化跨系统的评估。
这些组件共同使从业者和研究人员能够分析经常被现有基准掩盖的 SD 行为。
图 1 提供了 SPEED-Bench 生态系统的高级概述。
定性划分:语义覆盖率和草稿准确性
定性分割的目标是跨广泛的语义域测量推测解码质量,特别是条件接受率 (AR) 和接受长度 (AL)。
SpecBenchin 通过将广泛使用的数据集中的实例聚合到统一的测试环境中,推出了第一个跨不同应用场景(例如多轮对话、翻译和数学推理)的统一 SD 基准测试。然而,尽管这是迈向标准化评估的重要一步,但它在规模和多样性方面存在严重局限性。大多数类别只包含 10 个样本,平均输入长度较短(< 100 个标记),这可能不会给现代起草者带来压力。此外,它的一些类别通常缺乏结构多样性,例如完全由德语到英语翻译提示组成的多语言类别。 虽然理论上可以对大量数据集进行广泛评估,但对于快速实验而言,这很乏味且不切实际,并且阻碍了发布 SD 算法和模型的不同研究小组之间的直接比较。我们没有依赖于对不同数据集的详尽评估,而是策划了一个紧凑但具有高度代表性的子集,旨在最大限度地提高语义多样性。我们汇总了来自 18 个公开来源的数据,并将其组织为 11 个类别,包括编码、数学、人文、STEM、写作、总结、角色扮演、RAG、多语言、推理和 QA。 每个类别包含 80 个样本,总共有 880 个提示。与通常遭受类别内多样性较低的先前基准测试不同,SPEED-Bench 定性分割明确优先考虑语义多样性。 为了实现这一点,每个候选提示都使用 p 嵌入到密集向量空间中
🔗 原文链接: 点击阅读原文
文章评论