📰 来源: Hugging Face 推测解码 (SD) 已成为加速 LLM 推理的关键技术。SD 使用轻量级草案模型来推测多个未来令牌,然后由目标模型并行验证。这样,SD 可以显着提高吞吐量,同时保留目标模型的精确输出分布。 尽管 SD 算法取得了快速进展,但它们的评估仍然是碎片化的,并且通常不能代表现实世界的数据和服务条件。在实践中,SD 推测质量和推理加速本质上是数据依赖、服务机制依赖和系统依赖的。然而,大多数现有基准依赖于小提示集、有限的语义多样性、短输入序列长度、批量大小为 1 或不反映生产环境的高级推理…