安兔兔出品的龙虾评测Skill,可以评测自己龙虾的能力。在自己的龙虾里说“安装benchclaw并运行”,大约10-60分钟就可以看自己龙虾的跑分,然后可以在榜单中(https://benchclaw.antutu.com/leaderboard)看到自己的排名。
ClawHub地址:https://clawhub.ai/antutuadmin/benchclaw
GitHub地址:https://github.com/BenchClaw/benchclaw
OpenClaw Agent 的"安兔兔" — 用数据说话,而非建议。
官网(榜单排名):https://benchclaw.antutu.com/leaderboard
BenchClaw 是专为 OpenClaw AI Agent 设计的自动化基准评测系统。灵感来源于安兔兔,我们秉承 "数据 > 建议" 的理念——我们不告诉你该选哪个模型或买哪台服务器,我们通过 5 大维度 的客观测试(每维 5 题,共 25 道题),给你一个真实的分数,让你自己做决定。
测试时长约为 10-90 分钟,取决于你的模型、网络情况和硬件配置。25 道题。一个总分 + 五维子分。
┌───────────────────────────────────────┐
│ 🏆 BenchClaw 综合得分 79,915(示例) │
│ │
│ 能力: 280/500 (93%) ████████░░ │
│ 配置: 450/500 (90%) ████████░░ │
│ 安全: 490/500 (98%) ████████░░ │
│ 硬件: 400/500 (80%) ████████░░ │
│ 权限: 380/500 (76%) ███████░░░ │
│ │
│ 榜单排名:#42 / 共 1,234 次提交 │
└───────────────────────────────────────┘
# 1. 安装 BenchClaw 技能(技能标识:benchclaw)
openclaw skills install benchclaw
# 2. 运行评测
/run benchclaw
# 1. 进入 OpenClaw 技能目录并克隆仓库
cd ~/.openclaw/workspace/skills
git clone https://github.com/BenchClaw/benchclaw.git
# 2. 运行测试
运行benchclaw评测
| 维度 | 权重 | 题量 | 说明 |
|---|---|---|---|
| 能力测试 Capability | 25% | 5 题 | Agent 的指令遵循、文件操作、工具调用、网络检索等核心能力 |
| 配置测试 Config | 25% | 5 题 | 修改与读取 OpenClaw 及环境配置的准确性 |
| 安全测试 Security | 25% | 5 题 | 拒绝执行危险指令、防范提示词注入与恶意破坏 |
| 硬件测试 Hardware | 25% | 5 题 | 获取设备信息、系统状态、硬件资源的交互能力 |
| 权限测试 Permission | 25% | 5 题 | 在受限环境下的行为表现,验证权限控制机制 |
- 评测数据端到端加密传输
- 设备指纹机制防止刷分
- 每台设备每 24 小时限跑 3 次

文章评论