一篇搞定：用 curl 测试私有部署模型联通性

2026年7月4日 2点热度 0人点赞 0条评论

📰 来源: 博客园

在私有部署模型环境里，最常见的排查动作就是先看服务是否存活，再分别验证对话模型和向量模型是否能正常收发请求。下面这组命令可以直接作为联通性测试模板使用。

01 | 先检查服务健康状态

笔者通常会先访问健康检查接口，确认两个服务端口是否可达：

curl -i http://[已脱敏IP]:8000/health
curl -i http://[已脱敏IP]:8002/health

这里可以先把关注点放在两件事上：一是地址 http://[已脱敏IP] 是否能访问，二是端口 8000 和 8002 是否分别有服务响应。

02 | 分别验证对话与向量接口

健康检查通过后，就可以继续发起实际请求。对话模型测试命令如下：

curl http://[已脱敏IP]:8000/v1/chat/completions \
 -H "Authorization: Bearer sk-xxxxxxxxxxxxxxxxxxxxxx" \
 -H "Content-Type: application/json" \
 -d '{
 "model": "qwen3.6-35b",
 "messages": [{"role": "user", "content": "你好，简单介绍自己"}],
 "temperature": 0.1
 }'

这条命令对应的是 8000 端口，对应模型为 qwen3.6-35b。如果接口联通，通常就能直接拿到一次对话返回。

向量模型测试命令如下：

curl http://[已脱敏IP]:8002/v1/embeddings \
 -H "Authorization: Bearer sk-xxxxxxxxxxxxxxxxxxxxxx" \
 -H "Content-Type: application/json" \
 -d '{
 "model": "qwen3-embedding",
 "input": ["测试文本，用于向量生成"]
 }'

这条命令对应的是 8002 端口，请求模型为 qwen3-embedding，输入是一段测试文本，用来验证向量生成接口是否可用。

03 | 一次排查的推荐顺序

如果只是想快速判断链路是否通，顺序可以很简单：

先执行两个 /health 请求，确认基础服务在线。

分别测试 /v1/chat/completions 和 /v1/embeddings，确认聊天能力和向量能力都能正常接入。

8000 主要看对话模型，8002 主要看向量模型。这样排查时更容易定位是哪一路服务异常。

关注我，和AI一起成长~

🔗 原文链接: 点击阅读原文

一篇搞定：用 curl 测试私有部署模型联通性

01 | 先检查服务健康状态

02 | 分别验证对话与向量接口

03 | 一次排查的推荐顺序

文章评论