基准报告
这个页面发布支撑文档结论的 benchmark 产物。benchmark runner 本身仍然位于 Python SDK 仓库。
docs 站点现在直接携带已发布的 benchmark 产物,因此部署到 Vercel 后也能渲染同一份正式证据。
最新快照
模型: deepseek-chat. 重复次数: 1.
语义工作流基准 v5
核心结论
zcp_client_to_native_zcp vs mcp_client_to_zcp_mcp_surface: 优势倍数 3.83x. Token delta: 22695.8.
原始产物: benchmark_reports/full_semantic_compare_v5/semantic_benchmark_summary.json
总体对比
| 后端 | 回答 | 工作簿 | 工具 | 平均总量 | 平均轮次 | 平均工具调用 |
|---|---|---|---|---|---|---|
| zcp_client_to_native_zcp | 100.0% | 97.3% | 100.0% | 8027.9 | 2.1 | 1.1 |
| mcp_client_to_zcp_mcp_surface | 97.3% | 91.9% | 73.0% | 30723.7 | 3.9 | 3.0 |
分层对比
| Tier | 原生 ZCP 平均总量 | MCP Surface 平均总量 | 倍数 | 原生质量 |
|---|---|---|---|---|
| A | 15979.4 | 17613.2 | 1.10x | 100.0% / 93.8% / 100.0% |
| B | 1826.6 | 29239.4 | 16.01x | 100.0% / 100.0% / 100.0% |
| C | 2091.1 | 72113.9 | 34.49x | 100.0% / 100.0% / 100.0% |
| D | 2018.3 | 19375.7 | 9.60x | 100.0% / 100.0% / 100.0% |
紧凑工具基准
原始产物: benchmark_reports/zcp_mcp_tool_call_benchmark.json
紧凑基准汇总
| 协议 | 运行次数 | 回答准确率 | 工具合规率 | 平均 Prompt | 平均 Completion | 平均总量 |
|---|---|---|---|---|---|---|
| mcp | 8 | 100.0% | 100.0% | 4136.1 | 367.8 | 4503.9 |
| zcp | 8 | 100.0% | 100.0% | 2577.5 | 255.5 | 2833.0 |
紧凑基准案例拆解
| 案例 | ZCP 平均总量 | MCP 平均总量 | MCP / ZCP | Token 差值 |
|---|---|---|---|---|
| warmer_city_delta | 2821.0 | 4579.5 | 1.62x | 1758.5 |
| shanghai_temp_f_and_humidity | 2565.0 | 3834.5 | 1.49x | 1269.5 |
| average_three_city_temperature | 3116.0 | 5237.5 | 1.68x | 2121.5 |
| more_humid_city_delta | 2830.0 | 4364.0 | 1.54x | 1534.0 |