基准报告

这个页面发布支撑文档结论的 benchmark 产物。benchmark runner 本身仍然位于 Python SDK 仓库。

docs 站点现在直接携带已发布的 benchmark 产物,因此部署到 Vercel 后也能渲染同一份正式证据。

最新快照

模型: deepseek-chat. 重复次数: 1.

语义工作流基准 v5

核心结论

zcp_client_to_native_zcp vs mcp_client_to_zcp_mcp_surface: 优势倍数 3.83x. Token delta: 22695.8.

原始产物: benchmark_reports/full_semantic_compare_v5/semantic_benchmark_summary.json

总体对比

后端回答工作簿工具平均总量平均轮次平均工具调用
zcp_client_to_native_zcp100.0%97.3%100.0%8027.92.11.1
mcp_client_to_zcp_mcp_surface97.3%91.9%73.0%30723.73.93.0

分层对比

Tier原生 ZCP 平均总量MCP Surface 平均总量倍数原生质量
A15979.417613.21.10x100.0% / 93.8% / 100.0%
B1826.629239.416.01x100.0% / 100.0% / 100.0%
C2091.172113.934.49x100.0% / 100.0% / 100.0%
D2018.319375.79.60x100.0% / 100.0% / 100.0%

紧凑工具基准

原始产物: benchmark_reports/zcp_mcp_tool_call_benchmark.json

紧凑基准汇总

协议运行次数回答准确率工具合规率平均 Prompt平均 Completion平均总量
mcp8100.0%100.0%4136.1367.84503.9
zcp8100.0%100.0%2577.5255.52833.0

紧凑基准案例拆解

案例ZCP 平均总量MCP 平均总量MCP / ZCPToken 差值
warmer_city_delta2821.04579.51.62x1758.5
shanghai_temp_f_and_humidity2565.03834.51.49x1269.5
average_three_city_temperature3116.05237.51.68x2121.5
more_humid_city_delta2830.04364.01.54x1534.0