2025年1月,DeepSeek 发布的 DeepSeek-R1 推理大模型凭借其出色的逻辑推理能力,接近甚至超越OpenAI的o1,引发全球轰动。但随之而来的,是由于用户暴增带来的官方处理能力达到极限,无法及时响应所有请求,导致频繁报错。

在这样的背景下,各类替代服务方案纷纷出现,越来越多的国内厂商接入 DeepSeek-R1 大模型服务,为用户提供了更多选择。但这些厂商各自在不同城市运行DeepSeek R1 API的表现究竟如何?应该凭借怎样的依据,来选择相应的厂商提供服务,就成为摆在开发者和企业面前的现实问题。

近日,可观测与应用安全厂商基调听云,利用其基调听云拨测工具,模拟真实用户进行主动监控,从网络性能、接口响应时间、推理速度、内容生成速度等多个关键指标,在成都、上海、北京、广州、深圳等城市,对DeepSeek 官方、阿里云、腾讯云、火山引擎、硅基流动等服务商的 API 接口展开深入测试,并发布了《大模型服务性能评测 DeepSeek-R1 API 版》第一期报告,为企业和开发者提供了重要参考。

广州本地的测试结果显示,火山引擎在可用性方面整体表现非常稳定,未出现明显波动。而性能上,也整体表现良好,未出现显著问题。

具体来说,在广州本地运行DeepSeek R1 API的测试中,火山引擎的可用性达到了98.41%。同时生成速度则达到了70.18 tokens/s。

图片1.png

DeepSeek R1评测结果(图片来自基调听云公众号)

作为对照,硅基流动在可用性方面仅次于火山引擎,达到93.75%,但生成速度较慢,仅为18.009 tokens/s;DeepSeek官方在生成速度方面为37.987 tokens/s,但可用性却只达到42.86%。

其他厂商方面,腾讯云可用性达到65.63%,生成速度为13.28 tokens/s;阿里云百炼可用性可以达到85.71%,但生成速度仅为12.797 tokens/s,是五家参加测试厂商中最低的。

基调听云方面表示,此次测试中,推理速度和生成速度的差异,在厂商间表现较为显著,服务端推理的性能,显然是影响API整体性能的关键因素。另外在网络延迟(DNS 时间、连接时间等)方面,尽管存在一定的差异,但从测试结果来看,除非网络层的延迟异常高,否则不会对整体的 API 性能产生根本性影响。(作者:江田)