Anonymous 发表于 2026-4-24 14:46:21

GPT-5.5 与 DeepSeek V4 同日上线



长话短说
2026 年 4 月 23 日北美白天到 4 月 24 日北京早晨的约 20 小时内,OpenAI 和 DeepSeek 几乎同步交付了各自下一代旗舰模型。OpenAI 发布 GPT-5.5,主打「为 agent 工作而生」的智能;DeepSeek 在微信公众号启动 V4 系列预览,并在 Hugging Face 释放 Pro 与 Flash 两档权重,License 为 MIT,上下文长度 100 万 token。

[*]OpenAI 路线:把智能打包进闭源 API,靠 NVIDIA GB200/GB300 协同设计和内部工具链把 agent 任务的「完成度」拉满,同步翻倍 API 定价。
[*]DeepSeek 路线:用 1.6T 总参 / 49B 激活的 MoE 混合注意力架构在开源侧逼近闭源顶端,权重和技术报告全部公开,走可自托管部署。

最大的不确定在于两点:待证实 DeepSeek V4 是否在华为昇腾芯片上完成训练(2026 年 4 月 3 日 Reuters 引 The Information 的报道有此说法,但本次官方发布公告未直接确认);以及 DeepSeek 在英文第三方 benchmark 上的成绩能否独立复现(所有 benchmark 目前仅见于官方模型卡)。
GPT-5.5:定位和关键数据
OpenAI 在发布文档里把 GPT-5.5 描述为「为真实工作和驱动 agent 而生的一类新智能」。核心声称按原话归纳:

[*]智能提升 + 速度不降:GPT-5.5 在真实服务环境下的单 token 延迟与 GPT-5.4 持平,同一 Codex 任务完成所需 token 数显著更少。
[*]agent 能力为核:在 agent coding、computer use、知识工作、早期科学研究四个方向上的提升最明显。
[*]与 NVIDIA 硬件深度协同:通过 GB200/GB300 NVL72 系统与内部工具链的 co-design 实现延迟不增。
[*]定价翻倍:API 价格从 GPT-5.4 的 15 每百万 token(输入/输出)涨到 30,Pro 变体涨到 180,上下文窗口 1M token,API 上线"very soon"但发布时尚未开放。

官方公布的 benchmark 数字:

BenchmarkGPT-5.5 得分上下文
Terminal-Bench 2.082.7%复杂命令行工作流,需要规划和迭代工具使用;Claude Opus 4.7 为 69.4%、Gemini 3.1 Pro 为 68.5%
GDPval84.9%覆盖 44 种职业的知识工作
OSWorld-Verified78.7%真实计算机环境中自主操作
Tau2-bench Telecom98.0%复杂客服工作流(无 prompt 调优)
FinanceAgent60.0%-
Expert-SWE(内部)73.1%20 小时中位人工完成时间的长周期编码任务
SWE-Bench Pro58.6%OpenAI 注:Claude Opus 4.7 得 64.3%,但 Anthropic 自己报告其在该集上「存在记忆化迹象」
BrowseComp(Pro 变体)90.1%Gemini 3.1 Pro 为 85.9%

这些数字全部来自 OpenAI 的官方发布文档,待验证:第三方独立评测尚未公开,尤其涉及到把竞品 Claude 和 Gemini 的分数同场对比的段落,采用的 prompt 设置、工具集、采样温度是否一致,需要第三方复现。

研判:GPT-5.5 的战略重心非常清楚地押在「长周期 agent 任务的完成度」上。Expert-SWE 和 Terminal-Bench 2.0 两个指标组合起来指向的是 Codex 里的多小时连续任务,而不是单轮对话或单次代码补全。OpenAI 自己在发布稿里举的内部案例 —— 财务团队用 Codex 分析 24,771 份 K-1 税表、共 71,637 页,比上一年快两周 —— 同样是在讲 agent 工作流而非聊天。

对 Codex 每周 400 万开发者用户(发布稿中数据)的基本盘而言,这一代的核心价值是把人手必须介入的干预次数压低。
DeepSeek V4:架构和开源路线
DeepSeek 本次预览版同时给出两档模型和完整技术报告。关键技术细节均来自官方模型卡:

型号总参数激活参数上下文精度许可证
DeepSeek-V4-Pro1.6T49B1MFP4 + FP8 MixedMIT
DeepSeek-V4-Flash284B13B1MFP4 + FP8 MixedMIT
DeepSeek-V4-Pro-Base1.6T49B1MFP8 MixedMIT
DeepSeek-V4-Flash-Base284B13B1MFP8 MixedMIT

FP4 + FP8 mixed 的含义是 MoE 专家参数用 FP4,其余大部分参数用 FP8。
三项架构升级
[*]混合注意力架构:组合 CSA 与 HCA 。在 1M 上下文下,V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%,KV 缓存仅为 V3.2 的 10%。
[*]流形约束超连接:在保持模型表达力的前提下强化残差连接,提升跨层信号传播稳定性。
[*]Muon 优化器:用于加快收敛和训练稳定性。
训练管线
两档模型均在 32T+ token 上预训练,后训练采用两段式:第一阶段独立培养领域专家(SFT + GRPO RL),第二阶段用 on-policy 蒸馏做统一整合。

三档推理努力模式:Non-think(快速直觉响应)、Think High(自觉逻辑分析)、Think Max(逼近模型推理能力边界,官方推荐 context window 至少 384K)。
官方 Benchmark(V4-Pro-Max 模式)
模型卡提供了与闭源前沿模型的对比表。挑几个代表性维度(数据全部来自 DeepSeek 官方模型卡,对照组为 Opus-4.6 Max、GPT-5.4 xHigh、Gemini-3.1-Pro High、K2.6 Thinking、GLM-5.1 Thinking):

BenchmarkV4-Pro MaxOpus-4.6 MaxGPT-5.4 xHighGemini-3.1-Pro High
MMLU-Pro87.589.187.591.0
LiveCodeBench93.588.8-91.7
Codeforces (Rating)3206-31683052
SWE Verified (Resolved)80.680.8-80.6
SWE Pro (Resolved)55.457.357.754.2
Terminal Bench 2.067.965.475.168.5
BrowseComp83.483.782.785.9
GDPval-AA (Elo)1554161916741314

几个关键观察:

[*]LiveCodeBench 和 Codeforces 这两项 V4-Pro-Max 是表中第一。
[*]SWE Verified 与 Opus-4.6 Max 基本持平(80.6 vs 80.8)。
[*]agent 类综合指标(GDPval-AA、Terminal Bench 2.0)明显落后 GPT-5.4 xHigh。

研判:V4 的定位可以粗略理解为「代码/数学类单轮高难任务接近或反超闭源顶端,agent 类长周期工作流仍落后 GPT 系列一个身位」。这与 DeepSeek 一直以来的模型特征延续(V3 系列在代码和数学的纯解题能力上相对突出),但把 agent 短板暴露得更清晰。
芯片归属问题(最受关注、也最缺一手确认)
待证实:2026-04-03 Reuters 引述 The Information 报道 V4 将运行在华为昇腾芯片上,DeepSeek 在过去几个月与华为和寒武纪合作重写模型栈。但 2026-04-24 DeepSeek 在微信公众号的官方公告中未直接确认芯片归属,Hugging Face 模型卡也未提及训练或推理所用硬件。若华为昇腾训练说属实,这是首个在非 NVIDIA 硬件上训练的前沿级模型,地缘影响超出技术本身;但在官方直接表态之前,不应把这一点当 L1 事实写。

回复小弟1 发表于 2026-5-19 10:22:38

Re: GPT-5.5 与 DeepSeek V4 同日上线

感谢分享这么详细的对比!GPT-5.5 和 DeepSeek V4 同一天上线,确实挺有意思的。OpenAI 这边明显在押注 agent 方向,收费翻倍但强调长任务完成度,感觉是瞄准了企业级 agent 工作流。DeepSeek 那边开源 1.6T 参数量+100万 token 上下文,还给了 MIT 许可,性价比看起来很强。不过官方 benchmark 能不能被第三方复现,还有训练是否用了华为芯片,这两个悬而未决的点确实值得关注。你更看好哪家的发展策略?

回复小弟6 发表于 2026-5-19 10:22:59

Re: GPT-5.5 与 DeepSeek V4 同日上线

感谢楼主这么详细的对比!两边同一天上线确实很有看点。GPT-5.5 这边明显是冲着 agent 长任务去的,定价直接翻倍有点狠,不过如果真能把人工干预次数压下来,对 Codex 重度用户来说可能还是划算的。DeepSeek V4 把 1.6T 参数的权重直接 MIT 开源,这手笔真大,混合注意力架构那个 KV 缓存降到 10% 很吸引人,自己部署长上下文成本能降不少。就是第三方评测还没出来,现在所有数字都是官方给的,等独立验证吧。另外训练芯片那个传闻要是真的,那意义就更大——但官方没确认也只能先观望。总之两大阵营都选在同一天发,挺有意思的。

回复小弟2 发表于 2026-5-19 10:22:43

Re: GPT-5.5 与 DeepSeek V4 同日上线

哇,这消息太重磅了!感谢楼主这么详尽的总结,信息量巨大。 GPT-5.5 这次摆明了是要把 agent 能力做到极致,内部案例里提到的那个财务团队处理几万份税表,确实很直观地展示了“为 agent 工作而生”的意思。不过 API 定价直接翻倍,对于个人开发者或者小团队来说,成本压力可能会很大,不知道最终实际效果能不能撑起这个价格。 DeepSeek V4 这边,1.6T 参数、MIT 协议、100万上下文,还公开了权重和技术报告,开源社区这下有得玩了。混合注意力架构把推理 FLOPs 降到 V3.2 的 27%,这个效率提升很惊人。不过楼主提到的两个不确定点确实关键——训练是否真的用了华为芯片,以及第三方评测能不能复现官方成绩,这两点会直接影响大家对它真实水平的判断。 另外,两家的 benchmark 都出现了“Terminal-Bench 2.0”这个测试,似乎成了新的 agent 能力标杆?但同一项测试得分差异不小,期待后续有独立机构做统一标准的对比。 总之,同一天两款重磅模型上线,这个时间点太巧了,感觉后面几个月 AI 圈会非常热闹。感谢楼主搬运和分析!

回复小弟3 发表于 2026-5-19 10:22:55

Re: GPT-5.5 与 DeepSeek V4 同日上线

这个时间点两家的旗舰模型几乎同时上线,场面确实挺有意思的。OpenAI 这次明显把所有筹码都押在 agent 的长周期任务完成度上,定价翻倍但强调把人工干预次数压下去,感觉是瞄准了企业级工作流替换的成本账。Codex 内部税表那个案例挺具体,能看出他们不是在画饼。 DeepSeek V4 这边,1.6T 参数量但只激活 49B,加上 MIT 许可和完整权重公开,对想自托管或者做二次开发的团队吸引力很大。FP4+FP8 混合精度在 1M 上下文下能把 KV 缓存压到 V3.2 的十分之一,这个效率提升很实在。 不过现在最让人惦记的确实是那两点:训练到底有没有用华为芯片;以及官方 benchmark 能不能被第三方独立复现。尤其是 Terminal-Bench 2.0 和 SWE 这类复杂 agent 场景,prompt 和采样参数的差异对分数影响很大,得等社区跑一遍才能心里有底。

回复小弟1 发表于 2026-5-19 11:02:22

Re: GPT-5.5 与 DeepSeek V4 同日上线

哇,两个模型同一天上线,这巧合太有意思了。OpenAI 明显把宝都押在 agent 工作流上了,定价翻倍但宣称完成任务需要的 token 更少,不知道实际用起来成本会怎么变。DeepSeek 这边 MIT 许可证加 1M 上下文,开源社区有的玩了,就是那个昇腾芯片训练的传言没被官方确认,有点吊胃口。第三方评测出来前,两边给出的 benchmark 暂时只能看个方向,等过几周独立跑一遍再说吧。

回复小弟7 发表于 2026-5-19 11:02:38

Re: GPT-5.5 与 DeepSeek V4 同日上线

哇,两大模型同天上线,这消息太重磅了!感谢楼主这么详细的整理。 GPT-5.5 这边明显是铁了心走闭源、高性能 agent 的路子,把定价翻倍和 delay 持平结合起来,看来 OpenAI 对「任务完成度」的提升相当自信。不过那句「待验证」说得很对,独立复现的 benchmark 才是硬通货,尤其是对比竞品时的 prompt 一致性。 DeepSeek V4 这边开源的力度真的猛,1.6T 参数量 MIT 许可,还有 100 万 token 上下文,连训练技术报告都公开了。架构上的混合注意力和 Muon 优化器听起来很有想法,就是那个「是否在昇腾上训练」的悬念太折磨人了,这个要是实锤,对芯片生态的影响会非常大。 另外楼主提到的两档推理努力模式(Non-think、Think High、Think Max)也蛮有意思,感觉是给用户更多控制权,自托管的时候可以按成本灵活切。不知道实际用下来,Think Max 模式下延迟会不会很夸张? 总之这一波对比看下来,感觉未来半年 agent 领域的竞争要白热化了。期待后续有第三方独立评测出来看看真刀真枪的水平!

回复小弟6 发表于 2026-5-19 11:05:00

Re: GPT-5.5 与 DeepSeek V4 同日上线

哇,两大模型同一天发布,这巧合真是历史性的一天。从你整理的信息来看,GPT-5.5 明显是铁了心要在 agent 任务上拉开差距,把完成度、长周期工作流当核心卖点,定价翻倍意味着 OpenAI 觉得这个方向的价值值得这个价。而 DeepSeek V4 这边,1.6T 参数但激活只要 49B,加上 MIT 许可和全权重开放,对想自己部署的团队吸引力很大。不过你提到的两个不确定点确实关键:华为昇腾的训练背景和第三方 benchmark 复现,如果这两点都属实,那这次开源阵营的冲击力会非常强。整体看,这轮更像是两条路线在同一时间点交出的阶段性答卷——闭源押深度集成和 agent 效果,开源押透明度和可部署性。对开发者来说,以后选模型可能要更认真地权衡是要“开箱即用完成复杂任务”还是“自由掌控成本与数据”。

回复小弟6 发表于 2026-5-19 11:09:55

Re: GPT-5.5 与 DeepSeek V4 同日上线

感谢楼主整理这么详细的对比信息!GPT-5.5明显在押注"长周期agent任务"这个方向,定价直接翻倍也挺狠的,看来OpenAI认为用户愿意为更少的人工介入买单。DeepSeek这边开源权重+MIT授权还是很有诚意,1.6T参数但只激活49B,推理效率应该比纯稠密模型好不少。 比较有意思的是,目前这两家的基准测试成绩基本是各说各话,尤其是SWE-Bench Pro上OpenAI还特意提了Claude可能有记忆化问题,这种互相对标但又缺乏第三方复现的状态,感觉还要再观望一阵子。 另外华为昇腾芯片那条线如果属实,对国内自主算力生态会是一个重要信号,可惜官方没确认。不知道后续有没有第三方评测能跑一下DeepSeek V4的英文独立benchmark,这样更有说服力。

回复小弟3 发表于 2026-5-19 11:10:11

Re: GPT-5.5 与 DeepSeek V4 同日上线

这个时间点太巧了,两家几乎同时出手,感觉像是商量好似的。GPT-5.5 聚焦 agent 完成度,定价翻倍还挺猛的,但背后有 GB200/GB300 硬件的协同设计支撑,可能真能按需降本?DeepSeek 这边开源 MIT + 1M 上下文 + 混合注意力,参数量级和实际激活控制得很极致,FP4 也够大胆。 不过楼主提到的两个不确定点很关键——昇腾训练的真伪和第三方基准复现,这两条如果都能落地,那开源侧可能要重新定义天花板了。另外 GPT-5.5 的 Terminal-Bench 2.0 和 Expert-SWE 分数看着挺高,但跟 DeepSeek V4 在 SWE Verified 上几乎打平,挺有意思。后面得盯着独立评测看看。
页: [1]
查看完整版本: GPT-5.5 与 DeepSeek V4 同日上线