GPT-5.5 与 DeepSeek V4 同日上线

阅读模式 · 发表于 5 小时前

长话短说
2026 年 4 月 23 日北美白天到 4 月 24 日北京早晨的约 20 小时内，OpenAI 和 DeepSeek 几乎同步交付了各自下一代旗舰模型。OpenAI 发布 GPT-5.5，主打「为 agent 工作而生」的智能；DeepSeek 在微信公众号启动 V4 系列预览，并在 Hugging Face 释放 Pro 与 Flash 两档权重，License 为 MIT，上下文长度 100 万 token。

OpenAI 路线：把智能打包进闭源 API，靠 NVIDIA GB200/GB300 协同设计和内部工具链把 agent 任务的「完成度」拉满，同步翻倍 API 定价。
DeepSeek 路线：用 1.6T 总参 / 49B 激活的 MoE 混合注意力架构在开源侧逼近闭源顶端，权重和技术报告全部公开，走可自托管部署。

最大的不确定在于两点：待证实 DeepSeek V4 是否在华为昇腾芯片上完成训练（2026 年 4 月 3 日 Reuters 引 The Information 的报道有此说法，但本次官方发布公告未直接确认）；以及 DeepSeek 在英文第三方 benchmark 上的成绩能否独立复现（所有 benchmark 目前仅见于官方模型卡）。
GPT-5.5：定位和关键数据
OpenAI 在发布文档里把 GPT-5.5 描述为「为真实工作和驱动 agent 而生的一类新智能」。核心声称按原话归纳：

智能提升 + 速度不降：GPT-5.5 在真实服务环境下的单 token 延迟与 GPT-5.4 持平，同一 Codex 任务完成所需 token 数显著更少。
agent 能力为核：在 agent coding、computer use、知识工作、早期科学研究四个方向上的提升最明显。
与 NVIDIA 硬件深度协同：通过 GB200/GB300 NVL72 系统与内部工具链的 co-design 实现延迟不增。
定价翻倍：API 价格从 GPT-5.4 的 15 每百万 token（输入/输出）涨到 30，Pro 变体涨到 180，上下文窗口 1M token，API 上线"very soon"但发布时尚未开放。

官方公布的 benchmark 数字：
[td]

Benchmark	GPT-5.5 得分	上下文
Terminal-Bench 2.0	82.7%	复杂命令行工作流，需要规划和迭代工具使用；Claude Opus 4.7 为 69.4%、Gemini 3.1 Pro 为 68.5%
GDPval	84.9%	覆盖 44 种职业的知识工作
OSWorld-Verified	78.7%	真实计算机环境中自主操作
Tau2-bench Telecom	98.0%	复杂客服工作流（无 prompt 调优）
FinanceAgent	60.0%	-
Expert-SWE（内部）	73.1%	20 小时中位人工完成时间的长周期编码任务
SWE-Bench Pro	58.6%	OpenAI 注：Claude Opus 4.7 得 64.3%，但 Anthropic 自己报告其在该集上「存在记忆化迹象」
BrowseComp（Pro 变体）	90.1%	Gemini 3.1 Pro 为 85.9%

这些数字全部来自 OpenAI 的官方发布文档，待验证：第三方独立评测尚未公开，尤其涉及到把竞品 Claude 和 Gemini 的分数同场对比的段落，采用的 prompt 设置、工具集、采样温度是否一致，需要第三方复现。

研判：GPT-5.5 的战略重心非常清楚地押在「长周期 agent 任务的完成度」上。Expert-SWE 和 Terminal-Bench 2.0 两个指标组合起来指向的是 Codex 里的多小时连续任务，而不是单轮对话或单次代码补全。OpenAI 自己在发布稿里举的内部案例 —— 财务团队用 Codex 分析 24,771 份 K-1 税表、共 71,637 页，比上一年快两周 —— 同样是在讲 agent 工作流而非聊天。

对 Codex 每周 400 万开发者用户（发布稿中数据）的基本盘而言，这一代的核心价值是把人手必须介入的干预次数压低。
DeepSeek V4：架构和开源路线
DeepSeek 本次预览版同时给出两档模型和完整技术报告。关键技术细节均来自官方模型卡：
[td]

型号	总参数	激活参数	上下文	精度	许可证
DeepSeek-V4-Pro	1.6T	49B	1M	FP4 + FP8 Mixed	MIT
DeepSeek-V4-Flash	284B	13B	1M	FP4 + FP8 Mixed	MIT
DeepSeek-V4-Pro-Base	1.6T	49B	1M	FP8 Mixed	MIT
DeepSeek-V4-Flash-Base	284B	13B	1M	FP8 Mixed	MIT

FP4 + FP8 mixed 的含义是 MoE 专家参数用 FP4，其余大部分参数用 FP8。
三项架构升级

混合注意力架构：组合 CSA 与 HCA 。在 1M 上下文下，V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%，KV 缓存仅为 V3.2 的 10%。
流形约束超连接：在保持模型表达力的前提下强化残差连接，提升跨层信号传播稳定性。
Muon 优化器：用于加快收敛和训练稳定性。

训练管线
两档模型均在 32T+ token 上预训练，后训练采用两段式：第一阶段独立培养领域专家（SFT + GRPO RL），第二阶段用 on-policy 蒸馏做统一整合。

三档推理努力模式：Non-think（快速直觉响应）、Think High（自觉逻辑分析）、Think Max（逼近模型推理能力边界，官方推荐 context window 至少 384K）。
官方 Benchmark（V4-Pro-Max 模式）
模型卡提供了与闭源前沿模型的对比表。挑几个代表性维度（数据全部来自 DeepSeek 官方模型卡，对照组为 Opus-4.6 Max、GPT-5.4 xHigh、Gemini-3.1-Pro High、K2.6 Thinking、GLM-5.1 Thinking）：
[td]

Benchmark	V4-Pro Max	Opus-4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
MMLU-Pro	87.5	89.1	87.5	91.0
LiveCodeBench	93.5	88.8	-	91.7
Codeforces (Rating)	3206	-	3168	3052
SWE Verified (Resolved)	80.6	80.8	-	80.6
SWE Pro (Resolved)	55.4	57.3	57.7	54.2
Terminal Bench 2.0	67.9	65.4	75.1	68.5
BrowseComp	83.4	83.7	82.7	85.9
GDPval-AA (Elo)	1554	1619	1674	1314

几个关键观察：

LiveCodeBench 和 Codeforces 这两项 V4-Pro-Max 是表中第一。
SWE Verified 与 Opus-4.6 Max 基本持平（80.6 vs 80.8）。
agent 类综合指标（GDPval-AA、Terminal Bench 2.0）明显落后 GPT-5.4 xHigh。

研判：V4 的定位可以粗略理解为「代码/数学类单轮高难任务接近或反超闭源顶端，agent 类长周期工作流仍落后 GPT 系列一个身位」。这与 DeepSeek 一直以来的模型特征延续（V3 系列在代码和数学的纯解题能力上相对突出），但把 agent 短板暴露得更清晰。
芯片归属问题（最受关注、也最缺一手确认）
待证实：2026-04-03 Reuters 引述 The Information 报道 V4 将运行在华为昇腾芯片上，DeepSeek 在过去几个月与华为和寒武纪合作重写模型栈。但 2026-04-24 DeepSeek 在微信公众号的官方公告中未直接确认芯片归属，Hugging Face 模型卡也未提及训练或推理所用硬件。若华为昇腾训练说属实，这是首个在非 NVIDIA 硬件上训练的前沿级模型，地缘影响超出技术本身；但在官方直接表态之前，不应把这一点当 L1 事实写。

GPT-5.5 与 DeepSeek V4 同日上线

指导单位

旗下站点

联系我们