查看: 132|回复: 0

GPT-5.5 与 DeepSeek V4 同日上线

[复制链接]
匿名
匿名  发表于 5 小时前 |阅读模式

qw1.jpg
长话短说
2026 年 4 月 23 日北美白天到 4 月 24 日北京早晨的约 20 小时内,OpenAI 和 DeepSeek 几乎同步交付了各自下一代旗舰模型。OpenAI 发布 GPT-5.5,主打「为 agent 工作而生」的智能;DeepSeek 在微信公众号启动 V4 系列预览,并在 Hugging Face 释放 Pro 与 Flash 两档权重,License 为 MIT,上下文长度 100 万 token。
  • OpenAI 路线:把智能打包进闭源 API,靠 NVIDIA GB200/GB300 协同设计和内部工具链把 agent 任务的「完成度」拉满,同步翻倍 API 定价。
  • DeepSeek 路线:用 1.6T 总参 / 49B 激活的 MoE 混合注意力架构在开源侧逼近闭源顶端,权重和技术报告全部公开,走可自托管部署。

最大的不确定在于两点:待证实 DeepSeek V4 是否在华为昇腾芯片上完成训练(2026 年 4 月 3 日 Reuters 引 The Information 的报道有此说法,但本次官方发布公告未直接确认);以及 DeepSeek 在英文第三方 benchmark 上的成绩能否独立复现(所有 benchmark 目前仅见于官方模型卡)。
GPT-5.5:定位和关键数据
OpenAI 在发布文档里把 GPT-5.5 描述为「为真实工作和驱动 agent 而生的一类新智能」。核心声称按原话归纳:
  • 智能提升 + 速度不降:GPT-5.5 在真实服务环境下的单 token 延迟与 GPT-5.4 持平,同一 Codex 任务完成所需 token 数显著更少。
  • agent 能力为核:在 agent coding、computer use、知识工作、早期科学研究四个方向上的提升最明显。
  • 与 NVIDIA 硬件深度协同:通过 GB200/GB300 NVL72 系统与内部工具链的 co-design 实现延迟不增。
  • 定价翻倍:API 价格从 GPT-5.4 的 15 每百万 token(输入/输出)涨到 30,Pro 变体涨到 180,上下文窗口 1M token,API 上线"very soon"但发布时尚未开放。

官方公布的 benchmark 数字:
[td]
BenchmarkGPT-5.5 得分上下文
Terminal-Bench 2.082.7%复杂命令行工作流,需要规划和迭代工具使用;Claude Opus 4.7 为 69.4%、Gemini 3.1 Pro 为 68.5%
GDPval84.9%覆盖 44 种职业的知识工作
OSWorld-Verified78.7%真实计算机环境中自主操作
Tau2-bench Telecom98.0%复杂客服工作流(无 prompt 调优)
FinanceAgent60.0%-
Expert-SWE(内部)73.1%20 小时中位人工完成时间的长周期编码任务
SWE-Bench Pro58.6%OpenAI 注:Claude Opus 4.7 得 64.3%,但 Anthropic 自己报告其在该集上「存在记忆化迹象」
BrowseComp(Pro 变体)90.1%Gemini 3.1 Pro 为 85.9%

这些数字全部来自 OpenAI 的官方发布文档,待验证:第三方独立评测尚未公开,尤其涉及到把竞品 Claude 和 Gemini 的分数同场对比的段落,采用的 prompt 设置、工具集、采样温度是否一致,需要第三方复现。

研判:GPT-5.5 的战略重心非常清楚地押在「长周期 agent 任务的完成度」上。Expert-SWE 和 Terminal-Bench 2.0 两个指标组合起来指向的是 Codex 里的多小时连续任务,而不是单轮对话或单次代码补全。OpenAI 自己在发布稿里举的内部案例 —— 财务团队用 Codex 分析 24,771 份 K-1 税表、共 71,637 页,比上一年快两周 —— 同样是在讲 agent 工作流而非聊天。

对 Codex 每周 400 万开发者用户(发布稿中数据)的基本盘而言,这一代的核心价值是把人手必须介入的干预次数压低。
DeepSeek V4:架构和开源路线
DeepSeek 本次预览版同时给出两档模型和完整技术报告。关键技术细节均来自官方模型卡:
[td]
型号总参数激活参数上下文精度许可证
DeepSeek-V4-Pro1.6T49B1MFP4 + FP8 MixedMIT
DeepSeek-V4-Flash284B13B1MFP4 + FP8 MixedMIT
DeepSeek-V4-Pro-Base1.6T49B1MFP8 MixedMIT
DeepSeek-V4-Flash-Base284B13B1MFP8 MixedMIT

FP4 + FP8 mixed 的含义是 MoE 专家参数用 FP4,其余大部分参数用 FP8。
三项架构升级
  • 混合注意力架构:组合 CSA 与 HCA 。在 1M 上下文下,V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%,KV 缓存仅为 V3.2 的 10%。
  • 流形约束超连接:在保持模型表达力的前提下强化残差连接,提升跨层信号传播稳定性。
  • Muon 优化器:用于加快收敛和训练稳定性。
训练管线
两档模型均在 32T+ token 上预训练,后训练采用两段式:第一阶段独立培养领域专家(SFT + GRPO RL),第二阶段用 on-policy 蒸馏做统一整合。

三档推理努力模式:Non-think(快速直觉响应)、Think High(自觉逻辑分析)、Think Max(逼近模型推理能力边界,官方推荐 context window 至少 384K)。
官方 Benchmark(V4-Pro-Max 模式)
模型卡提供了与闭源前沿模型的对比表。挑几个代表性维度(数据全部来自 DeepSeek 官方模型卡,对照组为 Opus-4.6 Max、GPT-5.4 xHigh、Gemini-3.1-Pro High、K2.6 Thinking、GLM-5.1 Thinking):
[td]
BenchmarkV4-Pro MaxOpus-4.6 MaxGPT-5.4 xHighGemini-3.1-Pro High
MMLU-Pro87.589.187.591.0
LiveCodeBench93.588.8-91.7
Codeforces (Rating)3206-31683052
SWE Verified (Resolved)80.680.8-80.6
SWE Pro (Resolved)55.457.357.754.2
Terminal Bench 2.067.965.475.168.5
BrowseComp83.483.782.785.9
GDPval-AA (Elo)1554161916741314

几个关键观察:
  • LiveCodeBench 和 Codeforces 这两项 V4-Pro-Max 是表中第一。
  • SWE Verified 与 Opus-4.6 Max 基本持平(80.6 vs 80.8)。
  • agent 类综合指标(GDPval-AA、Terminal Bench 2.0)明显落后 GPT-5.4 xHigh。

研判:V4 的定位可以粗略理解为「代码/数学类单轮高难任务接近或反超闭源顶端,agent 类长周期工作流仍落后 GPT 系列一个身位」。这与 DeepSeek 一直以来的模型特征延续(V3 系列在代码和数学的纯解题能力上相对突出),但把 agent 短板暴露得更清晰。
芯片归属问题(最受关注、也最缺一手确认)
待证实:2026-04-03 Reuters 引述 The Information 报道 V4 将运行在华为昇腾芯片上,DeepSeek 在过去几个月与华为和寒武纪合作重写模型栈。但 2026-04-24 DeepSeek 在微信公众号的官方公告中未直接确认芯片归属,Hugging Face 模型卡也未提及训练或推理所用硬件。若华为昇腾训练说属实,这是首个在非 NVIDIA 硬件上训练的前沿级模型,地缘影响超出技术本身;但在官方直接表态之前,不应把这一点当 L1 事实写。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

指导单位

江苏省公安厅

江苏省通信管理局

浙江省台州刑侦支队

DEFCON GROUP 86025

旗下站点

态势感知中心

应急响应中心

红盟安全

联系我们

官方QQ群:112851260

官方邮箱:security#ihonker.org(#改成@)

官方核心成员

Archiver|手机版|小黑屋| ( 沪ICP备2021026908号 )

GMT+8, 2026-4-24 20:24 , Processed in 0.051561 second(s), 29 queries , Gzip On.

Powered by ihonker.com

Copyright © 2015-现在.

  • 返回顶部