免责声明:金色财经所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(jinse.com.cn) 举报

    DeepSeek V4 震撼出场: 与 Claude 4.7、GPT 5.5 较量的十个第一性原理

    下午三点半,加州大道的太阳已经开始往斯坦福那边斜。Zombie Café门口那条狗又趴在门口那把白椅子下面。桌上摊着三份打印件:Anthropic四月十六号的Opus 4.7发布稿,OpenAI四月二十三号Greg Brockman那场GPT-5.5发布会的逐字稿,还有今天凌晨刚出来、油墨还没干透的DeepSeek V4技术报告。

    八天之内,三家把2026年第二季度的牌全部摊到桌面上。

    咖啡喝完之前,硅谷Alan Walker把这事讲清楚。不吹benchmark水,不讲哪个模型"感觉更好",不写公关稿。只从第一性原理拆——技术、芯片、价格、受众、战略、生态——三家2026年到底各自站在哪里,谁在领先,谁在守城,谁在掀桌子。

    01 开源 vs 闭源——这场仗的根本路线之争

    DeepSeek这次同步开放了V4-Pro和V4-Flash两个模型,标准MIT License,权重直接上Hugging Face,谁都能下载、能微调、能商用。Claude Opus 4.7和GPT-5.5是纯闭源——只给你一个API口子,模型权重你这辈子也摸不到。

    很多人以为这是商业模式之争。错。这是 信任结构之争。

    闭源的护城河叫"你只能来我这里"——把用户锁在我家门口排队。开源的护城河叫"你离不开我这套生态"——把开发者、企业、整个国家的AI基建都长在我的架构上。一个是收费站,一个是高速公路。

    DeepSeek用V3、R1、V3.2、V4连续四代开源把这件事做实了。今天全球任何一家想做本地部署、想在金融、医疗、政务、军工里跑大模型的公司,闭着眼睛第一个想到的就是DeepSeek。中国的国企、中东的主权基金、欧洲不想把数据交给美国云的银行——这些人不会用闭源API,永远不会。Anthropic和OpenAI的赌注是相反的:前沿智能差距永远在,最聪明的客户最舍得花钱。

    但这套赌注有时间窗口。R1出来那天到现在,开源和闭源的能力差距从一年缩到了三个月。三个月这个数字一旦变成一个月,闭源那条线就开始裂了。

    02 模型架构——三家走的根本不是同一条路

    V4-Pro 1.6T总参 / 49B激活;V4-Flash 284B总参 / 13B激活。1M上下文是出厂默认。架构核心是混合注意力(CSA + HCA交错)+ Manifold-Constrained Hyper-Connections + Muon优化器 + FP4训练。在1M token场景下,V4-Pro的单token推理FLOPs只用V3.2的27%,KV cache只用10%。V4-Flash更狠——FLOPs降到10%,KV cache降到7%。

    这套架构的本质押注一句话:长上下文不是能力问题,是效率问题。V3那一代靠MoE把训练成本砍下来,V4这一代要靠混合注意力把推理成本砍下来。一刀一刀往最贵的环节切。

    GPT-5.5不一样。OpenAI官方明说——这是GPT-4.5之后第一次从零重训练的基模。前面5.1、5.2、5.3、5.4都是同一个base上的post-training迭代。5.5重做了架构、重做了预训练语料、重做了agent导向的训练目标。Pachocki在发布会上一句话——"过去两年的模型进步surprisingly slow"——其实是在说他们之前那个base打不动新的scaling曲线了,必须换发动机。

    Claude Opus 4.7对4.6是 精准改良。Anthropic自己定位很明确:notable improvement,不是paradigm shift。SWE-bench Verified从80.8拉到87.6,视觉分辨率从1568px拉到2576px,整体吞吐是之前的3.3倍,tokenizer换了一次(同样文本要多用1到1.35倍token)。Mythos Preview才是他们真正下一代的怪物,但Mythos Preview现在还压在保险箱里,只给12家合作伙伴试用,民用要等。

    03  底层芯片——今天最被低估的那条新闻

    主流英文媒体的标题都在写V4的benchmark。错。今天真正改变游戏规则的那行字是 —— V4的部分训练,是在华为昇腾上完成的。

    OoUMsEEMzvA4DW9J6mFN9gEd23VQWT4Stjf3lMmf.png

    发布同一天,华为宣布Ascend SuperPoD全系列对V4 Pro和Flash提供"full support"。寒武纪同步宣布兼容。SMIC港股当天跳涨10%。这三条线连在一起读才是新闻——中国AI第一次把训练和推理的全栈跑在国产硬件上,关键路径上没有任何一颗英伟达芯片。
    这件事的分量,比所有benchmark加起来都大。
    过去三年,美国对华最有效的杠杆只有一个:先进GPU出口管制。背后逻辑很简单——你训不出最强的模型,因为你买不到H100、买不到B200。V4的发布等于把这根杠杆的力矩砍掉一半。第一梯队的开源模型,可以在非英伟达硬件上训练并量产部署。这件事一旦被市场广泛验证,制裁这件事在AI领域基本等于无效。
    Claude和GPT-5.5全部跑在NVIDIA H100/H200/B200 + Google TPU + Anthropic自研Trainium2的栈上。没有第二条路,也没有第二家供应商。这是壁垒,也是单点。哪天英伟达涨价或产能跟不上,这两家全得遭殃。DeepSeek现在多了一条独立供应链——他们多了一张牌。

    04 训练成本结构——Muon、FP4、32T token怎么拼出今天这个价格

    V4技术报告里写得很清楚:用了Muon优化器(更快收敛、训练更稳)、FP4精度(内存占用直接腰斩)、两阶段post-training(各领域专家独立SFT+RL,再用on-policy distillation统一蒸馏到同一个模型)、32万亿token的预训练语料。这些不是花架子,是把训练成本压下来的真正机器。

    结果就是——V4-Pro的API价格可以压到V3.2之下,V4-Flash更跑到了开源小模型的最低区间。

    GPT-5.5的玩法是 明着提价。每百万token输入5美元、输出30美元,是GPT-5.4的两倍。OpenAI的官方说法是"token效率提升40%,综合成本只多20%"。漂亮话。但你拿生产环境的真实prompt跑一遍就知道——长prompt短输出的工作流,账单直接变成两倍。OpenAI赌的是"前沿智能稀缺性"还能再撑一个周期,所以敢翻倍定价。

    Claude Opus 4.7的玩法是 暗着提价。表面价格不变,5/25美元和Opus 4.6完全一致。但Anthropic自己的文档里写了——新tokenizer同样的文本最多多用1.35倍token。换言之,标价没动、账单最多涨35%。这是高情商提价,但跑大流量的工程团队会立刻在月度财报上看到。

    DeepSeek反着来—— 降价。V3.2价格已经低,V4-Pro在它之下。等几个月华为Ascend 950量产之后还会再降一波。这是中国互联网的祖传打法:用规模和效率把价格打到对手骨折,再用生态把人留住。

    05 API定价——一美元能买多少智能

    把价目表摊开看。

    第三方评测Artificial Analysis给过一个等价对照:Intelligence Index相同分数下,GPT-5.5(medium)≈ Claude Opus 4.7(max),前者跑全套测试约 $1,200、后者约 $4,800。V4-Pro在类似智能水平上,是前两者的 三到十分之一。

    这不是"便宜一点"。这是把高端智能的单位成本整个拽下来一个数量级。

    对一家月token消耗百万美元的企业意味着什么——以前同样预算只能跑10条agent线,现在能跑80条。以前贵到不敢做的实验,现在白菜价随便试。这种事一旦在市场上被三、四家头部企业证实(比如某家把核心客服agent从Opus切到V4-Pro省了70%成本,质量没掉),剩下所有人都会跟。这是reflexive的——每多一家迁移,下一家迁移的心理门槛就降一截。

    OpenAI和Anthropic的反击只能在两个方向上做:要么把闭源前沿差距重新拉大(Mythos要尽快放出来),要么在企业关系、合规、可靠性上把转换成本做厚。前者要时间和钱,后者要客户的耐心。

    06 百万上下文的真实经济学

    三家都上了1M context。表面看是个齐头并进的数字。

    但是 —— 能做和能便宜做是两码事。

    V4-Pro在MRCR长文检索基准上拿83.5分,超过Gemini-3.1-Pro的76.3,落后Claude Opus 4.6的92.9。CorpusQA在1M token上62%,超过Gemini 3.1 Pro的53.8%。retrieval accuracy在128K时94%、512K时82%、1M时66%。绝对值不是第一名,但是开源里第一名,且是 开源里第一个把1M做成默认的。

    Claude Opus 4.7的1M context没有长上下文加价——这是Anthropic的硬功夫。GPT-5.5也是。但是问题来了:三家推理单位成本差十倍,长上下文场景下这个差距被放大十倍。

    简单算一笔账。一份500K token的法律文件让模型分析一遍:Opus 4.7光输入就$2.5,加输出整体$3-4;GPT-5.5差不多;V4-Pro约$1。这种工作流如果一天跑1万次,年化成本差距是几百万到一千多万美元。中型企业跑 agentic 分析 workload 的最大瓶颈就是长上下文成本,V4-Pro 等于把这个瓶颈直接干掉。

    07 编码与 Agent 能力——三家各守一方

    把benchmark表摊开,这一局非常清楚。

    这套数据告诉你的不是谁更强,而是 三家在重仓不同的agent形态。

    Anthropic重仓的是 "在真实代码库里改真实问题"。Cursor、Devin、Factory、Ramp这些客户用Opus,跑的不是"写一个todo app"这种玩具任务,而是"在200万行代码库里修一个三周前埋下的race condition"。NVIDIA把Codex部署给一万名员工后说debug周期从几天降到几小时——这个数字Anthropic自己也能拿出来。Opus 4.7能把SWE-Bench Pro 64.3%刷出来——是真的在产线里磨过的。

    OpenAI重仓的是 "Agent操作整台计算机"。Terminal-Bench 2.0、OSWorld、Codex里跑shell——这些都指向一个未来:AI不只是给你写代码,AI替你直接打开终端、敲命令、操作你的Mac。Brockman发布会那句"agentic computing at scale"不是套话,是OpenAI下一个十年的slogan。

    DeepSeek重仓的是 "开源开发者的公共智能资产"。它不会赢SWE-Bench Pro,但它把开源世界的天花板抬到了Codeforces 3206分。这意味着——任何一家创业公司不需要付Anthropic或OpenAI一分钱,就能在自己机器上跑一个接近顶级竞赛级别的代码模型。

    08 受众人群——三家瞄准的是三个完全不同的钱包

    Anthropic的客户列表你扫一眼就明白方向:PayPal、Hex、Devin、Factory、Ramp、Notion、GitHub Copilot、Stripe、Block——全是金融科技和企业SaaS。这些公司有两个共同点:钱多,对错误零容忍。Opus 4.7的5/25美元定价、安全审计、合规叙事、Bedrock/Vertex AI/Foundry多云部署——所有这些都是冲着采购流程长达半年、签三年合同、年付百万美元的那种客户做的。Forge Global上Anthropic估值破 1万亿美元、超过OpenAI的8800亿,资本买的就是这套 "企业客户密度" 的故事。

    OpenAI的底盘是消费者+开发者+企业三轮驱动。ChatGPT周活近10亿,是它真正的护城河。GPT-5.5在Plus/Pro/Business/Enterprise同步推送,API翻倍定价的代价被C端流量摊掉。Codex开发者群体过去半年从几十万涨到几百万,NVIDIA、Stripe、Shopify这些公司大规模内部部署。OpenAI玩的是规模——它每一笔单位成本都被巨大的分母摊薄。

    DeepSeek的受众列表完全不一样。中国国企、银行、医院、政府机关;中东不愿把数据交给美国云的主权基金;欧洲对GDPR严格的医药公司;东南亚和拉美希望主权AI的发展中国家政府。还包括硅谷一群"我就是想自己跑模型不想付API"的硬核开发者和startup。这群人加起来,不是OpenAI那种10亿C端用户的规模,但是是另一种规模 —— 地缘和主权层面的规模。

    三个完全不同的钱包,三个完全不同的销售逻辑。

    09 安全与网络攻防姿态——三家对"模型变成武器"的态度截然不同

    Anthropic四月初放出了 Project Glasswing。Opus 4.7是第一个内置"自动检测并拒绝高风险网络安全请求"的生产模型。Anthropic自己在技术报告里写得直白——训练时刻意压低了进攻性网络能力。CyberGym得分73.1,跟Opus 4.6(73.8)几乎持平,是政策选择不是能力天花板。Mythos Preview在同一个benchmark上能到83.1,但只给12家合作伙伴用,连这个名单本身都是机密——前几天泄漏过一次(一个Discord社群猜中了URL),Anthropic官方还出了一份事故报告。

    OpenAI走的是另一条路。GPT-5.5系统卡里写明:达到Preparedness Framework里的"High"级别网络风险,未到Critical。OpenAI的方案不是降低模型能力,而是装更严格的输入分类器、加身份验证、推所谓"cyber-permissive access program"——你想用进攻性能力可以,先把身份证拿出来。Mia Glaese在发布会上用"first identity-verified release"这种说法,潜台词是——能力我给你,但责任你扛。

    DeepSeek V4技术报告里这一块基本是空的。开源社区的传统就是"代码我开放,你拿走,你负责"。这种态度对监管者来说是噩梦,对独立开发者来说是天堂。但它的真正风险在于——任何人都能在自家GPU上跑一个能力接近Opus 4.7的模型,没有任何拦截层。这件事监管会怎么走,2026下半年到2027年是关键窗口。

    10 市场战略——三条完全不同的押注,但只有一条会成为最大的

    DeepSeek要做的是 AI界的Linux。

    用开源+极致成本+国产芯片把全球AI infra民主化。一旦每个国家、每家企业、每个开发者都在你的架构上跑——你不靠license费赚钱,你靠生态价值收税。今天Hugging Face下载量、明天每一个国产芯片厂商的SDK都默认对DeepSeek做适配、后天每个新一代AI开发者第一行代码就是 from deepseek import...。这套打法二十年前Linus Torvalds玩过,今天梁文锋在玩同一套。区别是LLM比操作系统贵一万倍、热钱多一千倍、地缘价值高一百倍。

    Anthropic要做的是 全球前沿企业的AI操作引擎。

    它的目标客户不是十亿C端用户,是全球前一万家公司的IT和合规预算。Opus 4.7的"窄但深"定位、Mythos Preview的稀缺供给、Bedrock/Vertex/Foundry的多云分发、Forge上1万亿美元的估值——这些拼到一起就是一个故事:你的法务团队、财务团队、研发团队、客服团队,每一项关键工作都跑在我的模型上,永远不能down。这是律所和投行的逻辑,不是Facebook的逻辑。客户少,单价高,转换成本接近无穷。

    OpenAI要做的是下一个 Windows + Office + Google 合一的超级应用。

    ChatGPT是它的分发权(10亿周活),Codex是它的开发者锁定,Operator是它的计算机操作入口,新Mac App是它的桌面占位。Brockman发布会那句"agentic computing at scale"——OpenAI想做的不是"一个聪明的chatbot",是 未来人类用电脑的方式本身。你打开电脑第一眼看到的是它,工作交付通过它,文档生成在它,邮件回复经它,会议总结靠它。这是Bill Gates在1990想做、Steve Jobs在2007想做、但真正可能在2027–2030被OpenAI做成的事。GPT-5.5翻倍定价是这场赌局的一笔保证金。

    三条路都通罗马。但只有一条会成为最大的——而最大的那条,决定下一个十年AI产业的财富分布。

    三家在同一周摊完牌。

    Claude Opus 4.7是 稳 的——窄但深,企业愿意签三年合同、付百万美金那种稳。它的赢面在于:任何一家想用AI做生产力工具但又怕出错的中型以上企业,找不到比Opus更可靠的选择。

    GPT-5.5是 贵 的——翻倍定价、超级应用野心、Agent能力领跑命令行和计算机操作。它的赢面在于:如果"AI替你操作整台电脑"在2027年成真,OpenAI就是这场革命的Microsoft 1995。如果不成,5/30美元的定价会变成一个昂贵的注脚。

    DeepSeek V4是 狠 的——开源、低价、国产芯片,把另外两家的护城河一段一段挖出豁口。它的赢面在于:如果地缘碎片化继续推进,全球AI infra分裂成中美两套生态,DeepSeek就是中国生态的Linux。这件事的概率不是50%,但已经远高于一年前的5%。

    2025年1月R1出来那次,市场第一反应是"中国AI追上来了"。这一次V4,市场要学的新词叫——"中国AI开始改规则了"。

    规则一旦被改,就不会被改回去。

    下午四点半,加州大道的风开始凉。Zombie Café的杯子空了。Alan 把三份打印件叠好,揣进背包。走出门口,那条狗抬了一下头,又趴下了。

    jinse.com.cn 0
    好文章,需要你的鼓励
    jinse.com.cn 0
    好文章,需要你的鼓励
    参与评论
    0/140
    提交评论
    文章作者: / 责任编辑:

    声明:本文由入驻金色财经的作者撰写,观点仅代表作者本人,绝不代表金色财经赞同其观点或证实其描述。

    提示:投资有风险,入市须谨慎。本资讯不作为投资理财建议。

    金色财经 > 嘉妍Kea > DeepSeek V4 震撼出场: 与 Claude 4.7、GPT 5.5 较量的十个第一性原理
    • 寻求报道
    • 金色财经中国版App下载
      金色财经APP
      iOS & Android
    • 加入社群
      Telegram
    • 意见反馈
    • 返回顶部
    • 返回底部