像梁文峰一样诚实_健康_健康资讯

「不诱于誉，不恐于诽，率道而行，端然正己。」

原话出自《荀子·非十二子》，这次被 DeepSeek 放到发布稿的结尾。

《非十二子》本身就不是一篇温吞的文章。荀子在里面逐一批评当时有影响力的学说和人物，甚至连儒家内部的子思、孟子也没有放过。

所谓“非十二子”，不是简单地否定别人，而是在一个思想市场极度热闹、各种声音都试图争夺解释权的时候，重新辨认什么是真正可靠的道路。

梁文锋当然不是想批评别人，他甚至连对外讲两句都没兴趣。这只是一种自我说明，和自我道路的确认。

外界 care 我们，但我们不 TM care。

过去一段时间，DeepSeek 处在一种很特殊的位置上。

V4 迟迟没有发布，又不断被各种融资、延期、人才流动的猜测包围。

AGI 梦想在前，赞誉、质疑、情绪和舆论，全是噪声。

外界可以有很多评价，但最后能回应一切的，还是模型和产品。

这也是梁文锋和 DeepSeek 特别的地方。他们身上有一种少见的理想主义，但这种理想主义不是轻飘飘的口号，而是非常工程化、非常具体的东西：模型做强，成本打低，上下文扩张，Agent 能力补上，把真实使用体验摆到用户面前。

而且还很诚实。

理想主义的人不一定诚实。

比如马斯克显然有理想主义，星际移民和通用 AGI 都在射程之内。但马斯克显然不够诚实。对于今天模型圈的人来说，诚实是个更加稀缺的品质。

今天新模型发布后，你已经很难直接获得关于模型能力的相对客观的评价了。你看到一堆跑分和基准测试，跟实际体验是两个东西。

DeepSeek 文章里给出了他们内部的真实体验判断：目前 DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型，据评测反馈使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距。

相当清楚，一目了然，基本锁死外部野生评测员的补位空间。

所以我建议所有模型厂商，模型发布的时候，除了那批已经没啥人看的跑分，都加上自己内部盖戳认证的真实印象。

这个东西很关键。

因为 Agentic Coding 不是考试题。模型在一个榜单里多拿几分，和你真的把它放进一个代码仓库里，让它读需求、看文件、改代码、跑测试、修 bug、继续迭代，是两回事。

真实体验里有很多 benchmark 很难覆盖的东西。任务一长就丢失目标，用着用着就忘掉前面的约束，改我不让它改的文件，真的让人抓狂。

所以 DeepSeek 这段话不是觉得自己很强，不是benchmark说我很强，而是它给了一个非常接近真实用户语言的坐标。

强在哪里，接近谁，和谁还有差距，说得很明白。这种表达其实比“全面超越某某模型”高级得多，也有用得多。

具体聊下模型。1M上下文

现在很多模型的默认上下文还是256K这个级别。对普通聊天来说，这已经很长了。但对 Agent 任务来说，其实经常不够。vibe coding的时候，或者跑个龙虾跑匹马的时候，模型需要在一个很长的任务过程中持续保留信息。

很多时候模型任务失败，不是它单点智力不够，而是因为工作记忆不够。

它前面读过的东西，后面就忘了；用户一开始强调的要求，做着做着丢了；项目结构刚理解完，改到第三轮又开始漂移。上下文不够的时候，Agent 很容易变成一个短视的执行器，很难跑完整个任务。

1M 上下文的意义就在这里。它让模型更像一个能长时间工作的协作者。

严格来说，这还不是参数意义上的“持续学习”，因为模型权重没有更新。

但从产品体验上讲，它已经接近一种上下文内的持续学习：模型可以在同一个任务窗口里不断吸收资料、用户反馈、历史决策和中间产物，然后把这些东西带到后面的推理和执行里。

未来很多 AI 应用不会是“我问一句，你答一句”，而是“我给你一个目标，你陪我把一件复杂的事做完”。这时候上下文就是模型的工作台，也是它的短期记忆。上下文越长，模型越有机会从单轮工具变成持续协作系统。

为了更好地支持长上下文，DeepSeek 重新处理了 Transformer 最昂贵的那一层东西：注意力。

传统注意力的问题大家都知道，它越往长上下文走，成本越不讲道理。因为模型不是把前文当成一篇文章粗略扫一眼，而是每生成一个位置，都要和前面大量位置建立关系。上下文长度扩大以后，计算和显存压力会以非常陡的方式上升。

V4 的思路是把“看上下文”这件事拆得更细。它不再要求模型在所有层里都用同一种方式平铺直叙地看完整历史，而是让不同注意力模块承担不同尺度的记忆任务。

一部分模块负责做比较细的压缩和筛选：先把连续的小段 token 整理成更紧凑的记忆单元，再让当前位置只去关注其中最相关的一部分。

另一部分模块则负责更粗尺度的全局感知，把更长的一段历史压成更少的记忆节点，然后在这些节点之间做相对完整的关联。它牺牲了一些局部细节，但换来的是对超长历史的整体把握。

这个方向我觉得非常 DeepSeek。

因为 DeepSeek 过去两年最关键的技术气质，一直不是“堆大”，而是“稀疏化”，是降成本。

V2、V3 的 MoE 是参数层面的稀疏化：模型总容量很大，但每个 token 只调用一部分专家，所以能力上去，成本没有按同等比例爆炸。

V4 这次更进一步，把稀疏化推进到了上下文本身：不是所有历史 token 都以同等分辨率进入注意力，而是经过压缩、筛选、分层之后，再被模型使用。

所以这次 1M 上下文，我觉得不能只当成一个产品卖点。

它更像是 DeepSeek 技术路线的一次延伸：先用 MoE 解决“模型容量和推理成本”的矛盾，再用新的注意力结构解决“上下文长度和计算成本”的矛盾。前者让大模型变得更便宜，后者让长任务变得更可行。

API价格

DeepSeek 去年之所以能掀起那么大的轰动，不只是因为它强，也不只是因为它便宜，而是它让所有人第一次非常强烈地意识到：强和便宜原来可以同时成立。

这件事对行业心理的冲击很大。因为过去大家默认顶级模型就是贵的，低价模型往往就要在能力上做妥协。但 DeepSeek 把这个默认前提打穿了。便宜但不好用，不会改变行业；强但太贵，也只能服务少数场景。但又强价格又低，就会改变成本结构，成本一动上面的生态就会跟着动。

拿公开 API 价格粗略看一下。deepseek-v4-pro的价格基本跟最新发布的kimi-k2.6一致，前者在缓存未命中情况下更贵，输出则更便宜一点。

不过k2.6价格是256K的上下文长度，而deepseek-v4-pro则是1M的上下文。按照之前小米MiMo token plan的计费规则，从256k到1m上下文增长，API价格要翻倍。

而且这里需要看到下面灰色的补充信息。目前受限于高端算力，Pro的服务吞吐十分有限，预计下半年昇腾950超节点批量上市后，Pro的价格会大幅下调。

说明当前Pro版本的价格是被刻意调高，因为推力算力还没有跟上。未来Pro版本价格大幅下调，不排除在现有价格的基础上对折甚至再对折。

国产算力齐活

之前一直有传闻，说 DeepSeek-V4 这次没有按照行业惯例，把早期适配优先权交给英伟达，而是先给了华为等国产芯片厂商。

当时这个说法听起来还有点像江湖传闻，因为大模型行业过去的默认流程就是围着 CUDA 转。模型厂商发新模型之前，先让英伟达这些硬件和软件生态的核心玩家提前适配，确保模型一上线就能在主流 GPU 上跑得又快又稳。

现在看来，国产全栈AI基本齐活了。

上面我们提到，DeepSeek 自己在发布稿里写了，受限于高端算力，目前 Pro 的服务吞吐十分有限，预计下半年昇腾 950 超节点批量上市后，Pro 的价格会大幅下调。

华为计算公众号也说，昇腾一直同步支持 DeepSeek 系列模型，这次通过双方芯模技术紧密协同，实现昇腾超节点全系列产品支持 DeepSeek V4 系列模型。昇腾 CANN 还安排了 DeepSeek V4 昇腾首发直播。

CUDA 的优势不是英伟达某一张卡很强，而是模型、框架、算子库、开发工具、部署经验、工程人才，全都围着它长了很多年。你要从 CUDA 迁到 CANN，大量底层算子、精度对齐、通信、调度、推理服务都要能跑通，而且要跑得足够好。

DeepSeek-V4 能在昇腾超节点上作为重要服务底座跑起来，这对国产算力是一次非常关键的验收。DeepSeek 的性价比不是凭空来的，它背后一定要有算力供给。

如果永远依赖昂贵、受限、供给不稳定的外部 GPU，再强的模型也很难长期维持低价。国产算力如果能接上，DeepSeek 才有可能继续把“强模型 + 低价格”这件事往下打。

所以这件事我觉得可以说是 DeepSeek-V4 里最硬的产业信号之一：模型有了，长上下文有了，Agent 能力有了，API 有了，现在连国产算力底座也开始接上了。

闭环开始形成。

DeepSeek 负责把模型能力和成本曲线打出来，华为昇腾负责把高端推理算力和超节点供给接上，CANN 负责补国产软件栈，开发者和 Agent 产品负责把需求跑起来。

为什么 DeepSeek-V4 这次发布很振奋。

它不是一个孤零零的模型更新，而是把很多原本分散的线索接到了一起：梁文锋的理想主义，DeepSeek 的诚实表达，1M 上下文，Agent 能力，低价 API，昇腾超节点，国产算力放量。

每一个单独看都重要，但合在一起，才是真正让人兴奋的地方。

本文来自微信公众号“象先志”，作者：三清，36氪经授权发布。

以服务铸竞争力以全球化赢未来联想赋能中国企业出海新生态
0评论2026-04-24

用一台没有方向盘的车，曹操出行给出Robotaxi从技术到商业的答案
0评论2026-04-24

财报“美颜”下的天能动力：铅酸见顶，百亿锂电不赢

23月底，港股铅蓄电池龙头天能动力（00819.HK）发布2025年年度财报，一组充满矛盾感的数据，直接引发了市场的分歧。全年来看，公司实现营业收入537.99亿元，同比下滑29.83%，规模较上年缩水超228亿元；归母净利润却逆势增长25.77%至14.37亿元，创下近三年最高盈利增速。反常的财务数据，并未换来资金的认可。财报发布次日，天能动力高开低走，后续数个交易日持续震荡下行。市场很清楚，这

0评论2026-04-242

AI，救不了失宠的影视行业

影视行业正身处多事之秋。一方面，昔日中国影视第一股华谊兄弟遭破产申请，行业老牌玩家深陷泥潭。另一方面，光线传媒同样承压。缺少头部IP《哪吒2》的支撑，公司2026年第一季度营收仅1.91亿元，同比下降93.59%；归母净利润2327.56万元，同比下降98.85%。与此同时，长视频龙头爱奇艺高调推出AI艺人库，本想抢占技术风口，却一夜之间引爆舆论争议，陷入信任危机。在不久前的2026爱奇艺世界大会

0评论2026-04-242

产值19倍于传统影院，西影“无界XR影院”在宁波爆棚！

4月20日，西影旗下“无界XR影院”披露其在宁波电影嘉年华期间的收益表现：单座椅最高日产值1200元。日均产值706元，对比传统影院最能打的春节档（2026年春节档单座日均产值约36.26元）——19倍之悬殊。这组数据一出来，不止景区等各类场景端，投资机构，恐怕也要按捺不住了。何出此言呢？除了虚拟现实技术带来深度沉浸感，重新勾起观众好奇心，坐观式XR影院的商业逻辑与传统影院亦大不相同。这种“一椅一

0评论2026-04-242

5万亿，KKR组织一趟中国走访

KKR来了。投资界从KKR获悉，近日KKR全球宏观与资产配置团队组团来到中国，行程包括北京和香港。他们走访了汽车、机器人及消费服务等多个行业的企业。“我们亲眼目睹了人工智能和自动化在多个行业的快速普及。”一趟下来，KKR合伙人Henry H. McVey感慨良多，他看到了更多值得长期关注的信号：中国供应链韧性优于其他经济体，中国人工智能战略正快速规模化推进，同时人民币汇率走强，也反映出全球对人民币

0评论2026-04-242

Agent进入企业，拼的不再是更聪明，而是更能把事做完
0评论2026-04-24

马斯克要造100万台机器人，它们身上的电机、减速器、丝杠，有多少是中国造

2026年1月，特斯拉完成了Optimus第三代机器人的供应链审厂。3月，马斯克在特斯拉全员大会上给出明确的量产指引——2026年目标生产5万到15万台Optimus，2030年的目标是5000万台。一个听起来更激进的数字，也被马斯克挂在嘴边——未来一年要造一亿台。一亿台什么概念？全球智能手机年出货量是12亿台左右。而在这个庞大数字的最底层——一台Optimus身上有多少零部件来自中国？先拆一台O

0评论2026-04-243

DeepSeek-V4：中国AI应用寒武纪大爆发奇点降临
0评论2026-04-24

明明正确的战略，为什么注定失败？

我做企业研究时，经常遇到反直觉现象。比如最近，我做了几家公司的研究。研究过程里，有几个现象让我感到困惑，因为它们和主流战略逻辑完全相反：1、追觅在清洁品类还没坐稳行业第一的情况下，同时启动汽车、手机、大家电项目，分散资源——按照传统战略逻辑，这是致命错误。但追觅赢了。2、小鹏智驾团队明确知道给AI模型加几条规则可以立刻解决眼前的产品问题，却坚决拒绝——按照传统战略逻辑，产品先活下去是第一位的。但他

0评论2026-04-243