分享好友 健康资讯首页 健康资讯分类 切换频道

Cursor自研新模型反超Opus 4.6,价格还“打一折”,网友实测:只有它写完应用能一次跑通

2026-03-20 22:3237036kr

站在悬崖边的 Cursor,刚刚发布了自家第二代编程大模型:Composer 2.0, 且已在 IDE 中上线。

在一项关键的编程基准测试(Terminal-Bench 2.0)上,Composer 2 竟然 反超了 Claude 的旗舰模型 Opus 4.6。

要知道,在 Cursor 拥有自家编程模型 Composer 之前,它长期“外挂”Claude 和 Codex,虽然因此吸了一大波粉,但也饱受质疑有没有核心能力。

而这一次,不仅性能反超,而且价格还 “打一折”!

Cursor 给出的定价是:Fast 版本,每百万输入 token 输入 1.5 美元,每百万输入 token 输出 7.5 美元,比上一代便宜了 57% 左右。

而普通版的价格直接干到了输入 0.5 美元、输出 2.5 美元。相比之下,Claude Opus 4.6 的定价是:输入 5 美元、输出 25 美元——刚好差了整整 10 倍!不过需要说明的是,Anthropic 也指出,在使用缓存与批处理等优化机制时,原则上能把成本最多压到原来的十分之一。

当下, AI 竞争已经卷到了“谁能用更少的钱吐出更多 token”这步,而 Composer 2.0 在速度和成本这两端,竟然同时碾压了 Opus 4.6、GPT-5.4 这两个老对手。Cursor 也是毫不客气地放一张图,把三者的数据对比直接摆上台面。

网友实测:只有 Composer 2,写完应用能一次跑通

Cursor 宣称,Composer 2 在他们用上的所有基准测试中都取得了大幅提升。

除了前文提到的 Terminal-Bench 2.0,在衡量模型 Debug 能力的 SWE-bench Multilingual(多语言版)上,Composer 2 也给出了一个很能打的成绩:73.7%,而 Claude Opus 4.6 的这项得分是 77.83%(数据来自 Anthropic),可见两者已经拉得很近。

只在“通用榜单”里比高低可能已经不能满足 Cursor 了,他们最近还自建了一套基准,专门评估 agent 在真实任务执行水平,名为 Cursor Bench

值得一提的是,Cursor Bench 还曾把在 SWE-Bench 上风光无限的 Claude Sonnet 4.5 直接打回原形:得分从 77.2 骤降到 37.9。至于 Composer 2,大概率已经在这套自家的“魔鬼基准”下被反复检验过了。

话说回来,在数据上的表现确实很亮眼了,那 Composer 2 的真实“业务水平”如何?

一位开发者网友对 Composer 2、Opus 4.6 和 GPT-5.4 在同一任务下做了波实测:

他用一套指定技术栈生成了一个 X 的克隆应用,并允许这三个模型调用浏览器自行测试。

结果显示,三者在规划阶段差别不大,都花了约 5 分钟;但到了真正执行时,差距开始拉开:Composer 2 生成的应用可以直接运行,而 Opus 和 GPT 虽然最终也能完成,但都卡在了 CORS 问题上,需要额外调试。

更有意思的是,三者生成的代码结构和质量其实非常接近,差距主要在于 效率和成本:Composer 2 用时 5 分钟、花费 6.04 美元;而 Opus 和 GPT 分别耗时 19 分钟、22 分钟,成本也更高,达到 10.43 美元和 14.15 美元。

为什么说 Cursor 站在悬崖边?

这当然不是因为它赚不到钱。

恰恰相反,过去一年 Cursor 的营收、估值、用户增长都很猛,企业客户也还在持续买单。

据彭博社 3 月初消息,Cursor 在 2025 年销售额,从一年前的 1.5 亿美元飙升至 20 亿美元(约合人民币 138 亿元)。而且他们的员工数只有 300 多人。

另外,Cursor 在去年 11 月完成了上一轮融资,金额为 23 亿美元,投后估值 300 亿美元左右(约合人民币 2069 亿元)。而且据彭博社 3 月 11 日消息,Cursor 还在和投资者洽谈新一轮融资,投后估值或达 500 亿美元(约合人民币 3448 亿元)。不过谈判还在进行中,最终不一定能达成融资协议。

也就是说,真正危险的,是 Cursor 赖以崛起的那套逻辑正在被掏空:

过去开发者需要 IDE 来和 AI 一起写代码,而现在,越来越多开发者开始直接把任务交给 Claude Code、Codex 这类 CLI 智能体,让它们自己写、自己跑、自己改。

软件开发正在从“辅助写代码”切换到“智能体完成任务”,代码编辑器不再是唯一入口,甚至开始显得多余

这对 Cursor 来说是致命的。它原本最强的地方,是把 Claude、Codex 这些顶级模型装进一个足够顺手的 IDE 里;但当模型厂商自己下场做产品,直接把入口拿走,Cursor 就很容易从“超级入口”滑落成“中间一层”。

更尴尬的是,它长期依赖外部模型,用户喜欢它,恰恰也是因为它接入了最强的大脑;可一旦这些大脑自己做 IDE、做 CLI、做 Agent,Cursor 的护城河就开始变浅——上游模型厂往下吃,下游开发者往外绕,它被夹在中间。

所以 Cursor 的自救方式也很明确:

第一,补上最致命的短板,做自己的模型。

第二,全面转向 Agent,把 IDE 从“文件中心”改成“任务中心”。上线云端多智能体协作,让多个 Agent 并行干活,而不是只做一个代码补全工具。

第三,继续押企业市场,因为大公司迁移慢、合同长、合规重,不会今天用 Cursor 明天就全员切到 Claude Code。

另外,它还要降低对 Anthropic 和 OpenAI 的依赖。Cursor 利用 DeepSeek、Kimi、Qwen 等开源模型做了二次训练,再通过自有数据和强化学习,把它们拧成更便宜、更快的专用编码模型——Cursor 也是搭上中国开源模型的快车了。

说白了,Cursor 现在不只是在做版本更新,而是在抢时间重写自己的存在理由:

在“编辑器可能失去中心地位”的时代,证明自己不只是一个好用的壳,而是一个真正有模型、有系统、有新入口的 AI 编程平台。

参考链接:

https://cursor.com/cn/blog/composer-2

https://x.com/TukiFromKL/status/2034677859818610700

https://x.com/wesbos/status/2034705631773372853

本文来自微信公众号“AI前线”,作者:木子,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
抛弃“不作恶”,谷歌和五角大楼签订协议、承接美军机密AI业务,超700名员工联名反对
谷歌,这个曾以“不作恶”为行为准则的科技巨头,如今正深陷一场前所未有的内部风暴。28日,美国消费者新闻与商业频道(CNBC)援引科技媒体“The Information”报道,谷歌已与美国国防部签署协议,承接机密人工智能业务。一位知情人士透露,美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称,本周,700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊,要

0评论2026-04-2913

一季度净利环比暴增27倍,剑桥科技股价一年涨三倍,险资与社保基金加仓,股东高管减持
4月27日盘后,光模块概念大牛股剑桥科技(603083.SH、06166.HK)发布2026年一季报,公司一季度营收同比增长43.98%至12.87亿元;归母净利润同比增长276.44%至1.18亿元。从环比来看,剑桥科技今年第一季度营收环比下滑约12%;净利润环比增长2722.62%,而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股,剑桥科技H股曾在11个交易日完成了翻倍,4月2

0评论2026-04-2913

32美元一辆车,Tesla为什么不认?(下)
本案真正值得关注的,不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是,如果法院最终认为这类平台许可条款不能进入FRAND审查,那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时,实施者还能不能有效挑战其许可条件?这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看,Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-2916

“保本”又“看病”?监管部门约谈健康险公司,中介平台下架热销“医疗金”产品
早在前两年,市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长,这类产品的资产增值属性被放大,经过长期现金价值积累,配合可以累积的医疗保险金,使得产品有着不输理财型产品的收益率,这也是引起监管部门关注的原因之一。2026年4月初,当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时,他可能不会想到,体验活动中的重磅产品“岁月长安·特定疾病保险(互联网版)”即将面临下架。4月

0评论2026-04-2910