分享好友 健康资讯首页 健康资讯分类 切换频道

编程进入「对讲机」时代,Claude抢发语音写代码,转录Token全免费

2026-03-03 16:177036kr

【导读】Claude Code 正式上线语音模式:输入 /voice,长按空格说话,松开即完成输入。语音转录实时流入光标位置,和键盘无缝切换,转录Token完全免费。编程的下一个战场不是模型智商,而是交互方式。

刚刚,Anthropic给Claude Code加了个语音模式。

以后写代码,用嘴说就行。

Claude Code是Anthropic出品的命令行AI编程工具。

以前你得打字跟它交流。现在不用了。

输入/voice命令,开启语音模式。长按空格键说话,松开完成输入。

跟对讲机一模一样。

目前灰度测试阶段,大约5%的用户先尝鲜,接下来几周逐步放开。

如果你的账户有权限,打开Claude Code时欢迎界面会提示你。

语音模式这玩意儿牛在哪?

不是简单的语音转文字。

语音转出来的文字,会直接在光标位置实时流式输出。

类似下面网友分享的这样。

啥意思呢?你可以先手打一半提示词,遇到复杂逻辑懒得打字了,长按空格切到语音,吐槽一通那段难以描述的逻辑,松手,再继续打字。

无缝衔接。不覆盖。不替换。

这才是关键——它不是替代键盘,是补充键盘。

想象一个场景:你在调一个诡异的bug,涉及三层回调嵌套加一个竞态条件。

打字描述这玩意儿,光组织语言就得五分钟。

但如果张嘴说?人类天生就擅长口头描述混乱的场景。三十秒搞定。

还有一个大利好:语音转录的Token完全免费。不计费。不扣额度。想说多少说多少。

对面奥特曼什么反应?

有意思的是,OpenAI的Codex几乎在同一时间也加了类似功能。

Codex 0.105.0版本更新日志写得明明白白——按住空格录音,松开转录,文字直接输入到终端界面。

用的是Wispr语音引擎,目前支持macOS和Windows,Linux还没跟上。

而且这功能还需要手动开启:

在配置文件里设置features.voice_transcription=true。

两家几乎同时出招。

这不是巧合,是共识。

编程工具的下一个战场,不在模型有多聪明,而在交互有多自然。

社区怎么看?

开发者社区其实早就在自己搞了。

在官方语音模式之前,GitHub上就有一个叫Voice Mode的社区项目,通过MCP协议给Claude Code外挂了语音能力。

用Whisper做语音识别,用Kokoro做语音合成,甚至能离线跑。

还有各种第三方工具——AquaVoice、Superwhisper、Voicy——都在抢占语音写代码这个生态位。

有人用Talon Voice实现了全程免手操作,连终端的Ctrl+C都是用嘴说的。

而现在,官方直接下场了。

第三方工具颤抖了吗?可能没有。

因为官方的语音模式更像一个入口级功能——它降低了门槛,让更多人意识到原来写代码可以用嘴。

语音编程的体感到底怎么样?

根据早期用户的反馈,几个场景特别好用:

Debug的时候

口头描述bug比打字描述快太多了。

你说话时会自然带出更多上下文——就是那个,登录页面,输入带加号的邮箱,它验证就报错了——这种人类碎碎念的信息密度,打字时你绝对懒得写。

架构讨论的时候

我想让这个API用JWT做认证,accesstoken十五分钟过期,refreshtoken七天,再加一个刷新端点——说出来十秒钟,打出来一分钟。

不在电脑前的时候

吃东西、喝咖啡、手受伤了、得了腱鞘炎——这些场景下,语音输入不是锦上添花,是刚需。

但也有短板。

变量名、URL、代码片段,还是得靠打字。语音识别对camelCase、下划线命名和各种缩写的识别率仍然不够稳。

所以最佳实践是:自然语言部分用嘴说,精确代码部分用手打。

一个更大的信号

让我们把视角拉远一点。

2024年,Cursor让AI写代码成为主流,Tab一下是当时的潮流。

2025年,Claude Code和Codex让AI Agent自主编码成为可能。

2026年,语音模式的加入,补上了人机交互的最后一块拼图。

编程正在经历一次输入革命。

键盘不会消失,就像鼠标没有消失一样。

但编程的主要瓶颈,已经从写代码变成了表达意图。

而表达意图这件事,人类最原始、最高效的方式,就是说话。

人类说话的速度大约是每分钟150词,打字速度大约是40词。

这中间3-4倍的差距,就是语音编程要吃掉的市场。

畅想一下:

再往前看几步。

如果语音输入足够准确,如果AI对代码意图的理解足够深,那编程最终的形态可能是这样的:

你坐在沙发上,对着电脑说:把用户模块的权限系统重构一下,改成RBAC模型,别忘了写测试。

AI自动读代码、理解架构、写实现、跑测试、提PR。

你审一眼diff,说一句LGTM,合并。

从写代码到说需求,从程序员到编程导演。

这一天比大多数人想的要近。

Claude Code的这个/voice命令,就是一个起点。

它可能还很粗糙,可能还有各种小毛病。

但方向错不了——未来的编程,一定是多模态的。

键盘、语音、甚至手势和眼动,所有人类自然的表达方式,都会成为编程的输入通道。

到那时候回头看今天,就像我们现在看二十年前的打孔卡片一样。

会觉得很可爱。

写代码这件事,终于可以动口不动手了。

虽然动完口之后,你可能还是得动手改bug。

参考资料:https://x.com/bcherny/status/2028629573722939789 

本文来自微信公众号“新智元”,编辑:定慧,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
抛弃“不作恶”,谷歌和五角大楼签订协议、承接美军机密AI业务,超700名员工联名反对
谷歌,这个曾以“不作恶”为行为准则的科技巨头,如今正深陷一场前所未有的内部风暴。28日,美国消费者新闻与商业频道(CNBC)援引科技媒体“The Information”报道,谷歌已与美国国防部签署协议,承接机密人工智能业务。一位知情人士透露,美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称,本周,700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊,要

0评论2026-04-297

一季度净利环比暴增27倍,剑桥科技股价一年涨三倍,险资与社保基金加仓,股东高管减持
4月27日盘后,光模块概念大牛股剑桥科技(603083.SH、06166.HK)发布2026年一季报,公司一季度营收同比增长43.98%至12.87亿元;归母净利润同比增长276.44%至1.18亿元。从环比来看,剑桥科技今年第一季度营收环比下滑约12%;净利润环比增长2722.62%,而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股,剑桥科技H股曾在11个交易日完成了翻倍,4月2

0评论2026-04-297

32美元一辆车,Tesla为什么不认?(下)
本案真正值得关注的,不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是,如果法院最终认为这类平台许可条款不能进入FRAND审查,那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时,实施者还能不能有效挑战其许可条件?这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看,Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-297

“保本”又“看病”?监管部门约谈健康险公司,中介平台下架热销“医疗金”产品
早在前两年,市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长,这类产品的资产增值属性被放大,经过长期现金价值积累,配合可以累积的医疗保险金,使得产品有着不输理财型产品的收益率,这也是引起监管部门关注的原因之一。2026年4月初,当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时,他可能不会想到,体验活动中的重磅产品“岁月长安·特定疾病保险(互联网版)”即将面临下架。4月

0评论2026-04-295