真·养虾，3步让龙虾边聊边进化，不用GPU不用数据集就能强化学习_健康_健康资讯

让OpenClaw帮干活还不够，现在，程序员们正想方设法让龙虾自己变强。

注意注意！还不是某个任务上的单点提升，这次有人直接给整个智能体套一层在线强化学习系统MetaClaw——

不用自己维护GPU集群、不用数据集也无需人工微调，让AI跟你聊着聊着就能自己变聪明。

这种新的学习模式就是把用户和AI的日常对话直接变成训练数据，整个学习循环全在后台完成，也不耽误正常使用。

咱平时跟AI该聊啥聊啥，MetaClaw会默默拦截OpenClaw的交互过程，给每一轮对话打分，再通过在线微调优化AI的决策策略。

而且它还吃一堑长一智，要是AI哪句话翻车了，MetaClaw会自动扒完整的交互轨迹，分析问题出在哪，然后自动生成一个新技能存进技能库。

下次再遇到类似的坑，相关技能会被精准搜索出来注入系统提示，同款错误直接拜拜。

技能注入+技能进化

模型底座基于Kimi-2.5构建，同时也准备了Qwen3-4B这个轻量级替代方案，低配设备也能跑。

核心机制是自研的SkillRL技能增强强化学习框架，说白了就是技能注入+技能进化的组合拳。

技能注入

每轮对话里精准匹配相关技能指令，不用等训练结束，AI当场就能优化表现；

技能进化

让AI从被动接收指令变成主动生成技能，技能库越用越丰富，能力水涨船高。

而最吸引人的，是不依赖本地GPU集群，不用自己维护这个设定。

MetaClaw把所有训练任务全甩给了Tinker云平台，训练和部署彻底分家。

只要你的设备能连上网，就能跑通整个系统，不用操心算力，也不用专门的工程团队盯着维护。

这波直接把AI持续学习的门槛干到了地板级，普通人也能养出会进化的龙虾了。

除此之外，MetaClaw的细节设计也很懂开发者的痛点。

异步架构+双学习模式，把服务、奖励建模和训练彻底解耦，AI一边给用户实时响应，后台一边做打分和优化，“工作学习”两不耽误。

学习模式也给足了选择，想轻量化就用强化学习，从用户隐式反馈里优化；想深度提升就用在线策略蒸馏，结合高质量文本反馈进阶。

主打一个你想怎么训就怎么训。

三步上手

用起来还贼简单，就3步。

第一步先安装依赖，前面的是常规服务和大模型相关库，跑API、发请求、接大模型都用得上。

后面的tinker和tinker-cookbook是关键，这是云端LoRA训练的SDK。

- pip install fastapi uvicorn httpx openai transformers- pip install tinker tinker-cookbook

第二步运行配置脚本将OpenClaw网关指向MetaClaw的代理，比较推荐的是Kimi2.5.

- bash openclaw_model_kimi.sh

第三步是设置Tinker API密钥，直接跑训练脚本。

- export TINKER_API_KEY=”xxx”- cd /path/to/metaclaw- python examples/run_conversation_rl.py

搞定，之后你只需要像平常一样和Agent聊天，MetaClaw会自动收集对话轮次、评分、训练模型。

每攒够一批样本就热替换一次权重，全程无需人工干预。

如果想启用技能注入，只需在配置中设置：

- config = MetaClawConfig(use_skills=True)

想开始技能进化，可以设置（以GPT5.2为例）：

- config = MetaClawConfig(use_skills=True,enable_skill_evolution=True,azure_openai_deployment=”gpt-5.2”,)

然后配好密钥：

- export AZURE_OPENAI_API_KEY=”xxx”- export AZURE_OPENAI_ENDPOINT=”https://your-endpoint.openai.azure.com/“

所有配置项都集中在MetaClawConfig中，包括模型选择、LoRA参数、批次大小、训练步数、损失函数类型等，一目了然。

好好好，这下变成真·养虾了（doge）。

MetaClaw这项工作由姚骅修领导，他是电子科技大学校友，现任UNC计算机科学系的助理教授，曾在Stanford AI Lab做博士后，专注于Agent和具身AI。

项目地址：https://github.com/aiming-lab/MetaClaw

参考链接：[1]https://x.com/BoWang87/status/2031094971630235941[2]https://x.com/HuaxiuYaoML/status/2031069599651729905

本文来自微信公众号“量子位”，作者：关注前沿科技，36氪经授权发布。

抛弃“不作恶”，谷歌和五角大楼签订协议、承接美军机密AI业务，超700名员工联名反对

谷歌，这个曾以“不作恶”为行为准则的科技巨头，如今正深陷一场前所未有的内部风暴。28日，美国消费者新闻与商业频道（CNBC）援引科技媒体“The Information”报道，谷歌已与美国国防部签署协议，承接机密人工智能业务。一位知情人士透露，美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称，本周，700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊，要

0评论2026-04-2912

AI对话框成“赛博魅魔”：它越懂你，为什么越危险？
0评论2026-04-29

一季度净利环比暴增27倍，剑桥科技股价一年涨三倍，险资与社保基金加仓，股东高管减持

4月27日盘后，光模块概念大牛股剑桥科技（603083.SH、06166.HK）发布2026年一季报，公司一季度营收同比增长43.98%至12.87亿元；归母净利润同比增长276.44%至1.18亿元。从环比来看，剑桥科技今年第一季度营收环比下滑约12%；净利润环比增长2722.62%，而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股，剑桥科技H股曾在11个交易日完成了翻倍，4月2

0评论2026-04-2912

32美元一辆车，Tesla为什么不认？（下）

本案真正值得关注的，不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是，如果法院最终认为这类平台许可条款不能进入FRAND审查，那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时，实施者还能不能有效挑战其许可条件？这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看，Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-2914

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍
0评论2026-04-29

靠补贴扭亏为盈？摩尔线程仍需打“硬仗”
0评论2026-04-29

AI时代，“10后”沉迷于捡“电子垃圾”
0评论2026-04-29

“保本”又“看病”？监管部门约谈健康险公司，中介平台下架热销“医疗金”产品

早在前两年，市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长，这类产品的资产增值属性被放大，经过长期现金价值积累，配合可以累积的医疗保险金，使得产品有着不输理财型产品的收益率，这也是引起监管部门关注的原因之一。2026年4月初，当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时，他可能不会想到，体验活动中的重磅产品“岁月长安·特定疾病保险（互联网版）”即将面临下架。4月

0评论2026-04-298

比亚迪、奇瑞汽车的供应商冲击IPO，上市前巨额分红，来自山东济宁
0评论2026-04-29

第一批押注AI的酒店、民宿，已经不看OTA脸色了？
0评论2026-04-29