分享好友 健康资讯首页 健康资讯分类 切换频道

训练时间爆砍80%,港大快手联合打造了一个AI炼金师:专挑“有营养”数据,20%数据达成50%效果

2025-12-26 20:117036kr

想象一下,如果让一个大厨用发霉的食材、过期的调料来做菜,即使厨艺再高超,也做不出美味佳肴。AI训练也是同样的道理。

一、数据就像食材,质量决定成品

现在的AI图像生成模型,如Stable Diffusion、FLUX等,需要从网络上爬取数百万张图片来学习。但这些图片质量参差不齐:有些模糊不清,有些内容重复,有些甚至只是广告背景图。用这些“食材”训练出来的AI,自然效果不佳。

由香港大学丁凯欣领导,联合华南理工大学周洋以及快手科技Kling团队共同完成的这项研究,开发出了一个名为“炼金师”(Alchemist)的AI系统。它就像一位挑剔的大厨,能从海量图片数据中精准挑选出最有价值的一半。

更让人惊喜的是:

二、让AI学会“自我评判”

2.1 传统方法的局限

传统的数据筛选方法就像用筛子筛米粒,只能按照单一标准过滤:

这些方法的问题在于:它们不知道哪些数据真正有助于AI学习

2.2 炼金师的智慧

“炼金师”更像是一位经验丰富的美食评委,它能同时考虑多个维度:

核心思想:让AI学会观察自己的学习过程

炼金师训练了一个专门的评分员模型,这个评分员就像资深的艺术老师,能够判断每张图片对整个学习过程的价值。

评判标准:

✅如果一张图片能让AI模型学到新知识并快速改进→好数据

❌如果一张图片让模型学了半天也没什么进步→无用数据

这就像观察学生做习题时的表情和进步速度,来判断这道题是否适合他们。

三、最简单的不一定最好

3.1 意外的真相

研究团队发现了一个违反直觉的现象:

那些看起来最“简单”的图片,比如纯白背景的产品图:

相反,内容丰富、稍有挑战性的图片,才是真正的“营养品”

3.2 科学验证

研究团队追踪了不同评分区间图片的训练动态:

四、技术亮点:偏移高斯采样策略

基于上述发现,团队提出了“偏移高斯采样”(Shift-Gsample)策略。

4.1 传统方法vs炼金师

传统Top-K方法:

炼金师策略:

这就像制定健身计划:

4.2 多粒度感知机制

为了更好地评估数据质量,炼金师还设计了“多粒度感知”机制:

就像营养师不仅关注单个食材的营养价值,还要考虑整餐的营养搭配。

五、实验结果:数据说话

5.1 主要成果对比

在LAION-30M数据集上:

关键发现:

5.2 跨模型通用性

炼金师在不同规模、不同架构的模型上都有效:

5.3 跨数据集适应性

在不同类型数据集上的表现:

HPDv3-2M数据集(真实+合成混合):

Flux-reason-6M数据集(纯合成推理数据):

六、可视化分析:眼见为实

6.1 数据分布特征

研究团队对筛选后的数据进行了可视化分析:

0-20%高分区域(简单但营养不足):

30-80%中分区域(最有价值的“金中间”):

80-100%低分区域(过于混乱):

6.2 训练动态对比

训练稳定性对比:

炼金师选择的数据展现出:

✅稳定持续的性能提升

✅更快的收敛速度

✅更少的训练波动

随机选择的数据则表现出:

❌早期训练波动大

❌性能提升缓慢

❌需要更多epochs才能收敛

七、技术深度:元梯度优化框架

7.1 双层优化问题

炼金师的核心是一个双层优化框架

外层优化:学习如何评分

内层优化:训练代理模型

7.2 元梯度更新机制

核心思想:

如果一个样本让验证性能提升→提高其评分

如果一个样本只降低训练损失但不提升验证性能→降低其评分

八、Q&A环节

Q1:炼金师如何判断哪些图片数据更有价值?

A:炼金师通过观察AI模型在学习过程中的“反应”来判断数据价值:

✅好数据:能让模型学到新知识并快速改进

❌差数据:让模型学了半天也没进步

这就像观察学生做题时的表情和进步速度,来判断题目是否合适。

技术细节

Q2: 为什么用一半数据训练出的模型比用全部数据还要好?

A:因为并非所有数据都有价值,关键在于质量而非数量。

类比说明:

科学原理:

1.冗余数据消耗资源但不提升性能:如重复的简单样本、模糊不清的噪声图片

2. 有营养的数据促进真实学习:如内容丰富的中等难度样本、多样化的场景和对象

3. 避免过拟合:若只用简单数据会导致模型“死记硬背”,还应使用适当难度的数据培养泛化能力

Q3: 炼金师的数据筛选方法能在其他AI模型上使用吗?

A:可以!研究显示这种方法具有良好的通用性和跨模型适用性

验证范围:

✅不同数据类型:

✅不同模型架构:

✅不同模型规模:

原理:

数据质量是本质属性,不依赖特定模型

就像好食材适合各种烹饪方法

经验丰富的教练选择的训练方法,既适合业余选手也适合专业选手 

Project Page:https://kxding.github.io/project/Alchemist/

Github:https://github.com/KlingTeam/Alchemist/

arXiv:https://arxiv.org/abs/2512.16905

本文来自微信公众号“量子位”,作者:Alchemist团队,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
单价近28亿元,台积电高管直喊阿斯麦新设备太贵暂不购买
4月22日,台积电副共同营运长张晓强在一场论坛上公开表示,公司目前没有采用阿斯麦最新高数值孔径极紫外光刻机(High-NA EUV)的计划,这类设备单台价格超过3.5亿欧元(约合人民币27.98亿元)。“我们仍然能够从现有EUV设备中获益。”张晓强还补充称,下一代High-NA EUV设备“非常非常贵”。公开资料显示,阿斯麦High‑NA EUV光刻机是当前半导体制造领域技术复杂度最高、单价最昂贵

0评论2026-04-230