分享好友 健康资讯首页 健康资讯分类 切换频道

12年前上手深度学习,Karpathy掀起一波AlexNet时代回忆杀,LeCun、Goodfellow等都下场

2024-05-06 17:59410

没想到,自2012年 AlexNet 开启的深度学习革命已经过去了12年。

而如今,我们也进入了大模型的时代。

近日,知名 AI 研究科学家 Andrej Karpathy 的一条帖子,让参与这波深度学习变革的许多大佬们陷入了回忆杀。从图灵奖得主 Yann LeCun 到 GAN 之父 Ian Goodfellow,纷纷忆往昔。

到目前为止,该帖子已经有63万 + 的浏览量。

图片

在帖子中,Karpathy 提到:有一个有趣的事实是,很多人可能听说过2012年 ImageNet/AlexNet 的时刻,以及它开启的深度学习革命。不过,可能很少有人知道,支持这次竞赛获胜作品的代码是由 Alex Krizhevsky 从头开始,用 CUDA/C++ 手工编写的。这个代码仓库叫做 cuda-convnet, 当时托管在 Google Code 上:

图片

https://code.google.com/archive/p/cuda-convnet/

Karpathy 想着 Google Code 是不是已经关闭了 (?),但他在 GitHub 上找到了一些其他开发者基于原始代码创建的新版本,比如:

图片

https://github.com/ulrichstern/cuda-convnet

“AlexNet 是最早将 CUDA 用于深度学习的著名例子之一。”Karpathy 回忆说,正是因为使用了 CUDA 和 GPU,AlexNet 才能处理如此大规模的数据 (ImageNet),并在图像识别任务上取得如此出色的表现。“AlexNet 不仅仅是简单地用了 GPU,还是一个多 GPU 系统。比如 AlexNet 使用了一种叫做模型并行的技术,将卷积运算分成两部分,分别运行在两个 GPU 上。”

Karpathy 提醒大家,你要知道那可是2012年啊!“在2012年 (大约12年前),大多数深度学习研究都是在 Matlab 中进行,跑在 CPU 上,在玩具级别的数据集上不断迭代各种学习算法、网络架构和优化思路。” 他写道。但 AlexNet 的作者 Alex、Ilya 和 Geoff 却做了一件与当时的主流研究风格完全不同的事情 ——“不再纠结于算法细节,只需要拿一个相对标准的卷积神经网络 (ConvNet),把它做得非常大,在一个大规模的数据集 (ImageNet) 上训练它,然后用 CUDA/C++ 把整个东西实现出来。”

Alex Krizhevsky 直接使用 CUDA 和 C++ 编写了所有的代码,包括卷积、池化等深度学习中的基本操作。这种做法非常创新也很有挑战性,需要程序员对算法、硬件架构、编程语言等有深入理解。

从底层开始的编程方式复杂而繁琐,但可以最大限度地优化性能,充分发挥硬件计算能力,也正是这种回归根本的做法为深度学习注入了一股强大动力,构成深度学习历史上的转折点。

有意思的是,这一段描述勾起不少人的回忆,大家纷纷考古2012年之前自己使用什么工具实现深度学习项目。纽约大学计算机科学教授 Alfredo Canziani 当时用的是 Torch,“从未听说有人使用 Matlab 进行深度学习研究......” 。

图片

对此 Yann lecun 表示同意,2012年大多数重要的深度学习都是用 Torch 和 Theano 完成的。

图片

Karpathy 有不同看法,他接话说,大多数项目都是在用 Matlab ,自己从未使用过 Theano,2013-2014年使用过 Torch。

图片

一些网友也透露 Hinton 也是用 Matlab。

图片

看来,当时使用 Matlab 的并不少:

图片

知名的 GAN 之父 Ian Goodfellow 也现身说法,表示当时 Yoshua 的实验室全用 Theano,还说自己在 ImageNet 发布之前,曾为 Alex 的 cuda-convnet 编写了 Theano 捆绑包。

图片

谷歌 DeepMind 主管 Douglas Eck 现身说自己没用过 Matlab,而是 C++,然后转向了 Python/Theano。

图片

纽约大学教授 Kyunghyun Cho 表示,2010年,他还在大西洋彼岸,当时使用的是 Hannes SChulz 等人做的 CUV 库,帮他从 Matlab 转向了 python。

图片

Lamini 的联合创始人 Gregory Diamos 表示,说服他的论文是吴恩达等人的论文《Deep learning with COTS HPC systems》。

图片

论文表明 Frankenstein CUDA 集群可以击败10,000个 CPU 组成的 MapReduce 集群。

图片

论文链接:https://proceedings.mlr.press/v28/coates13.pdf

不过,AlexNet 的巨大成功并非一个孤立的事件,而是当时整个领域发展趋势的一个缩影。一些研究人员已经意识到深度学习需要更大的规模和更强的计算能力,GPU 是一个很有前景的方向。Karpathy 写道,“当然,在 AlexNet 出现之前,深度学习领域已经有了一些向规模化方向发展的迹象。例如,Matlab 已经开始初步支持 GPU。斯坦福大学吴恩达实验室的很多工作都在朝着使用 GPU 进行大规模深度学习的方向发展。还有一些其他的并行努力。”

考古结束时,Karpathy 感慨道 “在编写 C/C++ 代码和 CUDA kernel 时,有一种有趣的感觉,觉得自己仿佛回到了 AlexNet 的时代,回到了 cuda-convnet 的时代。”

当下这种 "back to the basics" 的做法与当年 AlexNet 的做法有着异曲同工 ——AlexNet 的作者从 Matlab 转向 CUDA/C++,是为了追求更高的性能和更大的规模。虽然现在有了高级框架,但在它们无法轻松实现极致性能时,仍然需要回到最底层,亲自编写 CUDA/C++ 代码。

举报
收藏 0
打赏 0
评论 0
四季度业绩“变脸”,九号公司,市值缩水超200亿
九号公司是近几年两轮电动车行业中公认的“黑马”。凭借“新国标”政策东风以及超前的技术布局,九号公司在同质化严重的两轮电动车行业杀出了重围。从最直观的营收和净利润数据来看,2017年九号公司营收仅13.81亿元,净亏损为6.271亿元;而到2025年,公司营收已增长至212.8亿元,增幅超过15倍,净利润更是增至17.58亿元,远超早年水平。凭借业绩的持续高增长,九号公司股价一度大幅上涨,此前最高触

0评论2026-04-211

加速包失灵、第三方崩盘,今年五一出行你抢到火车票了么?
4月16日,五一小长假火车票正式开售。但这次,社交媒体上蔓延的不是抢票攻略,而是一股错愕情绪:一方面,很多人惊讶的发现,自己曾经无比依赖的第三方平台“加速包”,彻底失灵了。另一方面,不少差旅人士接到通知,服务自己的差旅平台关闭了火车票业务,以后出差需要自己想辙订票。这一剧变背后,到底发生了什么?01最近两天,#12306已拒绝出票105.6万张 的新闻冲上热搜。根据官方消息显示,4月16日0时至1

0评论2026-04-211

中日“旅游暗战”,日本到底赢没赢?
自2025年11月,中国对日“旅游制裁”已经历经5个月。中日这场旅游暗战,早已超出了旅游经济的范畴,成为国际政治、国家荣誉、经济韧性等综合软实力的擂台赛。4月15日,日本发布3月旅游统计数据。3月来自中国大陆的游客29.6万人次,同比大幅下滑55.9%,说明中国的“旅游制裁”确实高效。而日本的应对也十分给力,3月日本国际游客总数361.9万人次,同比增长了3.5%,中国大陆的下滑被其他市场的增长所

0评论2026-04-211

“假沿海省份”,正在找回场子
广西,好事连连。先是平陆运河南宁段实现全线通水,为这条世纪运河按下了冲刺通航的“加速键”。紧接着,越共中央总书记、国家主席苏林自北京乘坐高铁南下,行程超2400公里、历时约10小时抵达南宁参访。这两个事件看起来没有直接关联,但实则意味深长:“背靠大西南,面朝东南亚”的广西,正从“假沿海”的困境中奋力突围,对内打通地理阻隔,对外重塑开放格局。这一次,广西,能否逆天改命?01先看平陆运河。作为西部陆海

0评论2026-04-211