分享好友 健康资讯首页 健康资讯分类 切换频道

刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了

2026-01-13 09:209036kr

就在十几个小时前,DeepSeek 发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》,与北京大学合作完成,作者中同样有梁文锋署名。

论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

简单总结一波这项新研究要解决的问题:目前大语言模型主要通过混合专家(MoE)来实现稀疏化,这被称为「条件计算」。但是,现有的 Transformer 缺少原生的知识查找机制,只能被迫通过计算过程低效地模拟检索行为。

针对这一现状,DeepSeek 提出了条件记忆(conditional memory),从而与 MoE 的条件计算互补,并通过引入一个新模块 Engram 来实现

目前,模块「Engram」相关的实现已经上传到了 GitHub。

项目地址:https://github.com/deepseek-ai/Engram

这让网友们感慨:「DeepSeek is back!」

此外,结合元旦期间公布的研究《mHC:Manifold-ConstrainedHyper-Connections》,我们可以明确的是 DeepSeek v4 的模样愈发清晰,就等上新了!

除了条件计算(MoE),

LLM 还需要一个独立的条件记忆 Engram

MoE 模型通过条件计算实现了模型容量的扩展,但现有的 Transformer 架构缺乏原生的知识查找原语,只能通过计算过程低效地模拟检索行为。

为了解决这一问题,DeepSeek 提出了条件记忆(conditional memory)这一与条件计算互补的稀疏化维度,并通过 Engram 模块加以实现。Engram 在经典

举报
收藏 0
打赏 0
评论 0
日更7.5万首,播放不足3%:AI音乐沦为“虚假繁荣”?
Suno V5、Lyria 3 Pro、Mureka V9……从30秒片段到3分钟完整曲目,从简单旋律到精细化编曲,AI音乐大模型正在以肉眼可见的速度重构音乐行业的生产逻辑。但热闹之下,市场已是硝烟弥漫。一边,是版权方的严防死守。2026年4月,Suno与环球、索尼的版权谈判彻底崩盘,双方陷入“完全无路可走”的僵局;美国唱片业协会(RIAA)多次发声谴责AI音乐平台侵权,索赔金额高达每首15万美元

0评论2026-04-252

DeepSeek V4背后,梁文锋的转身
2026年4月,DeepSeek几乎同时公布了两条大新闻:一是公司启动首次外部融资,目标估值从100亿美元迅速抬升至200亿到300亿美元,腾讯、阿里正洽谈入局;二是其新一代旗舰模型V4发布,全面适配华为昇腾950PR芯片,从英伟达的CUDA生态转向华为的CANN框架。一内一外两种变化,背后是DeepSeek的全面战略转向,也是AI公司竞争进入深水区的标志。那个纯靠自身的量化投资输血、以“技术理想

0评论2026-04-252

深圳千亿新贵:投资人赚了500倍
创投圈又一笔超级回报诞生。这要从4个月前说起——“Token第一股”迅策科技登陆港交所,但彼时股价起伏不定。没想到短短百余天后,公司市值竟一举突破1000亿港元,上市以来股价最新累计上涨高达500%。乍听起来有些陌生,迅策背后站着一对父子——刘呈喜在2016年出资创立公司,却由其子刘志坚一手带队,历经十年站上IPO敲钟舞台。一路走来,迅策科技身后的投资人队伍浩浩荡荡,如今市值已较A轮估值翻了500

0评论2026-04-252