当前位置:文章 > 列表 > 正文

Mythos架构被22岁小伙“逆推”开源之!MoE与注意力借鉴DeepSeek

闭月羞花。
📅 2026-04-21 05:26:10 🏷️ 贵金属投资app 👁️ 992
Mythos架构被22岁小伙“逆推”开源之!MoE与注意力借鉴DeepSeek

Kye还引用之俄亥俄州立大学之一篇论文,对轮回Transformer架构做之两名枢纽实验。

此些结局说明当前大模型于预操练中已记住之大量事实,瓶颈于于学识组合。

天下大同。

更多理论与实验验证正路上。

https://arxiv.org/abs/2604.07822 https://x.com/KyeGomezB/status/2045660378844024994 听说Mythos太险恶被封印。

轮回块内部用之混合专家层,MoE路由器于每次轮回中激活不同之专家子集。

据Anthropic披露,已有网络机构尝试使用Claude模型渗透约30名宗旨,更有攻击者借AI窃取政府数据、部署勒索软件。

轮回Transformer之对付方式就为于推演时多加几轮轮回,标准Transformer直接崩溃。

OpenMythos,整顿之公开研讨与目前对Claude Mythos架构之主流推测。

Gomez把此套设计小结成一句话: 来自UCSD与Together AI之新论文Parcae: Scaling Laws For Stable Looped Language Models提出LTI稳固轮回注入让每轮不发散。

若此些断语成立,Scaling之主流将从”操练更大之模型”转向“让现有模型于推演时多想几遍”。

https://github.com/kyegomez/OpenMythos#the-central-hypothesis MoE提供领域学识之广度,轮回提供推演之深度。

16轮推演全部于hidden state向量中成,不生成任何中间token。

周边外交。

已有研讨证实,此种架构仅用1半参数,就能得与旧俗模型同等之效果。

RDT为“想完16遍才说一句话”,推演历程完全内化。

三人行,必有我师焉。

同一名东西跑16遍,彼不为费算力吗。

广度与深度皆有之,还需一套稳固性机制保证轮回不会跑飞。

操练时从没见过之学识组合,推演时轮回Transformer照样能答对,标准Transformer直接败。

CoT为“想一步,写一步,再想一步,再写一步”,中间token全部暴露给苍生阅读。

互联网+。

直到最后一轮轮回终,才输出解答。

让同一组权重最多反复跑16遍每次走不同之专家路径推演全程于潜于方位成。

MoE之设计上借鉴之DeepSeekMoE:大量细粒度路由专家,加少量始终于线之共享专家。

住宅用地

最后一块拼图为连续潜于方位推演。

汗牛充栋。

https://arxiv.org/abs/2604.12946 量子位 | 公众号 QbitAI OpenMythos实现之一名带有MoE路由机制之轮回深度Transformer(Recurrent-Depth Transformer ,RDT),通过跨专家之权重共享与机缘计算来实现迭代深度。

旅客

尽管白宫AI顾问大卫·萨克斯(David Sacks)发文质疑Anthropic为否于扮演“喊狼来之之孩子”,但残酷之现状为,黑客早已始使用大模型发动繁攻击。

它们无法将已知事实串联起来回答新颖疑难。

过往两年,AI行业之标准打法为堆叠上百层不同之Transformer层,每层学到不同之东西,参数量直接爆炸。

媒体

三者合力,让一名疑难“想更多遍”比堆参数更高效。

有者反手就给他“重修”并开源之。

一衣带水。
马德里竞技

实验中用770M参数之RDT追平之1.3B参数之标准Transformer。

对轮回Transformer之猜想已吸引之来自学术界之大量目光。

F1。

轮回似乎免费解锁之此种组合本领。

RDT不用上百层,只用几层,最多反复轮回跑16遍,每一遍皆基于前一轮之结局续计算。

他设计之RDT架构有三名核心点: 此证验轮回不为重复计算,为真正之”更深层思考”。

此与Chain-of-Thought完全不同。

唐纳德·特朗普

参数量少之近一半,效果一样。

操练时只教之20跳推演链,测试时直接给30跳。

守护者。轿跑

把此些碎片拼于一起之者叫Kye Gomez,22岁,Swarms智能体框架创始者。

四、抱负与现状之碰撞:天才国度之愿景与五角大楼之决裂 RDT之回答为不会重复,因每次轮回激活之为不同之“专家”。

有之此些研讨结局,Anthropic之Mythos为否真之用之此套架构,似乎已不重要之。

Super-tech。

上一篇:一键共享屏幕上下文!Gemini桌面应用正式登陆macOS 下一篇:“新校长”应有之模样