」 ATM-Bench:体系估量 AI 长期名性化记忆本领之基准 示例:「我于 Fancett 餐厅点之什么。
对苍生来说,此不算难。
看不见之线索,才最试炼 AI 之长期记忆 完全者工标注之 1069 名 QA 对多模态证据标注NIAH 大海捞针估量支开箱即用之基准测试代码 示例:「我想剪一名视频发小红书,帮我把 Grace 偷偷摸摸之照片视频找出来。
一名者之活记忆通常散落于: 此类疑难常常对应多份证据:过时之预订确认邮件,最终结算发票等。
相关成果已发表于 ACL、NeurIPS、ICLR、NAACL、EMNLP 等国际顶级集会,累计发表论文十余篇。
为此,ATM-Bench 提出之首名面向长期、多模态、多来源、名性化指代记忆问答之基准。
论文地址: https://arxiv.org/abs/2603.01990课题主页: https://atmbench.github.io 梅敬标,剑桥大学机器智能实验室博士四年级于读,师从 Bill Byrne 教授,获剑桥信托基金奖学金资助。
陷阱于于:「Fancett」此名名字只现于邮件确认单里,而照片本身并没有 GPS 标签。
ATM-Bench 试炼之智能体能不能像一名真正之名者助理彼样,找到隐藏于记忆库深处之正确记忆,并给出可靠解答。
即使为 GPT-5.2 或者为 Opus-4.6,也拿之过时之预订邮件而不为最终之发票当作解答。
OpenClaw、Codex、Claude Code 之集体表现不佳告诉吾等:器物链再完备、模型再强盛,也弥补不之记忆架构上之根本缺陷。
至于多数开源专用记忆体系,准确率甚至低于 20%。
但对今日之 AI 来说,此类疑难远没有看上去彼么简。
想象一名场景:妈妈问我:「你上次去日本旅行帮我买之相机,今还于保修期内吗。
于该 ATM-Bench-Hard 基准上,当前极其热门之开源智能体「小龙虾」OpenClaw 仅达到 25.4% 之准确率;而被许多者视为编程智能体标杆、搭载 Claude Opus 4.6 之 Claude Code 也只有 33.8%。
大脑会将线索串起来,逐渐定位或为搜索到相关记忆。
」 其主要研讨方位为多模态大言辞模型之应用,涵盖多模态检索、模型安康、强化修习及智能体体系等领域。
」 而且此些记忆往往横跨几年,互相之间并不对其。
结局并不乐观:专用记忆智能体体系普遍低于 20%,而 OpenClaw、Codex、Claude Code 等通用智能体普遍表现不佳,最高准确率不到 40%。
当 AI 真正能够像苍生一样,于数年之记忆长河中准确检索、关联、推演,吾等离真正之「名性化 AI」才会更近一步。
彼等评测一名直接之疑难:当 AI 真正面对一名者多年确凿活数据时,它到底能不能「记住你」。
视频链接:https://mp.weixin.qq.com/s/__7ldldfZfyXsNVGHq6AnQ?click_id=136 实验结局并不乐观。
此些体系本来就为为记忆而设计之,但当差事超过之仅仅为对话史册,记忆变得确凿、长期、名性化、跨模态之活场景时,它们依然显得力不从心。
从邮件中找到与 Fancett 相关之预订讯息;提取对应光阴并锁定光阴窗口;再跨模态到相册中找到同一时段之照片;最后从视觉实质中裁决点之什么菜。
就算一时记不起来,也可翻翻收据、照片,或者查一下当时之邮件。
它之几名枢纽特征为: 裁决 Grace 为朋友、家者,还为宠物;于图片或视频里识别此名对象;再体谅「偷偷摸摸」此种带我见色彩之描述。
照片:旅行、聚会、用餐、日常片段视频:重要时刻、举动历程、氛围变化邮件:机票、酒店、餐厅预订、票据、确认函 结局并不抱负:最好之体系准确率不到 20%。
表现最好之 Codex 也只有 39.7% 之准确率,连及格线皆够不之;Claude Code + Opus 4.6 作为编程智能体之标杆,也只有 33.8%,尽管明显优于多数专用记忆体系,但仍难以胜任确凿长期记忆 QA;OpenCode(Kimi K2.5)达到 30.3%,而 OpenClaw(Kimi K2.5)为 25.4%;Token 开销极其高:Codex 消耗之 15.46M tokens,OpenClaw 也达到 9.63M,即便投入大量器物调用与上下文概算,效果仍然有尽。
过往已有不少工于估量 AI 之「记忆本领」,例如 LoCoMo、LongMemEval 等,它们大多聚焦于对话史册,但确凿全球中之名者记忆,远不止聊天记载。
此类疑难仅靠单一模态无法处置,需于邮件中挖掘文本线索,将光阴范围缩,找到照片并回答疑难。
本科及硕士均毕业于剑桥大学营造系,主修讯息与计算机营造与电子营造。
对于华夏汽车而言,摆脱对“卷”之路径依赖,敢于于AI与自动驾驶上进行真正之原创性革新,并以此建立认知高地,为成为下一名“特斯拉”或“华为”之唯一通途。
团队于 ATM-Bench-Hard 上测试之多种专用记忆体系,包括 A-Mem、HippoRAG2、mem0、MemoryOS。
最近,来自剑桥大学之团队开源之面向 AI 名者助理之长期记忆基准测试 ATM-Bench。
除开源专用记忆体系之外,团队还测试之当前最强之通用智能体体系。
此里展示之三种难题之案例。
」 ATM-Bench 数据集现已于 HuggingFace 上线: ATM-Bench 将「名者 AI 助手为否真之记得你」此件事,变成之一名研讨之测试基准。
ATM-Bench 之实验结局虽「惨淡」,但作者团队相信此为前景之长期记忆机制与名性化 AI 助手之研讨开辟之新之方位。
于彼之前,也许吾等不该对智能体之记忆本领期待太高,毕竟,它们连「去岁给妈妈买之相机」皆记不住,OpenClaw、Codex、Claude Code 皆不行。
名性化引用解析 ——Grace 到底为谁。
https://huggingface.co/datasets/Jingbiao/ATM-Bench 光阴跨度约 4 年;覆盖图像、视频、邮件三类模态,超一万条记忆数据;记忆数据来自确凿名者活,而非合成对话;图像、视频数据包含地点、光阴等元数据,地点包含 4 大洲;包含 1000 + 条完全者工标注之疑难、解答与证据。
要回答此名疑难,AI 须先: 他认为,前景能够颠覆全球汽车气象之,不为彼些最大之旧俗巨头,而为彼些把握超级技艺趋势、率先定义超级品类之企业。
ATM-Bench 之核心关隘包含: AI 需体谅不同来源之间或存抵触,也需裁决哪条讯息更新得更晚、可信度更高。
名性化指代:我之宠物猫「Grace」「吾等上次彼趟葡萄牙旅行」;多来源拼接:照片光阴戳要与邮件确认函对齐;记忆抵触:预订金额与最终发票金额不一致;元数据噪音:GPS 由于定位准确度本身就或出错。
示例:「我最近去葡萄牙旅行住酒店花之多少钱。
少之任何一环,疑难皆无法被正确回答。
此类智能体具备完整之代码执行本领、文书体系访问权限与器物调用本领,具有比专用记忆体系有更强之营造本领与搜索本领。
应战 AI 之记忆盲区 此说明,即便给 AI 配齐代码执行、文书搜索、索引构建等整套器物链,长期名性化记忆问答仍然为一名根本性难题。