贵金属开户平台-你之「龙虾」真记得你吗？剑桥发布长期名性化记忆基准ATM-Bench

」 ATM-Bench：体系估量 AI 长期名性化记忆本领之基准示例：「我于 Fancett 餐厅点之什么。

对苍生来说，此不算难。

Computational Finance。

看不见之线索，才最试炼 AI 之长期记忆完全者工标注之 1069 名 QA 对多模态证据标注NIAH 大海捞针估量支开箱即用之基准测试代码示例：「我想剪一名视频发小红书，帮我把 Grace 偷偷摸摸之照片视频找出来。

一名者之活记忆通常散落于：此类疑难常常对应多份证据：过时之预订确认邮件，最终结算发票等。

相关成果已发表于 ACL、NeurIPS、ICLR、NAACL、EMNLP 等国际顶级集会，累计发表论文十余篇。

为此，ATM-Bench 提出之首名面向长期、多模态、多来源、名性化指代记忆问答之基准。

论文地址： https://arxiv.org/abs/2603.01990课题主页： https://atmbench.github.io 梅敬标，剑桥大学机器智能实验室博士四年级于读，师从 Bill Byrne 教授，获剑桥信托基金奖学金资助。

陷阱于于：「Fancett」此名名字只现于邮件确认单里，而照片本身并没有 GPS 标签。

于敏。

ATM-Bench 试炼之智能体能不能像一名真正之名者助理彼样，找到隐藏于记忆库深处之正确记忆，并给出可靠解答。

即使为 GPT-5.2 或者为 Opus-4.6，也拿之过时之预订邮件而不为最终之发票当作解答。

OpenClaw、Codex、Claude Code 之集体表现不佳告诉吾等：器物链再完备、模型再强盛，也弥补不之记忆架构上之根本缺陷。

至于多数开源专用记忆体系，准确率甚至低于 20%。

但对今日之 AI 来说，此类疑难远没有看上去彼么简。

想象一名场景：妈妈问我：「你上次去日本旅行帮我买之相机，今还于保修期内吗。

于该 ATM-Bench-Hard 基准上，当前极其热门之开源智能体「小龙虾」OpenClaw 仅达到 25.4% 之准确率；而被许多者视为编程智能体标杆、搭载 Claude Opus 4.6 之 Claude Code 也只有 33.8%。

大脑会将线索串起来，逐渐定位或为搜索到相关记忆。

」其主要研讨方位为多模态大言辞模型之应用，涵盖多模态检索、模型安康、强化修习及智能体体系等领域。

」而且此些记忆往往横跨几年，互相之间并不对其。

结局并不乐观：专用记忆智能体体系普遍低于 20%，而 OpenClaw、Codex、Claude Code 等通用智能体普遍表现不佳，最高准确率不到 40%。

当 AI 真正能够像苍生一样，于数年之记忆长河中准确检索、关联、推演，吾等离真正之「名性化 AI」才会更近一步。

彼等评测一名直接之疑难：当 AI 真正面对一名者多年确凿活数据时，它到底能不能「记住你」。

视频链接：https://mp.weixin.qq.com/s/__7ldldfZfyXsNVGHq6AnQ?click_id=136 实验结局并不乐观。

此些体系本来就为为记忆而设计之，但当差事超过之仅仅为对话史册，记忆变得确凿、长期、名性化、跨模态之活场景时，它们依然显得力不从心。

从邮件中找到与 Fancett 相关之预订讯息；提取对应光阴并锁定光阴窗口；再跨模态到相册中找到同一时段之照片；最后从视觉实质中裁决点之什么菜。

就算一时记不起来，也可翻翻收据、照片，或者查一下当时之邮件。

它之几名枢纽特征为：裁决 Grace 为朋友、家者，还为宠物；于图片或视频里识别此名对象；再体谅「偷偷摸摸」此种带我见色彩之描述。

照片：旅行、聚会、用餐、日常片段视频：重要时刻、举动历程、氛围变化邮件：机票、酒店、餐厅预订、票据、确认函结局并不抱负：最好之体系准确率不到 20%。

表现最好之 Codex 也只有 39.7% 之准确率，连及格线皆够不之；Claude Code + Opus 4.6 作为编程智能体之标杆，也只有 33.8%，尽管明显优于多数专用记忆体系，但仍难以胜任确凿长期记忆 QA；OpenCode（Kimi K2.5）达到 30.3%，而 OpenClaw（Kimi K2.5）为 25.4%；Token 开销极其高：Codex 消耗之 15.46M tokens，OpenClaw 也达到 9.63M，即便投入大量器物调用与上下文概算，效果仍然有尽。

过往已有不少工于估量 AI 之「记忆本领」，例如 LoCoMo、LongMemEval 等，它们大多聚焦于对话史册，但确凿全球中之名者记忆，远不止聊天记载。

此类疑难仅靠单一模态无法处置，需于邮件中挖掘文本线索，将光阴范围缩，找到照片并回答疑难。

本科及硕士均毕业于剑桥大学营造系，主修讯息与计算机营造与电子营造。

对于华夏汽车而言，摆脱对“卷”之路径依赖，敢于于AI与自动驾驶上进行真正之原创性革新，并以此建立认知高地，为成为下一名“特斯拉”或“华为”之唯一通途。

团队于 ATM-Bench-Hard 上测试之多种专用记忆体系，包括 A-Mem、HippoRAG2、mem0、MemoryOS。

最近，来自剑桥大学之团队开源之面向 AI 名者助理之长期记忆基准测试 ATM-Bench。

除开源专用记忆体系之外，团队还测试之当前最强之通用智能体体系。

此里展示之三种难题之案例。

」 ATM-Bench 数据集现已于 HuggingFace 上线： ATM-Bench 将「名者 AI 助手为否真之记得你」此件事，变成之一名研讨之测试基准。

ATM-Bench 之实验结局虽「惨淡」，但作者团队相信此为前景之长期记忆机制与名性化 AI 助手之研讨开辟之新之方位。

于彼之前，也许吾等不该对智能体之记忆本领期待太高，毕竟，它们连「去岁给妈妈买之相机」皆记不住，OpenClaw、Codex、Claude Code 皆不行。

名性化引用解析 ——Grace 到底为谁。

https://huggingface.co/datasets/Jingbiao/ATM-Bench 光阴跨度约 4 年；覆盖图像、视频、邮件三类模态，超一万条记忆数据；记忆数据来自确凿名者活，而非合成对话；图像、视频数据包含地点、光阴等元数据，地点包含 4 大洲；包含 1000 + 条完全者工标注之疑难、解答与证据。

要回答此名疑难，AI 须先：他认为，前景能够颠覆全球汽车气象之，不为彼些最大之旧俗巨头，而为彼些把握超级技艺趋势、率先定义超级品类之企业。

一字千金。

ATM-Bench 之核心关隘包含： AI 需体谅不同来源之间或存抵触，也需裁决哪条讯息更新得更晚、可信度更高。

名性化指代：我之宠物猫「Grace」「吾等上次彼趟葡萄牙旅行」；多来源拼接：照片光阴戳要与邮件确认函对齐；记忆抵触：预订金额与最终发票金额不一致；元数据噪音：GPS 由于定位准确度本身就或出错。

示例：「我最近去葡萄牙旅行住酒店花之多少钱。

少之任何一环，疑难皆无法被正确回答。

此类智能体具备完整之代码执行本领、文书体系访问权限与器物调用本领，具有比专用记忆体系有更强之营造本领与搜索本领。

应战 AI 之记忆盲区此说明，即便给 AI 配齐代码执行、文书搜索、索引构建等整套器物链，长期名性化记忆问答仍然为一名根本性难题。

上一篇：国防部：敦促日方同军国主义彻底切割 下一篇：谷爱凌回应“将入职硅谷风投公司任资深注资经理”

你之「龙虾」真记得你吗？剑桥发布长期名性化记忆基准ATM-Bench - 离岛

相关推荐