MemEye：多模态 Agent 记忆能力的视觉中心评估框架

Agent 的记忆能力正在成为 2026 年 AI 研究的关键方向之一。但和 MemLens 聚焦于 LVLM 模型本身的记忆不同，MemEye 把镜头对准了另一个问题：当 Agent 在多模态环境中工作时，它的记忆系统到底表现如何？

MemEye 由 Boxuan Zhang、Yihao Quan、Zeru Shi 等 17 位研究者协作完成，在 Hugging Face Daily Papers 上获得了 52 次 upvote。

视觉中心：为什么是视觉

MemEye 的核心设计理念是"visual-centric"——以视觉为中心。这背后的逻辑很直接：在多模态 Agent 的工作场景中，视觉信息往往是最丰富也最容易被遗忘的。

Agent 需要记住：

传统评估框架大多以文本为中心，忽略了 Agent 在视觉记忆上的独特挑战。MemEye 把这个维度补上了。

MemEye 从多个角度评估多模态 Agent 的记忆能力：

同一天，Hugging Face 上还出现了 NVIDIA 的 MemLens。两者都关注多模态记忆，但侧重点不同：

一个是模型层面的基准，一个是系统层面的框架。两者互补。

随着多模态 Agent 在客服、教育、医疗等场景的落地，记忆能力的评估变得越来越重要。一个记不住用户之前说过的话、展示过的图片的 Agent，体验会大打折扣。

MemEye 提供了一套可操作的评估工具，让开发者可以量化 Agent 的记忆表现，针对性地优化记忆模块。

论文由 17 位研究者合作完成，在 HuggingFace 社区获得了 52 次 upvote，说明这个方向正在引起越来越多研究者的关注。