你是否期望未来能有一个 AI 陪伴机器人,它不仅能“看见”我们的手势,“听懂”我们的需求,还能像“记住”我们的爱好,并在合适的时间“推理”出我们的内心想法?
最近,字节跳动与浙江大学、上海交大联合发布了一项新突破:M3-Agent,一个具备长期记忆能力的多模态智能体,能够处理无限长的视频流,并在任务中持续学习与推理。
一、背景:多模态AI的“记忆缺失”问题
当前主流的多模态大模型(如GPT-4V、Gemini等)虽然能处理图像、视频、音频等多种输入,但它们普遍存在一个关键问题:缺乏长期记忆能力。
这意味着:
- 模型只能处理“单次独立”的输入,无法记住之前提过的内容;
- 在长视频理解、持续交互等任务中,容易丢失上下文;
- 面对复杂的跨时间推理任务(如“昨天看到的穿红衣服的那个人是谁,好眼熟”)时,表现不佳。
二、M3-Agent:给AI装上“记忆系统”
M3-Agent 的核心创新在于:为AI引入类人的长期记忆机制,包括:
记忆类型 | 类比人类 | 功能 |
---|---|---|
情景记忆 | 亲身经历 | 把“谁、在何时、何地、做了什么”原封不动地记下来,后续可以原样回放或精准检索 |
语义记忆 | 常识知识 | 把无数条“情景”蒸馏成结构化、可泛化的常识,类似“补充背景知识” |
1. 系统架构
M3-Agent 包含两个并行模块:
- 记忆模块:实时处理视频流,构建情节与语义记忆,更新记忆;
- 控制模块:接收指令,基于长期记忆进行推理与任务执行。
2. 关键技术
✅ 多模态实体图谱构建
- 自动识别视频中的人物、物体及其关系;
- 确保同一人(脸+声)的知识连贯性;
- 构建跨时间的结构化记忆。
✅ 记忆化流程的处理
- 处理实时视频:每 30 秒剪辑一次,生成情节和语义记忆
- 使用外部工具(如人脸识别、说话者分离)提取实体 ID,确保跨剪辑的一致性;
- 模型:用 Qwen2.5-Omni-7B(多模态能力强)
✅ 控制流程的推理
- 不是基于简单的“检索+生成”(RAG);
- 使用强化学习(RL)训练:不是单轮 RAG,而是迭代搜索+推理;
- 支持复杂任务(如“找出昨天视频中穿红衣服的男人”)。
- 模型:用 Qwen3-32B(推理能力强)
- 训练数据:500 个长视频+2.7k QA 对,通过 DAPO 算法优化
三、实验结果
论文在三个任务上进行了评估:
任务类型 | 数据集 | M3-Agent vs 最强基线 |
---|---|---|
机器人操作 | M3-Bench-robot | ↑ 6.7% |
网页交互 | M3-Bench-web | ↑ 7.7% |
长视频理解 | VideoMME-long | ↑ 5.3% |
消融实验(Ablation Study)
模块缺失 | 准确率下降 |
---|---|
语义记忆 | ↓17.1% - 19.2% |
强化学习 | ↓8.0% - 10.0% |
迭代推理 | ↓8.8% - 11.7% |
四、应用场景
M3-Agent 的长期记忆能力,未来可以应用于以下场景中:
-
🏠 智能家居 / 机器人
– 记住用户习惯(如“你早上喜欢喝咖啡”);
– 主动提醒(如“你昨天说今天要交报告”);
– 持续学习用户偏好。 -
📹 长视频分析
– 安防监控:持续跟踪目标人物;
– 教育视频:分析学生长期学习行为;
– 影视内容:跨集剧情推理。 -
🧑💻 人机交互
– 记住用户的历史指令;
– 从多次对话中提炼用户画像;
– 提供个性化服务。
五、开源与复现
M3-Agent 已全面开源:
- 📄 论文:arXiv 2508.09736
- 🧑💻 代码:GitHub - ByteDance-Seed/m3-agent
- 🌐 项目主页:https://m3-agent.github.io