—— 这篇博客是对论文《A Survey on Evaluation of LLM-based Agents》的阅读整理与思考。
引言:
“啪”,回车键落下。屏幕上是一个红色的“error”。代码又没跑通。你叹了口气,打开Jenius,把报错信息丢进去。几秒后,它就告诉你你错在哪,还附上了改好的代码。你心想:“可真方便呀。”
方便的背后,你有没有想过:一个合格的AI智能体,到底需要哪些能力?这篇文章中提出:真正拉开差距的,是四个基础能力 —— 规划,工具使用,自我反思,记忆。
- 合理规划,把大事拆成小事
你跟Jenius说:“帮我策划一个三天两夜的杭州旅行。”
一个没有规划能力的智能体,可能只会丢给你一堆景点,让你自己选挑;但一个优秀的智能体,会主动拆解任务:
订高铁 → 找酒店 → 规划路线 → 推荐餐厅 → 生成攻略
它不仅是回答“西湖很美””灵隐寺值得去“,
而是把“旅行”这个大任务一步步变成可执行的小步骤,最后直接给你一份完整的旅游攻略。
![]()
![]()
- 灵活使用工具,事半功倍
真正厉害的AI除了要会聊天,还要会调用工具帮你解决问题。
比如你只是输入一句:“帮我查一下杭州天气,再订明天下午去上海的高铁票。”
短短几秒里,jenius背后可能已经调用了:
天气API,百度地图,12306订票系统…
这些工具在后台各司其职,才能呈现出屏幕前你看到的答案。
因此,一个智能体的价值,不在于“会说”,而在于能不能灵活使用工具,把事办好。
![]()
- 自我反思,越用越强
会规划、会用工具,但如果错了却不知道改,那还不算是一个合格的AI智能体。
自我反思,就是让智能体具备“发现错误,并主动修正”的能力。
比如你给它一段报错代码。
没有反思能力的AI,可能会反复输出同样的答案;而具备反思能力的AI,会重新检查步骤,分析问题出在哪,再给出新的解决方案。
更重要的是,它还会从错误中总结经验,主动优化,变的更“聪明”。
![]()
- 长期记忆,持续积累
长期记忆,指的是智能体保留信息的能力。
你跟Jenius提过一次不吃辣。以后每次推荐餐厅,它都会绕开川菜,给你更合适的去处。
这种能力的意义,不只是记住偏好,更是省去反复交代的麻烦 —— 不用每次都说“我不吃辣”。
告诉它一次,就知道怎么配合你。
对用户而言,这不仅省时间,也能让智能体成为一个长期协作的好助手。
![]()
总的来说,这四种“超能力”并不是孤立存在的,它们相互配合,共同决定了一个智能体能走多远。也正是在这种能力的叠加中,AI开始从工具,逐渐走向人类可以长期协作的伙伴。