米哈游联合复旦,全面解读AI Agents现状与未来,网友:原神启动?!

发布时间:2023-10-11 19:27:34 来源:丰图软件园
文|尚恩

编辑|邓咏仪

想象一下,假如现在你要去海外旅行,从“请假、订酒店、买机票、到做旅行规划”这一整个流程都不需要你费心。现在有了AI Agent,动动嘴皮子,它马上就列出一个待办事件清单,而你唯一要做的事情就是等待出发。

过程中,Agent还会根据进展不断调整和增加新的待办来满足你的需求,直到旅行结束。

在GitHub上的明星Agent项目AutoGPT已经让Agent火了一把,目前已被网友应用在各种场景中。包括将其与别的软件集成进行竞对背调、甚至是点披萨,又或通过语音指令,让AutoGPT在电脑上部署应用程序。

最近,复旦大学的NLP实验室和米哈游专门搞了篇讲LLM-based Agents的论文,从AI Agent历史出发,全面梳理了基于大型语言模型的智能代理现状,包括背景、构成、应用场景、以及备受关注的代理社会等。

米哈游联合复旦,全面解读AI Agents现状与未来,网友:原神启动?!

图源:arxiv

论文一经发布,英伟达科学家Jim Fan就忍不住在网上分享,并直接表示:

米哈游联合复旦,全面解读AI Agents现状与未来,网友:原神启动?!

图源:Twitter

还有部分网友直接喊话说:“没读的快去,真的很推荐”。

图源:Twitter

一个Agent的诞生

在摸清一个Agent是如何诞生前,先来了解下Agent(代理或智能体)的历史。

Agent的起源可以上溯到古希腊哲学思想,不过最早将其引入引入计算机科学和人工智能领域的人,则是著名科学家图灵,他在20世纪50年代提出机器智能的测试方法时引入了智能体相关概念。

在经历了经历了符号主义、连接主义、数学分析等多个发展阶段,目前的Agent(智能体)更强调主体的自主性、目标性、主动性和社交性等方面的能动特征。

米哈游联合复旦,全面解读AI Agents现状与未来,网友:原神启动?!

图源:arxiv

原神的海灯节这一部分,一个由Agent构成的和谐社会,人类也可以参与其中。

以前,基于强化学习方法训练的Agent在问题和技能方面存在限制,只能在数字游戏等特定场景中进行规划和模拟对抗,或者在有限领域内进行规划和执行,缺乏泛化能力,难以进行真正的人机互动。

现在有了大模型,就极大地扩展了Agent的能力,它就像Agent的大脑,使Agent能够在接收到目标后进行逻辑推理和自我引导,不断寻找实现目标的最佳途径。

通过与其他软硬件的连接,Agent能够熟练地执行计算机任务、浏览网页、读写文件、进行支付等操作,而我们只需提供目标即可。

米哈游联合复旦,全面解读AI Agents现状与未来,网友:原神启动?!

图源:arxiv

△LLM-based Agent的概念框架,包含三个组成部分

作为一个智能体的Agent,就如同人类通过感知应对外界变化,在社会中逐步适应环境。智能代理的框架也由三个部分组成,分别是“控制端(Brain)、感知端(Perception)和行动端(Action)”。

“控制端”通常由 LLMs 构成,是智能代理的核心,主要发挥存储记忆知识,承担着信息处理、决策等功能;“感知端”则是将Agent的感知空间从纯文本拓展到包括文本、视觉和听觉等多模态领域,使其能够从周围环境中获取与利用信息;“行动端”除了常规的文本输出,还赋予Agent具身能力、使用工具的能力,使其能够更好地适应环境变化。

为了更容易了解Agent,研究团队还用了一个简单的例子来说明LLM-based Agent的工作流程。

比如,当人类询问是否会下雨时,感知端(Perception)将指令转换为大模型可以理解的表示。然后控制端(Brain)开始根据当前天气和网上的天气预报进行推理和行动规划。最后,行动端(Action)做出响应并将雨伞递给人类。

从单一到多样化的应用场景

从AutoGPT到MetaGPT,再到GPT Engineer,LLM-based Agents已经展现出强大的能力。

研究团队认为,Agengt应该是一个仅通过简单的指令,就可以完全自主的分析规划,减轻人类的工作压力,提高解决任务效率的智能体。未来,在解放用户双手后,甚至可以自主完成创新性的、探索性的工作,就像电影《HER》中的AI一样。

基于此,团队提出代理的应用可以有三种范式,包括“单代理、多代理和人机交互”。

米哈游联合复旦,全面解读AI Agents现状与未来,网友:原神启动?!

图源:arxiv

△LLM-based Agent的三种应用范式:单代理、多代理、人机交互

单代理场景指可以接受人类自然语言命令,执行日常任务的Agent目前备受用户青睐。具有很高的现实使用价值,可以分成“任务导向、创新导向、生命周期导向”这三类。

米哈游联合复旦,全面解读AI Agents现状与未来,网友:原神启动?!

图源:arxiv

△单代理三个层次:任务导向、创新导向、生命周期导向

而在多代理场景中,Agent被看作是许多较小、特定功能的个体,它们相互协作和互动以解决问题。这种场景包括“合作型互动”和“对抗型互动”两种主要形式。合作型互动可以进一步细分为无序合作和有序合作,有助于提高任务效率和改进决策。

在人机交互场景中,Agent则主要与人类进行互动,共同完成任务。互动分两种模式“Instructor-Executor”和“Equal Partnership”。

其中,在Instructor-Executor模式中,人类充当指导者,提供指令和反馈,而Agent则充当执行者,根据指示逐步调整和优化;Equal Partnership模式中,Agent可以表现出共情能力,与人类平等地参与任务执行。

全Agent互动的社会体系

从爆火的斯坦福Generative Agents小镇开始,各类Agents试验、游戏层出不穷,研究人员也在试图构建一个交互式的人工社会,在这里智能体可以根据环境做出各类反应、决策。

为了更容易看懂Agent,研究人员还用了一张图描述Agent社会的概念框架。

米哈游联合复旦,全面解读AI Agents现状与未来,网友:原神启动?!

图源:arxiv

△代理社会的概念框架,分为两个关键部分:代理和环境

在代理社会的概念框架中,我们可以清晰看到论文分为三个关键部分,共同构建了这个复杂的社会模型。

左侧部分描述了在个体层面上,代理展现出多种内化行为,包括计划、推理和反思。此外,代理还具备内在的人格特征,这些特征涵盖了认知、情感和性格三个方面,进一步塑造了他们的行为和决策。

中间部分强调了单个代理能够与其他代理形成群体,共同展现出协同合作等群体行为。这种合作性互动是代理社会中的重要组成部分,代理们在群体中互相影响,形成共同决策和行为,从而实现更高层次的目标。

右侧部分则关注了代理社会的环境,这个环境可以是虚拟的沙盒环境,也可以是真实的物理世界。在这个环境中,存在着多种要素,包括其他人类参与者和各类可用资源。对于每个单独的代理来说,其他代理也构成了环境的一部分,影响着他们的互动和决策。

整体互动则是代理社会的核心,代理们通过感知外界环境、采取行动,积极地参与整个交互过程。这个过程是复杂而动态的,代理社会的运作机制就是通过这种整体互动不断演化和发展的。

这三个关键部分共同构成了代理社会的概念框架,它们相互交织,共同塑造了代理社会的复杂性和多样性。

论文的最后,研究团队也放出了一些诸如“LLM-based Agents会带来哪些挑战与隐忧?”、“智能代理与大语言模型的研究该如何互相促进、共同发展?”等开放性问题,供大家思考。

你觉得,LLM-based Agent是否是通向AGI的合适道路吗?

相关资讯

小编精选

热门游戏