微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 从纸上到数字舞台:复旦大学研究团队如何让小说角色在虚拟世界中"活"起来

从纸上到数字舞台:复旦大学研究团队如何让小说角色在虚拟世界中"活"起来

2025-04-24 14:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-04-24 14:16 科技行者

在我们的想象中,最爱的小说角色是否能有自己的生活,脱离作者的掌控,演绎出全新的故事?这不再只是一个梦想。近日,复旦大学的研究团队为我们带来了一项突破性的技术——BookWorld,它能将纸上的角色真正带入一个互动的数字世界。

这项由复旦大学的Yiting Ran和Xintao Wang(共同第一作者)、Tian Qiu、Jiaqing Liang、Yanghua Xiao以及Deqing Yang教授共同完成的研究,于2025年4月20日发表在arXiv预印本平台(arXiv:2504.14538v1)。对这项创新技术感兴趣的读者可以通过他们的项目页面(https://bookworld2025.github.io/)了解更多详情。

一、为什么小说角色需要"独立生活"?

想象一下,你最喜欢的小说读完了,合上书本的那一刻,心中不免有些失落——这些熟悉的角色的故事就此结束了。但如果能让这些角色继续"活"下去呢?就像《苏菲的世界》中的那句话:"如果你说的是真的,我要从书中逃出去,走自己的路。"这正是BookWorld要实现的愿景。

近年来,大型语言模型(LLM)的飞速发展让我们能够创建更加智能的虚拟角色。就像是给木偶注入了生命,这些模型可以让虚拟角色表现出类似人类的社交行为。以往的研究主要关注从零开始创建新角色,比如设计一批具有特定性格的虚拟人在元宇宙中生活。但复旦大学的研究团队看到了一个未被充分探索的宝藏:那些已经存在于文学作品中、拥有丰富背景故事的角色们。

想象一下,如果《哈利波特》中的人物能够在霍格沃茨自由活动,或者《冰与火之歌》的角色们能够在维斯特洛大陆上继续他们的征途,会是怎样一番景象?这不仅能满足读者的好奇心,还能为创意写作、游戏开发和社会模拟提供全新的可能性。

二、BookWorld:为小说角色打造的数字舞台

BookWorld就像是一个神奇的数字舞台,让小说中的角色可以走下书页,在这个舞台上自由活动、互动,并创造出全新的故事。如果把传统阅读比作观看一部已经拍好的电影,那么BookWorld就像是让你走进一个即兴表演的剧场,角色们在你眼前即兴发挥,故事随着他们的互动自然展开。

这个系统的设计理念非常贴近现实世界的复杂性。就像在真实世界中,人们有不同的性格、目标和经历;会受到地理环境的限制;需要遵循特定的社会规范。BookWorld也为虚拟角色们创造了这样一个全面的生活环境。

当你使用BookWorld时,系统首先会从原著小说中提取角色信息和背景知识,就像是认真研读剧本,了解每个角色的特点和世界观设定。然后,系统会构建一个多智能体系统,包括扮演各个角色的"角色智能体"和负责控制模拟过程的"世界智能体"。

模拟过程通过一个个"场景"推进,就像是戏剧中的一幕幕场景。在每个场景中,选定的角色们会进行各种互动,比如工作、交流或贸易。他们不断更新自己的记忆、状态和目标,就像真实的人一样通过经历成长和变化。世界智能体则像一位导演和舞台设计师,负责管理整个系统的工作流程,维护全局状态,提供环境反馈等。当模拟结束时,系统会将这些互动历史编织成故事,并由语言模型将其润色为连贯、小说风格的叙事。

最棒的是,BookWorld支持人类干预。就像是一位观众突然登上舞台,指导演员们按照特定的剧本表演,用户可以通过设定情节或脚本来控制模拟过程,引导故事向特定方向发展。

三、小说背后的世界观:不只是角色的表演

我们知道,小说不仅仅是角色的集合,更包含了丰富的世界观设定。尤其是奇幻和科幻作品,往往有独特的社会规范、文化背景和特殊术语。例如,在《哈利波特》的世界中,普通人不应该知道巫师的存在;在《三体》中,有着特殊的物理法则。如果在模拟过程中违背这些设定,会大大破坏故事的沉浸感。

为了解决这个问题,研究团队创新性地开发了一种术语提取方法,从原著中系统性地收集世界观数据。这就像是为舞台剧设计布景和道具,确保每个细节都符合原著的世界观。

每个提取的设定包含四个属性:

术语:描述的对象(如"隐形斗篷"、"异鬼")
性质:设定的类别(如"物品"、"社会规范")
详情:对设定的全面文字描述
来源:提取设定的章节,便于区分作品中的不同时间线

研究团队采用了四步提取方法:首先将章节分割为易于处理的小块;然后分析每个小块以提取相关的世界观知识;接着过滤掉角色行为和常识信息;最后聚类和整合相似记录,去除冗余同时保留关键细节。他们从16部小说(10部英文和6部中文)中提取了超过9000条设定,其中44.8%为中文,55.2%为英文。

通过这些设定数据,BookWorld能够确保在模拟过程中遵循原著的世界观,从而提升环境沉浸感和保持世界构建的一致性。就像是确保舞台上的每一个道具、每一段对白都完美契合这个虚构世界的规则和背景。

四、幕后的主角们:角色智能体与世界智能体

在BookWorld的舞台上,有两类主要的"演员":角色智能体和世界智能体。它们的合作就像是一台精心编排的舞台剧,每个人都有自己的角色和职责。

角色智能体就像是舞台上的演员,他们根据自己的内在特质行动,展现复杂的社交行为,形成个人动机和记忆。想象一下,这些不是机械地执行程序的机器人,而是能够思考、记忆和成长的虚拟角色。

角色智能体的属性分为两种类型:

静态属性:包括性别、年龄、外表和性格等固有特征。这些就像是演员的基本设定,在整个模拟过程中保持不变,以维持角色的一致性。
动态属性:主要包括目标、状态和记忆。这些属性会随着故事的推进而演变,使角色能够动态发展。就像是演员随着剧情的进展而表现出不同的情绪和目标。

角色的行动构成了故事推进的主要部分。不同于依赖固定的行动空间,BookWorld利用自然语言描述行动细节,实现开放域行为。这就像是给演员一个大致的方向,而不是死板的台词,让他们能够自由发挥创造力。

行动可以是主动的或被动的。当轮到一个角色作为发起者时,他们会根据自己的目标、状态和对他人的了解,主动计划和执行行动。当被指定为行动目标时,角色则需要做出相应的回应。

发起者可以采取的行动类型包括:

与角色互动:发起者可以与单个或多个角色互动。这些角色包括主要角色和非玩家角色(NPC)。就像在舞台上,主角们可以与配角甚至路人互动。
与环境互动:发起者可以执行涉及环境的行动,如调查周围区域。这就像演员与舞台布景互动,为观众提供更丰富的表演。
无互动:如果不指定互动目标,发起者可以进行独自活动,如阅读。这就像是独角戏,演员独自在舞台上表演。

为了支持长期模拟,系统设计了长期和短期记忆机制:

短期记忆(STM):存储最近的事件和完整的对话细节,直到达到容量限制,让角色能够在当前场景中做出即时响应。
长期记忆(LTM):存储超出STM限制的记忆的浓缩摘要。当STM达到容量时,较旧的记忆会被抽象到LTM中并存储,在需要时可供检索。

世界智能体则像是一位全能的导演和舞台设计师,负责处理超出角色之间互动的所有任务,包括环境管理和故事大纲处理。

世界智能体的主要职责包括:

环境响应:当角色与环境互动时,世界智能体根据世界观设定和当前位置的相关信息生成结果。
事件生成和更新:管理系统内的全局事件。故事往往由冲突驱动,没有指导的角色可能会失去明确的目标,表现出重复的行为。因此,生成引人入胜的事件可以显著增强故事的吸引力。


五、空间的魔力:地图系统如何连接虚构世界

在真实世界中,我们的活动受到空间和距离的限制——你不可能在北京吃完早餐,步行几分钟就到上海吃午餐。同样,在BookWorld中,角色们也需要遵循空间规则,这让整个虚构世界更加真实可信。

BookWorld实现了一个离散地图系统,为环境引入空间关系。这就像是为舞台剧设计了不同的场景,角色们需要在这些场景之间移动,而且移动需要时间。

每个位置都有一个独特的名称、简短描述(外观、氛围、历史)和可选的详细信息(当地习俗、特殊物品)。这就像是舞台上的不同区域,每个区域都有特定的布景和氛围。

位置之间的距离通过加权无向图表示。角色可以在相邻位置之间移动,或者通过消耗特定时间单位来穿越更长的路径。在BookWorld中,一个场景被指定为一个时间单位。这意味着,如果一个角色决定从一个城堡移动到远处的森林,他可能需要花费几个场景的时间才能到达目的地。

就像在一部长篇连续剧中,一个角色不可能瞬间从一个城市出现在另一个城市,BookWorld中的角色移动也是渐进的。当角色决定旅行时,他们必须花费几个场景的时间才能到达目的地。这个过程由世界智能体协调,世界智能体还会根据角色的当前位置和历史互动选择场景参与者。

六、故事如何展开:模拟的实现过程

在现实生活中,故事不是一次性完成的,而是由一系列事件组成,这些事件相互关联,推动情节发展。BookWorld的模拟过程也遵循这种自然的故事发展逻辑。

在每个场景开始之前,世界智能体会选择参与的角色,这些角色必须共享一个共同的位置,确保叙事焦点和互动的连贯性。就像是导演决定哪些演员将在下一幕登场,确保他们都在同一个舞台上。

每个场景由多个回合组成,角色们轮流作为发起者有机会行动。不同于固定的序列,世界智能体会根据角色状态和叙事发展需求动态确定发起者。就像一部好的即兴戏剧,不是每个演员都有相同的台词量,而是根据情节需要,有时某个角色会成为焦点,有时则退居幕后。

系统通过行动记录评估场景完成情况。当场景结束时,角色可以选择移动到另一个位置。世界智能体根据最近的发展更新当前事件,在脚本模式下,它还会为下一个叙事阶段提供指导。对于旅行中的角色,系统会计算移动情况,完成指定旅行回合的角色将到达目的地。

为了满足不同的实际需求,BookWorld实现了两种操作模式:

自由模式:角色拥有完全的自主权,根据自己已建立的设定和特点行动。用户可以设置初始事件,增强戏剧性和角色的参与度。事件随着模拟进展实时更新。
脚本模式:结合用户定义的脚本引导角色行动,在遵循脚本大纲的同时生成详细行为。在模拟开始时,系统将给定脚本分割为关键行动。在模拟过程中,系统检查进度并基于当前行动向角色智能体发出指令,保持每个会话的叙事一致性。

这就像是在即兴戏剧中,有时导演会给演员完全的自由发挥空间,让故事自然展开;有时则会提供一个大致的剧本框架,确保故事朝着特定方向发展,但仍然允许演员在细节上发挥创意。

七、从小说中提取智能体的原材料

想象你要创建一个虚拟版的哈利波特,你需要了解他的长相、说话方式、过去的经历、与其他角色的关系等等。所有这些信息都散布在原著小说的各个章节中。BookWorld如何从这些文本中提取关键信息,并构建一个真实的虚拟哈利呢?

研究团队提供了一种基于递增更新的自动提取方法。这就像是一位认真的演员在阅读剧本,随着阅读的深入,不断丰富对角色的理解。

首先,原始文本被分割成块。目标角色被分配一个初始档案。然后,系统遍历这些块,递归地更新角色信息,包括角色档案和与他人的关系。这些信息最终被组织成用于构建智能体的结构化数据。

研究团队从6部中文作品和10部英文作品中提取了信息,生成了总共453个预设。这些预设主要包括大纲和书中某一幕的角色信息。

此外,为了增强BookWorld与虚构世界的模拟,团队系统性地从书籍中收集世界观数据。这就像为演员提供详细的背景资料,帮助他们更好地理解角色所处的世界。

小说,尤其是奇幻小说,通常包含隐含的、非结构化的知识,这些知识不是以统一格式呈现的,而是需要从上下文中推断出来。例如,在哈利波特的世界中,普通人不应该知道巫师的存在。如果在模拟过程中违反这些设定,会破坏叙事沉浸感。

研究团队提出了一种基于术语的提取方法来整合相关设定。在模拟过程中,如果提到某些术语或上下文与特定设定密切相关,这些设定会被整合到提示中作为参考,从而增强环境沉浸感并保持一致的世界构建。

他们使用了四步提取法:首先将章节分割为可管理的块;接着分析每个块以提取相关的世界观知识;然后过滤这些元素,去除可能阻碍模拟的角色行为和常识信息;最后聚类和整合相似记录,消除冗余同时保留关键细节。他们已经收集了9912个设定,44.8%为中文,55.2%为英文。

八、实战效果:BookWorld的表现如何?

理论上看起来很美好,但实际效果如何呢?研究团队通过故事生成来评估BookWorld的有效性,并进行了广泛的实验。

评估一个故事的质量是个主观任务,即使对人类评估者也很困难。因此,团队采用了成对比较的方法,在多个维度上比较不同方法生成的故事。在这个框架中,任何两种方法的输出都进行配对比较,由语言模型确定哪个表现更好。团队还通过与人类评估进行比较,证明了这种方法的可靠性。

他们进行了两种场景的实验和评估:给定大纲的故事生成和无大纲的故事生成。这两种场景需要不同的评估维度。对于前者,他们评估故事线质量(SQ),衡量系统对给定大纲的遵循度。对于后者,他们计算创造力(Cr),评估系统是否能产生创新和耳目一新的新故事。此外,还有四项适用于两种场景的通用评估指标:

拟人化(An):将人类特征归因于非人类实体同时保持其原始性质的有效性。
角色保真度(CF):角色的行为和举动与其已建立的特征和背景的一致性。
沉浸感和设定(IS):通过环境和氛围细节创造一个令人信服和引人入胜的故事世界的能力。
写作质量(WQ):服务于叙事的写作机制和风格的技术执行。

对于基准比较,研究团队比较了三种方法生成的故事:

直接生成:直接用所有处理过的书籍数据提示语言模型
HoLLMwood:利用语言模型复制人类故事写作过程
BookWorld:本研究提出的方法

在实验中,他们同时采用了开源模型和封闭源模型作为角色智能体和世界智能体的基础模型。在实验过程中,他们保持对话轮数在各方法之间一致。每个实验模拟2到4个场景,平均总计4,230字。最终结果使用gpt-4o-2024-08-06进行评估。

实验结果表明,BookWorld在所有评估指标和模型上都一致优于直接生成基准,特别是在沉浸感方面表现强劲。与HoLLMwood相比,虽然BookWorld在沉浸感和角色保真度方面保持优势,但在故事线质量和写作质量方面面临挑战。

在大多数模型上,BookWorld相对于基准方法展示了显著优势。然而,当使用Llama-3.3-70B时,BookWorld在某些维度上表现不如直接生成和HW。这种性能差距可归因于两个因素:首先,多智能体模拟本质上比直接生成更复杂,需要在处理结构化输出和遵循复杂指令方面的高级能力;其次,实验部分涉及中文数据,这不是Llama-3.3-70B的优势。

研究团队还对BookWorld的主要特性进行了消融研究和比较分析。使用gpt-4o-mini-2024-07-18作为智能体的基础模型,采用与上一节相同的预设,比较了启用和禁用特定功能的BookWorld输出质量,计算每个维度的胜率。

结果基本符合预期。移除环境输出显著影响沉浸感,进而降低写作质量,但对故事线质量影响不大。另一方面,禁用场景模式导致所有维度的质量下降,对故事线的影响最为显著。

九、从研究到未来:BookWorld的潜力与局限

BookWorld代表了一个将静态文学作品转化为动态、交互式环境的全面系统。与以往的研究不同,它专注于再现使这些文学作品引人入胜的独特世界观、地理设定和人际关系动态。实验结果表明,BookWorld通过建立沉浸式的基于书籍的社会,成功创建了高质量的叙事。这种方法展示了高度的可扩展性和广泛的适用性。

然而,这项研究也存在一些局限性。为了优先考虑通用性和开放性,BookWorld采用了高度简化的交互环境表示。这种权衡导致与专为特定作品或场景设计的系统相比性能降低。例如,在BookWorld中几乎不可能完成狼人(一种社交推理游戏)的完整游戏。

此外,当前的角色扮演技术研究主要集中在用户与角色之间的一对一聊天,很少关注角色在现实环境中的决策过程。这一研究差距导致角色在面对复杂情况时表现出犹豫不决的行为。解决这一局限性需要角色扮演技术的进一步发展,特别是在增强角色在复杂、多智能体场景中的能力方面。

尽管如此,BookWorld为我们展示了一个令人兴奋的未来,在这个未来中,我们最喜爱的小说角色可以"活"在数字世界中,继续他们的冒险。对于出版商、游戏开发者、教育工作者和粉丝来说,这开启了全新的可能性。想象一下,能够与《傲慢与偏见》中的伊丽莎白·班内特交谈,或者看到《哈利波特》中的角色们在霍格沃茨度过毕业后的生活。

这项研究不仅仅是技术上的突破,它还重新定义了我们与文学作品互动的方式。它模糊了读者和作者之间的界限,为叙事艺术的未来开辟了令人兴奋的新途径。BookWorld让我们离那个小说角色能够真正"活"起来的世界又近了一步,让我们的阅读体验从被动的消费转变为主动的参与和创造。

感兴趣的读者可以通过项目页面(https://bookworld2025.github.io/)了解更多信息,甚至亲自体验这个让小说世界活起来的神奇技术。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 奖励设计:让AI学会智能使用工具的关键
    2025-04-23 17:39

    奖励设计:让AI学会智能使用工具的关键

    想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。

  • ToolRL:奖励设计是工具学习所需的全部
    2025-04-23 17:34

    ToolRL:奖励设计是工具学习所需的全部

    想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。

  • X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御
    2025-04-23 14:08

    X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御

    想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。

  • "思考操纵":用外部思考让大型推理模型更高效
    2025-04-22 16:43

    "思考操纵":用外部思考让大型推理模型更高效

    想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-