利用生成式 AI 彻底改变 Roblox 平台上的创作

September 11, 2023

by Daniel Sturman, Chief Technology Officer, Roblox

产品 & 科技

今年早些时候，我们分享了对Roblox 平台上的生成式人工智能 (AI) 的愿景以及一些可帮助每个用户成为创作者的简易新工具。随着这些工具在行业中的快速演变，我想介绍一些我们所取得的最新进展、未来将如何普及生成式 AI 创作，以及我们为什么认为生成式 AI 是决定 Roblox 发展方向的关键要素之一。

生成式 AI 和大型语言模型 (LLM) 领域的进步简化并加快了创作，同时确保了安全性，且无需占用大量计算资源，向我们展示了未来沉浸式作品的无限可能。此外，AI 模型的发展是多模态的，这意味着我们要使用多种类型的内容来训练它们，如图像、代码、文本、3D 模型和音频等，从而让创作工实现新的突破。这些相同的模型还开始产出多模态输出，包括可生成文本输出的模型，以及一些对文本进行补充的视觉效果。我们把这些 AI 领域的突破视作一次千载难逢的机会，以便同时提升更多资深创作者的效率，甚至让更多人能够在 Roblox 上将出色的创意变为现实。在今年的 Roblox 开发者大会 (RDC)上，我们宣布推出多款新工具，将生成式 AI 整合到 Roblox Studio 和其他地方，帮助 Roblox 上的所有用户更快速地进行扩展创作、迭代，增强他们的技能以创作更优秀的内容。

Roblox 助手

Roblox 始终为创作者提供他们所需的工具、服务和支持，以帮助他们创作沉浸式的 3D 作品。与此同时，我们看到我们的创作者也开始使用第三方生成式及对话式 AI 来助力自身创作。尽管它们能够很好地帮助创作者减轻工作量，但现有版本要么不是针对端到端 Roblox 工作流程量身定制，要么就是没进行过 Roblox 代码、俚语和隐语方面的训练。这意味着创作者要应对大量额外工作，才能使用这些版本来创作 Roblox 内容。我们一直在研究如何将这些工具的价值整合到 Roblox Studio，而且也在 RDC 上分享了“助手”应用的早期范例。

“助手”是我们的对话式 AI，能帮助各种技能水平的创作者大幅缩短花在与创作相关的单调、重复性任务上的时间，从而腾出更多时间来打造核心内容，例如剧情叙述、游戏玩法和体验设计等。 Roblox 为沉浸式 3D 世界构建这种对话式 AI 模型的定位可谓独树一帜，这都得益于我们能够获取大型的公开 3D 模型来用于训练，有能力将模型与我们的平台 API 进行集成，而且我们的创新 AI 解决方案组合也日益丰富。创作者将能够使用自然语言文本提示来创建场景、编辑 3D 模型，并将交互行为应用至各种对象上。 “助手”将为三个创作阶段提供支持：学习、编写代码和构建：

学习：无论是刚开始在 Roblox 上开发的创作者，还是资深玩家，“Roblox 助手”都将使用自然语言解答各种层面的问题。
编写代码：“助手”将在我们最近的“代码助手” 工具的基础上进行扩展。例如，开发者可以让“助手”改进他们的代码，解释某段代码、帮助调试运行不正常的代码或提供修复建议。
构建： “助手”将帮助创作者根据新创意快速制作原型。例如，新创作者可以简单输入“在这条道路两旁增加一些路灯”或“绘制一片由不同树木组成的森林。现在添加一些灌木和花卉”等提示，来生成整个场景以及试用不同的版本。

使用“助手”将是协作式、互动式和迭代式的，让创作者能够提供反馈，由“助手”给出正确的解决方案。这就像是有一位专业的创作者作为您的合作伙伴，您可以征求有关创意的建议并尝试不同的点子，直到您正确完成工作为止。

为了让“助手”成为创作者的最佳搭档，我们在 RDC 上宣布了另一个计划：我们邀请开发者加入，以便为其匿名化 Luau 脚本数据贡献自己的力量。这些脚本数据将帮助大幅改进我们的 AI 工具（如“代码助手”和“Roblox 助手”等），使它们能够提供更好的建议、编写更高效的代码，然后交还给使用它们的 Roblox 开发者。而且，如果开发者选择在 Roblox 以外分享，他们的脚本数据将被添加到可供第三方使用的数据集，以便用于训练他们的 AI 聊天工具，使其能够更出色地提供有关 Luau 代码的建议，将其回馈给身处任何地方的 Luau 开发者。

为清楚起见，通过与顶级开发者合作开展全面的用户研究以及透明的对话，我们设计了这种可自主选择加入的机制，并且将确保所有参与者理解并认同该计划所带来的变化。作为对那些选择与 Roblox 分享脚本数据的参与者的答谢，我们将提供更强版本的“Roblox 助手”和“代码助手”，由这种社区训练的模型为其提供技术支持。未参与计划的人员将能够继续使用现有版本的“Roblox 助手”和“代码助手”。

更轻松地创作虚拟形象

最后，我们希望 6550 万日常用户当中的每一位都拥有一个能真正代表自己，表达自己身份的虚拟形象。我们最近推出一项功能，让用户生成内容 (UGC) 计划的成员能够制作并出售全身虚拟形象和单独头像。. 目前，该过程要求访问 Studio 或我们的 UGC 计划，成员需具备相当高的技能水平并花数天时间才能制作出惟妙惟肖的面部表情、身体动作以及 3D 骨架化等。这使得现在要制作和拥有虚拟形象变得十分耗时，限制了可选择选项的数量。我们希望走得更远。

为了让 Roblox 上的每个人都有一个个性化、表现力丰富的虚拟形象，我们需要高度简化虚拟形象的生成和自定义过程。在 RDC 上，我们宣布将在 2024 年推出一款新工具，它将简化使用一张或多张图像制作自定义虚拟形象。借助该工具，任何有权限访问 Studio 或 UGC 计划的创作者将能够上传图像，使用这些图像制作虚拟形象，然后根据自己的喜好进行修改。从长远来看，我们也希望能够在 Roblox 平台作品中直接提供此项功能。

为实现这一目标，我们正使用 Roblox 的虚拟形象架构和一套 Roblox 自有的 3D 虚拟形象模型来训练 AI 模型。一种利用研究，基于 2D 图像来生成 3D 风格化虚拟形象的方法。我们还希望采用预先训练的文本转图像扩散模型，以 2D 生成式技术来扩充有限的 3D 训练数据，并在训练中使用基于生成式对抗网络 (GAN) 的 3D 生成网络。最后，我们正研究如何将 ControlNet 用于预定义姿势图层，以引导最终生成虚拟形象的多视角图像。

这个过程会为虚拟形象生成 3D 网格。然后，我们将利用经过 3D 虚拟形象姿势训练的 3D 语义分割研究，以制作该 3D 网格并通过调整增加适当的面部特征、锁定、骨架化和纹理，在本质上将静态 3D 网格转变成 Roblox 虚拟形象。最终，网格编辑工具让用户能够改变和调整模型，使其更接近于他们所想象的版本。这一切都在几分钟内快速发生，生成可导入到 Roblox 并在作品中使用的全新虚拟形象。

语音通信审查

对于我们来说，AI 不仅仅关乎创作，它还是可确保大规模公民社区多样化并保护其安全的更高效系统。随着我们开始推广新的语音功能，包括语音聊天和 Roblox Connect（在 RDC 上宣布推出虚拟形象功能和 API 时所使用的新名称），我们将面对一项新的挑战——实时审查通信语音。当前有关于此的行业标准是所谓的“自动语音识别 (ASR)”过程，它基本上会提取一个音频文件，将其转录成为文本，然后分析文本以查找不恰当的用词、关键字，等等。

这个过程非常适用于小规模使用的公司，但当我们探索使用相同的 ASR 过程来审查语音通信时，我们很快发现它难以应对我们的使用规模，显得有些捉襟见肘。此方法还会丢失潜藏于说话者音量和语气中的重要信息，并且忽视更广义的对话语境。在我们每天转录的，涉及不同语言的几百万分钟对话中，只有很不起眼的一小部分听起来似乎是不恰当的。随着我们继续扩展，该系统需要越来越多算力才能跟上扩展步伐。所以我们更深入地研究如何更高效地开展这项工作，建立从实时音频直接转到内容标记的管道，以检测它是否违反我们的政策。

最终，我们有能力使用 ASR 对内部语音数据集进行分类以便建立内部的自定义语音检测系统，然后使用经过分类的语音数据来训练系统。更确切地说，为了训练这个新系统，我们最开始时会对音频进行转录。然后，我们会在 Roblox 文本过滤系统中运行该转录，以便对音频进行分类。这种文本过滤系统非常擅长在 Roblox 上检测违反政策的语言，因为我们多年来一直在针对特定于 Roblox 的俚语、缩写和隐语对该过滤系统进行优化。在这些训练层的最后，我们有一个能实时直接地检测是否违反政策的模型。

虽然此系统可以检测到特定的关键字（如脏话），但违反政策的言语通常包含多个字词。有些字词常常在某些语境中是有问题的，但在不同语境中却完全无恙。基本上，这些违规类型包括您说了什么、说的方式，以及说这些话时的语境。

为了更好地理解语境，我们在基于转换器的架构中挖掘它的原生力量；这种架构非常适用于序列摘要。它可以提取数据序列，如音频流，然后为您提供它的摘要。此架构让我们能够保留更长的音频序列，因此我们不仅可以检测字词，还能检测语境和语调。在将所有这些要素整合在一起以后，所得的最终系统将以音频为输入并输出分类，亦即是否违反政策。此系统不仅可以检测关键字和违反政策的短语，还能检测对确定意图来说十分重要的语气、情绪和其他语境。这个新系统会从音频中直接检测违反政策的语言，而且在使用计算资源时比传统 ASR 系统高效得多。因此，在我们不断重新设想人们的交流方式时，它将大幅简化我们的扩展工作。

我们还需要一种全新的方式来提醒违规者，由于采用了这些语音通信工具，使用此类语言有可能会给他们带来怎样的后果。有了这个创新的检测系统，我们将不断摸索能够规范线上行为的方法，进而营造一个安全的网络环境。我们知道人们有时会在无意间违反我们的政策，而我们想要了解偶尔的提醒是否有助于防止进一步发生此类行为。为此，我们正通过通知对实时用户反馈进行试验。如果系统检测到您所说的话多次违反我们的政策，我们将在您的屏幕上弹出通知，告知您的言语违反了我们的政策并将您引导至我们的政策以了解更多信息。

然而，语音流通知只是审查系统的环节之一。我们还会观察平台上的行为模式，以及 Roblox 上其他用户的投诉，来做出全面的审查决策。收到多项警告的创作者可能会面临更严厉的惩罚，包括撤销其访问音频功能的权限；对于更严重的违规事件，甚至有可能完全禁止违规者使用该平台。考虑到多模态 AI 模型、生成式 AI 和 LLM 的这些进步在经过整合以后，将为创作者提供令人难以置信的新工具和新功能，维护社区的安全与文明变得至关重要。

我们相信，为创作者提供这些工具不仅能降低新手创作者的入门门槛，还能帮助资深创作者简化此过程中的单调任务。这使他们能够花更多时间从事微调和构思的创造性工作。所有这一切的目的在于，让身处各地的每个人都能将自身创意付诸现实，并在 Roblox 上大幅增加虚拟形象、物品和作品的多样性。我们还会分享信息和工具来帮助保护新的作品。

我们已经在设想各种令人惊艳的可能性：比如创作者可以直接利用照片制作虚拟形象分身，然后自定义虚拟形象，使其看起来更高或以动漫风格对其进行渲染。或者，他们可以在创作作品时让“助手”添加车辆、建筑和风景，设置灯光或风况，或更改地形等。然后，他们可以来回与“助手”进行文字交流，不断对作品进行改进。我们知道，一旦发布这些工具，用户将在现实中使用这些工具创作出我们甚至难以想象的优秀作品。

Recommended

RDC 2023：Roblox 下一步的发展方向