Skip to main content

利用生成式 AI 革新 Roblox 上的創作活動

September 11, 2023

by Daniel Sturman, Chief Technology Officer, Roblox


技術

今年,我們分享了在 Roblox 上運用生成式人工智慧(AI)的願景 ,以及使每個使用者都能成為創作者的直覺式新工具。 隨著這些工具在整個產業快速發展,我想提供一些最新消息,報告我們所取得的進展、生成式 AI 創作民主化仍須努力的事項,以及為什麼我們認為生成式 AI 是 Roblox 未來發展的關鍵元素。

生成式 AI 和大型語言模型(LLM)的進步帶來了開拓沉浸式體驗未來的絕佳機會,因為這些技術能實現更輕鬆且快速的創作方式,同時保持安全且無需大量運算資源。 此外,多模態 AI 模型(亦即接受多種類型內容的訓練,包括影像、程式碼、文字、3D 模型和音訊)的進步,更為創作工具的新進步開啟了大門。 這些模型也開始產生多模態的輸出,例如可以產生文字輸出、同時搭配一些圖像來輔助文字的模型。 我們認為這些 AI 突破是一項巨大的良機,既可提升經驗豐富創作者的效率,同時也可讓更多人能在 Roblox 上將絕妙的想法化為現實。 在今年的 Roblox 開發者會議(RDC),我們發表了幾款將把生成式 AI 引進 Roblox Studio 及其他領域的新工具,藉此協助 Roblox 上的所有使用者更快擴展規模、更快改版,並增強其技能以創作更好的內容。

Roblox Assistant

Roblox 一向為創作者提供了所需的工具、服務支援 來打造沉浸式 3D 體驗。 同時,我們也看到創作者們開始使用第三方的生成式和交談式 AI 來協助他們創作。 雖然這有助於減少創作者的工作量,但這些現成版本的 AI 並非專為端對端 Roblox 工作流程所設計,訓練過程中也沒有學習過 Roblox 的程式碼、俚語和術語。 這表示創作者使用這些版本的 AI 為 Roblox 創作內容時,需要額外進行大量的工作。 我們一直在研究如何將這些工具的價值引進 Roblox Studio,並且在 RDC 上分享了 Assistant 的初期範例。

Assistant 是我們的交談式 AI,能讓各種技能水準的創作者都可以在創作過程中大幅減少花在單調重複性事務上的時間,將更多時間花在高價值活動上,例如敘事、遊戲和體驗設計。 Roblox 在為沉浸式 3D 世界建立這種交談式 AI 模型方面具備獨特的優勢,因為我們可以存取大量公開 3D 模型來進行訓練、有能力將模型與平台 API 整合,而且擁有不斷成長的創新 AI 解決方案套件。 創作者將能使用自然語言的文字提示來創作場景、編輯 3D 模型,以及將互動行為套用至物件。 Assistant 將支援創作的三個階段:學習、撰寫程式和建造:

  • 學習:無論創作者是 Roblox 開發新手還是經驗豐富的老手,Roblox Assistant 都將使用自然語言協助回答各種層面的問題。
  • 撰寫程式:Assistant 將擴展我們最近的程式碼助手 工具。 例如,開發者可要求 Assistant 改善其程式碼、解釋一段程式碼,或協助偵錯並建議如何修正無法正常運作的程式碼。
  • 建造: Assistant 將協助創作者快速製作新想法的原型。 例如,新創作者只要輸入「沿著這條路加上一些路燈」或「用不同種類的樹木打造一片森林,然後加上一些灌木和花朵」等提示,即可產生整個場景並嘗試不同的版本。

與 Assistant 的合作將是協作式、互動式且可以反覆調整的,創作者能提供回饋並讓 Assistant 提供正確的解決方案。 這就像請來一位專家級創作者擔任合作夥伴,您可以與他交流想法,並且嘗試各種想法,直到找到正確的答案。

為了讓 Assistant 成為最佳合作夥伴,我們在 RDC 上發表了另一則消息:我們邀請開發者選擇加入 貢獻他們的匿名 Luau 指令碼資料。 這些指令碼資料將有助於讓我們的程式碼助手和 Assistant 等 AI 工具更能建議及創作更有效率的程式碼,進而回饋使用它們的 Roblox 開發者。 此外,如果開發者選擇分享到 Roblox 之外,他們的指令碼資料將新增至第三方可用的資料集中,以訓練其 AI 聊天工具提供更妥善的 Luau 指令碼建議,回饋世界各地的 Luau 開發者。

在此聲明,我們在進行全面的使用者研究以及與頂尖開發者的透明對話後,將這項機制設計為需主動選擇加入,並且將協助確保所有參與者理解並同意計畫的內容。 為感謝選擇加入與 Roblox 分享指令碼資料的使用者,我們將開放他們使用由這個社群訓練模型所驅動的加強版 Assistant 和程式碼助手。 未選擇加入的使用者將可繼續使用我們現有版本的 Assistant 和程式碼助手。

更輕鬆地創作虛擬人偶

我們的最高理想,是每日 6550 萬使用者之中的每一個人都擁有能真正代表自己並表達自我的虛擬人偶。 我們最近向使用者創作內容計畫成員發布了 創作和販售虛擬人偶身體和獨立頭部的功能. 目前,這道程序需要使用 Studio 或我們的使用者創作內容計畫、具備相當高水準的技能,並進行好幾天的工作,才能實現臉部表情、身體動畫和 3D 骨架化等等。 這使得創作虛擬人偶非常耗時,而且目前為止可用的選擇有限。 我們想向前再邁進一步。

為了讓 Roblox 上的每個人都擁有個人化且表情生動的虛擬人偶,我們需要讓虛擬人偶非常容易生成及自訂。 在 RDC,我們宣布將於 2024 年發布一款新工具,支援從一張或多張影像輕鬆建立自訂虛擬人偶。 透過這款工具,任何有權使用 Studio 或我們使用者創作內容計畫的創作者,都可以上傳影像、為自己建立虛擬人偶,然後根據自己的喜好修改。 未來,我們也打算在 Roblox 的體驗中直接提供此功能。

為實現此目標,我們正以 Roblox 的虛擬人偶結構和 Roblox 擁有的 3D 虛擬人偶模型集來訓練 AI 模型。 其中一種方法利用了 學界研究成果 來從 2D 影像產生 3D 風格化虛擬人偶。 我們也正在考慮使用預先訓練的文字轉影像擴散模型,透過 2D 生成技術來增強有限的 3D 訓練資料,並使用生成對抗網路(GAN)式的 3D 生成網路進行訓練。 最後,我們正在研究使用 ControlNet 對預先定義的姿勢進行分層,以指導生成的虛擬人偶多視圖影像。

此程序會為虛擬人偶產生 3D 網格。 接下來,我們利用 3D 語義分割研究,以 3D 虛擬人偶姿勢進行訓練,將這個 3D 網格進行調整以加上適當的臉部特徵、套籠、骨架化和紋理,實質上等於將靜態 3D 網格變成 Roblox 虛擬人偶。 最後,會有一套網格編輯工具允許使用者變形和調整模型,使其看起來更像他們想像中的版本。 這一切過程都很快,幾分鐘內即會產生一個新的虛擬人偶,可以匯入 Roblox 並在體驗中使用。

審核語音通訊

AI 對我們來說不只可用於創作,它還是一個更有效率的系統,可確保維護多元、安全且文明的大規模社群。 有鑑於我們將開始推出各種全新語音功能,包括語音聊天以及用虛擬人偶身分呼叫好友的新功能 Roblox Connect,並且在 RDC 上宣布推出 API,目前我們面臨了新的挑戰:即時審核口語。 目前相關的產業標準是稱為自動語音辨識(ASR)的程序,原理是取得音訊檔案、將其轉錄為文字,然後分析文字以尋找不當的措辭、關鍵字等等。

這對於小規模使用的公司來說效果很好,但我們摸索使用相同的 ASR 程序來審核語音通訊時,很快就發現這以我們的規模來說難以使用且效率太低。 這種方法也會流失非常有用的資訊,例如發言者的音量和語氣,以及更廣泛的對話上下文。 在我們每天必須以不同語言轉錄的數百萬分鐘對話中,只有很小一部分可能聽起來不當。 隨著我們的規模持續擴大,這套系統將需要越來越強大的運算能力才能跟上。 因此,我們仔細研究如何更有效實現目標,建立直接從即時音訊到標記內容的管線,以判定其是否違反我們的政策。

最終,我們使用 ASR 對內部語音資料集進行分類,然後使用分類後的語音資料來訓練系統,成功建立了內部的自訂語音偵測系統。 更具體來說,為了訓練這個新系統,我們從音訊開始,並建立一份逐字稿。 然後,我們透過 Roblox 文字篩選器系統分析逐字稿,來對音訊進行分類。 這個文字篩選器系統非常適合偵測在 Roblox 上違反政策的言論,因為多年來我們一直在針對 Roblox 特有的俚語、縮寫和術語最佳化這套篩選器系統。 在這些訓練層次結束後,我們就有了一個可以直接從音訊即時偵測政策違規行為的模型。

雖然這個系統確實能偵測髒話等特定關鍵字,但違反政策的情況很少只是一個字詞。 一個字詞往往可能在一種上下文中看起來有問題,但在不同的上下文中卻沒問題。 基本上,這類違規涉及說出的內容、說話的方式以及發表言論的上下文。

為了更妥善理解上下文,我們利用了變換器架構固有的長處,也就是非常擅長處理序列摘要。 它可以取得音訊串流等資料序列,然後製作摘要。 這種架構使我們能保留較長的音訊序列,讓我們不僅能偵測字詞,也可以偵測上下文和語調。 這些元素通通結合在一起後,我們就有了一個最終的系統,輸入是音訊,輸出則是分類:違反政策或未違反政策。 這個系統可以偵測關鍵字和違反政策的短語,還可以偵測語氣、情緒和其他對於判定意圖很重要的上下文。 這個新系統可以直接從音訊中偵測違反政策的語音,運算效率明顯高於傳統 ASR 系統,因此在我們持續重新塑造人們共聚一堂的方式時,將能更容易擴大系統規模。

我們還需要一種新方法,警告語音通訊工具使用者這種言論可能會導致什麼後果。 有了這個創新的偵測系統,我們目前正在嘗試各種方法來影響線上行為,以維護安全環境。 我們知道人們有時會無意中違反我們的政策,我們想了解偶爾的提醒是否有助於防止進一步的違規行為。 為此,我們正在嘗試透過通知提供即時使用者回饋。 如果系統偵測到您多次說出違反我們政策的言論,我們會在您的畫面上顯示快顯通知,讓您知道您的言論違反了我們的政策,並引導您參閱我們的政策以了解更多資訊。

然而,語音串流通知僅是審核系統的元素之一。 我們也會注意平台上的行為模式以及 Roblox 上其他使用者的投訴,以推動我們的整體審核決策。 這些判定加總之下可能會導致更嚴重的懲處,包括撤銷音訊功能的使用權,犯下更嚴重的違規行為還可能在平台上完全停權。 維持我們社群安全且文明非常重要,因為多模態 AI 模型、生成式 AI 和 LLM 的這些進步結合在一起,為創作者提供了驚人的新工具和功能。

我們相信,為創作者提供這些工具既可以降低經驗不足創作者的進入門檻,也可以讓經驗豐富的創作者擺脫過程中較繁瑣乏味的事務。 這將使他們能花更多時間在微調和構思創意方面。 我們的最終目標是讓世界各地的每個人都能將他們的想法化為現實,並大幅提升 Roblox 上可用虛擬人偶、道具和體驗的多元性。 我們也會 分享資訊和工具來協助保護新的創作

我們已經想像到各種驚人的可能性:假設有人能直接從照片建立虛擬人偶分身,那麼接下來就可以自訂虛擬人偶,讓它身高更高,或以動漫風格成像。 或者,他們可以要求 Assistant 新增車輛、建築和風景,設定照明或風力條件甚至變更地形,藉此打造體驗。 這樣一來,他們只需輸入文字和 Assistant 來回對話,即可反覆調整來完善內容。 我們知道,等到工具開放之後,人們使用這些工具創造的現實將遠遠超越我們的想像。