Skip to main content

「生成AI」でRoblox上での制作に革新をもたらす

September 11, 2023

by Daniel Sturman, Chief Technology Officer, Roblox


テック

今年初め、当社のビジョン として、すべてのユーザーがクリエーターになれるようにする直感的な新ツール、Roblox(ロブロックス)の生成AI(人工知能)について発表しました。 このようなツールが業界全体で急速に進化する中、当社が成し遂げた進歩についてや生成AIを使った制作をみなさんに解放していくために進むべき道、そして生成AIがRobloxの今後にとって重要な要素であると当社が考えている理由について、最新情報をお届けしたいと思います。

生成AIと大規模言語モデル(LLM)の進歩は、安全性を維持しながら、大規模な演算リソースを必要とせずに、より簡単で迅速に制作できるようにすることで、没入感あふれるバーチャル空間の未来を切り開く素晴らしいチャンスを提供してくれます。 さらにマルチモーダル、つまり画像、コード、テキスト、3Dモデル、音声など複数の種類のコンテンツで学習させるAIモデルの進歩は、制作ツールにおける新たな進歩への扉を開いてくれます。 こういったモデルは、テキスト出力だけでなくテキストを補完するビジュアルを制作できるモデルなど、マルチモーダル出力も生成し始めています。 当社は、こうしたAIによる躍進が経験豊富なクリエーターのみなさんの効率を高めると同時に、より多くの方々が素晴らしいアイデアをRobloxで実現できるようになる大きなチャンスだと考えています。 今年の Roblox開発者会議 (RDC)では、 生成AIをRoblox Studio(ロブロックス・スタジオ)などに導入することで、Roblox上で活動している誰もがより速く規模拡大し、より素早く反復作業し、スキルを増強してより優れたコンテンツを制作できるようにする新しい一連のツールを発表しました。

「Roblox アシスタント」

Robloxはツールやサービスサポートなど 没入感たっぷりの3Dバーチャル空間を制作するのにクリエーターのみなさんが必要なものをご提供してきました。 同時に、当社はクリエーターのみなさんが第三者製の生成AIや会話型AIを使い始めているのも見てきました。 このような外部で出回っているものはクリエーターのみなさんの負担を軽減するのに役立ちますが、Robloxのエンドツーエンドのワークフロー用に設計されたものではありませんし、Robloxのコードやスラング、専門用語について訓練されたものでもありません。 つまり、クリエーターのみなさんがこのようなツールを使ってRoblox用のコンテンツを作ると、かなりの追加作業が必要になってきます。 当社は、これらのツールの有用性をRoblox Studioに組み込む方法に取り組んでおり、RDCでは「アシスタント(Assistant)」の初期の例を紹介しました。

「アシスタント」は、あらゆるスキルレベルのクリエーターの方々が制作に関わる退屈な反復作業に費やす時間を大幅に削減し、ストーリー作りやゲームプレイ、バーチャル空間のデザインなど、価値の高い活動にもっと時間を使えるようにしてくれる会話型AIです。 Robloxは、この没入感たっぷりの3D世界のための会話型AIモデルを構築する上でユニークな立場にあります。これは、AIを訓練するのための大規模な公開3Dモデルへのアクセス、プラットフォームAPIとモデルを統合する能力、そして拡大しつつある革新的なAIソリューションがあるおかげです。 クリエーターのみなさんは、自然言語のテキストプロンプトを使用してシーンを作成し、3Dモデルを編集し、オブジェクトにインタラクティブな動作を適用できるようになります。 「アシスタント」は、制作の3つの段階(学習、コーディング、構築)に対応しています。

  • 学習:「Roblox アシスタント」は、Robloxでの開発経験が浅いクリエーターの方からベテランのクリエーターの方まで、幅広い分野の質問に自然言語で答えてくれます。
  • コーディング:「アシスタント」は当社が最近発表したコードアシスト (Code Assist) ツールの機能をさらに拡張します。 例えば、開発者の方は「アシスタント」にコードの改善やコードの一部分の説明を求めたり、正しく動作しないコードのデバッグ方法を教えてもらったり、修正の提案をしてもらえます。
  • 構築: 「アシスタント」は、クリエーターが新しいアイデアを素早くプロトタイプ化するのをサポートしてくれます。 たとえば、「Add some streetlights along this road(この道路沿いに街灯を追加)」や「Make a forest with different kinds of trees. Now add some bushes and flowers.(いろいろな種類の木がある森を作る。今度は茂みと花を追加)」といったプロンプトを入力するだけで、初心者のクリエーターの方でもシーン全体を生成し、さまざまなバージョンを試すことができます。 (初期段階では英語にのみ対応)

「アシスタント」を使った作業は、クリエーターがフィードバックを提供し、「アシスタント」が適切な解決策を提供するために作業することを可能にする、相互的で対話に基づいた反復的なものとなります。 制作の専門家がパートナーになってくれているような感じでアイデアを出し合って、うまくできるまでイメージした内容を試作できます。

「アシスタント」を最高のパートナーにしていただくために、当社はRDCでもう一つの発表をしました。当社は、開発者のみなさんにオプトイン(許諾) して、 匿名化された Luau(ルアウ)のスクリプトデータ提供をお願いしました。 このスクリプトデータは、「コードアシスト」や「アシスタント」のようなAIツールが、より効率的なコードを提案し、作成できるようにするのに役立ちます。 さらに、開発者がRoblox以外の場所でも共有することを選択した場合、そのスクリプトデータは第三者が利用できるデータセットに追加され、AIチャットツールがLuauコードを提案するのに役立つように訓練され、世界中のLuau開発者に還元されます。

具体的には、当社は徹底的なユーザー調査とトップ開発者の方々との透明性のある対話をした結果、これをオプトイン方式として設計することにしました。また、参加者全員にプログラムの内容を確実にご理解いただき、ご同意いただくようサポートしています。 Robloxとのスクリプトデータ共有にご参加くださる方への感謝の気持ちとして、このコミュニティで訓練されたモデルを使って強化バージョンの「アシスタント」と「コードアシスト」にアクセスできるようにします。 オプトインしていない方は、従来バージョンの「アシスタント」と「コードアシスト」を引き続きご利用いただけます。

アバター作成がさらに簡単に

当社の最終的な目標としては、6,550万人のデイリーユーザーひとりひとりの方に本当の意味で自分の分身となって自分らしさを表現するようなアバターをお使いいただきたいと考えています。 先般、当社はUGCプログラムのメンバー向けに アバターボディと頭を作成して販売する機能をリリースしました。. 現在、この作業にはStudioや当社のUGCプログラムへのアクセスと非常に高度なスキルが必要で顔の表情や体を動かして3Dリグ作成 をするのに何日もかかります。 このためアバターの作成には時間がかかり、利用できるオプションの数も限られています。 当社はさらにその先を行きたいと考えています。

Robloxで活動するすべての方が自分だけの表現力豊かなアバターを持てるようにするためにはアバターの生成とカスタマイズをとてもに簡単にする必要があります。 RDCでは2024年にリリースする新しいツールを発表しました。このツールは、一点または複数の画像からカスタムアバターを簡単に作成できるようにするものです。 このツールを使えば、Studioや当社のUGCプログラムにアクセスできるクリエーターの方ならどなたでも画像をアップロードしてアバターを作って好きなように修正できます。 長期的には、Robloxのバーチャル空間内でも直接、利用できるようにする予定です。

これをできるようにするために当社はRobloxのアバタースキーマとRoblox所有の3DアバターモデルのセットでAIモデルを訓練しています。 一つのアプローチは リサーチ を活用して2D画像から3Dスタイルのアバターを生成することです。 また、限定的な3D訓練データを2D生成技術で補強するために、事前に訓練されたテキストから画像への拡散モデルを使用することや、訓練に敵対的生成ネットワーク(GAN)ベースの3D生成ネットワークを使用することも検討しています 最後に、当社では ControlNetを使ってアバターのマルチビュー画像を導くために事前に定義されたポーズを重ねています。

このプロセスがアバターの3Dメッシュを作ってくれます。 次に当社は、3D セマンティック・セグメンテーションのリサーチを活用して3Dアバターのポーズを訓練し、3Dメッシュを取って調整し、適切な表情機能、ケージング、リグ作成、テクスチャを追加し、実質的に静止3DメッシュをRobloxアバターにします。 最後にメッシュ編集ツールを使ってユーザーはモデルをモーフィングして調整し、イメージしているバージョンに近づけることができます。 このすべてが数分という速さで行われます。Robloxにインポートできる新しいアバターが生成され、バーチャル空間内で使用できます。

音声コミュニケーションの内容審査

当社にとってAI(人工知能)とは、ただ制作するためのものではなく、多様性のある安全で民度の高いコミュニティを確保するための、より効率的なシステムでもあります。 「音声でチャット」、アバターとして通話する新機能の「Roblox コネクト」、RDCで発表されたAPIなど、新しい音声機能を展開し始めるとリアルタイムでの話し言葉の内容審査という新たな課題に直面します。 現在の業界標準は、自動音声認識(ASR)と呼ばれるプロセスでそのまま音声ファイルを取り込み、それをテキストに変換してからテキストを分析して不適切な言葉やキーワードなどを探しています。

これは小さな規模で使用している企業では機能していますが、同じASRプロセスを音声コミュニケーションの内容審査に使用することを検討したところ、当社の規模では難しく非効率的であることがすぐに分かりました。 このアプローチでも、話し手の声量や声色、さらには会話のより幅広い文脈に暗号化されている、信じられないほど貴重な情報が失われてしまいます。 当社は毎日、何百万分もの会話をさまざまな言語で文字起こししなければなりませんが不適切に聞こえる可能性があるのは、そのうちのごく一部です。 当社が規模を拡大し続けるにあたって、システムを維持するためにはより多くの演算能力が必要になってきます。 そこで当社は、ライブ音声から直接、当社のポリシーに違反しているかどうかを示すためにコンテンツにラベルを付けるパイプラインを構築することによって、より効率的な実施方法を詳しく調べました。

最終的には、ASRを使用して社内の音声データセットを分類し、その分類された音声データを使用してシステムを訓練することで、社内でカスタム音声検出システムを構築することができました。 具体的には、この新しいシステムを訓練するために、音声から始めてトランスクリプトを作成します。 次に、Robloxのテキストフィルタシステムにトランスクリプトをかけて音声を分類します。 このテキストフィルタシステムは、Roblox上でポリシー違反となる言葉を検出するのに優れています。当社はRoblox特有のスラング、略語、専門用語について、この同じフィルタシステムを何年にもわたって最適化してきたからです。 訓練を重ねた最後には、リアルタイムで音声から直接ポリシー違反を検出できるモデルができ上がります。

このシステムには、暴言など特定のキーワードを検出する機能はありますが、ポリシー違反がたった一言しかないということはほとんどありません。 ひとつの単語がある文脈では問題があるように見えても、別の文脈では問題ないことがよくあります。 基本的に、このタイプの違反には発言の内容、言い方、その発言がなされた文脈が関係しています。

コンテキストの理解を深めるために、シーケンス要約を得意とするトランスフォーマーベースのアーキテクチャのネイティブパワーを活用します。 音声ストリーミングのような一連のデータを受け取り、それを要約することができます。 このアーキテクチャを使えば、より長い音声シーケンスを保持することができ、単語だけでなく文脈やイントネーションも検出できます。 こういった要素がすべて揃うと、入力が音声で出力が分類(ポリシーに違反するかしないか)という最終的なシステムができあがります。 このシステムでは、キーワードやポリシー違反のフレーズだけでなく、意図を判断するのに重要な声色、感情、その他の文脈も検出できます。 ポリシー違反をしている会話を音声から直接検出するこの新システムは、従来のASRシステムよりも演算効率が大幅に向上しています。これで当社が「みんなとつながる新しい方法をクリエイト」していく上でさらに簡単に拡張できるようになります。

当社はまた音声による通信ツールを使っている方々に、このような言葉の潜在的な影響について警告する新しい方法も必要としていました。 この革新的な検知システムを駆使して、当社は安全な環境を維持するためにオンライン上のユーザーのみなさんの言動に影響を与える方法について実験しています。 当社は、意図せずに当社のポリシーに違反してしまうことがあることを理解しており、ときどき注意喚起することでさらなる違反を防ぐことができるかどうかを見ていきたいと考えています。 このような場合に対応するために、当社は通知によるリアルタイムのユーザーフィードバックを試しています。 もし、あなたが当社のポリシーに違反する発言を何度か行ったとシステムが検知した場合、あなたの画面にポップアップ通知が表示され、その発言が当社のポリシーに違反していることを通知します。詳しくは、当社のポリシーをご覧ください。

しかし、音声ストリーミングの通知は、内容審査システムの一つの要素に過ぎません。 また、Roblox上での行動パターンや、他のユーザーからの苦情なども参考にして、全体的な内容審査の基準を決定しています。 これらのシグナルがデータとして集約されると、オーディオ機能へのアクセスが取り消されたり、より深刻な違反の場合はプラットフォームから完全に追放されるなど、より深刻な結果を招く可能性があります。 マルチモーダルAIモデル、生成AI、大規模言語モデルの総合的な進歩がクリエーターにとって信じられないような新しいツールや機能が実現するようになるにつれ、当社のコミュニティの安全性と民度を保つことは非常に重要になってきます。

このようなツールをクリエーターのみなさんに提供することで、経験の浅いクリエーターの方々の参入障壁を下げるとともに経験豊富なクリエーターの方々を面倒な作業から解放することができると当社は考えています。 そうすることで、微調整やアイデア出しといった創意工夫に時間を割けるようになります。 当社の目標は、世界中の誰もが自分のアイデアを実現できるようにすること、そしてRobloxで利用できるアバターやアイテム、バーチャル空間の多様性を大幅に拡大することです。 また、当社は 新しい作品を保護するための情報とツールも共有しています

当社はすでに素晴らしい可能性を思い描いています。例えば、誰かが写真から直接、その人のアバター版そっくりさんを作ることができたとして、そのアバターをカスタマイズして背を高くしたり、アニメ仕様にしてレンダリングしたりすることができます。 また、「アシスタント」に車や建物、風景を追加してもらったり、照明や風の条件を設定させたり、地形を変えさせたりして、バーチャル空間を構築することもできます。 そこから、「アシスタント」とのやりとりを繰り返し入力していくだけでクオリティの向上につながります。 当社は、みなさんがこのようなツールを使って作り出す「リアル」が想像をはるかに超えるものであることが分かっています。