Révolutionner la création sur Roblox grâce à l’IA générative

September 11, 2023

by Daniel Sturman, Chief Technology Officer, Roblox

Technologie

En début d’année, nous avons partagé notre vision pour l’intelligence artificielle générative (IA) sur Roblox et les nouveaux outils intuitifs qui permettront à chaque utilisateur de devenir un créateur. Alors que ces outils évoluent rapidement dans l’industrie, je voulais faire le point sur les progrès que nous avons réalisés, sur le chemin qui reste à parcourir pour démocratiser la création d’IA générative et sur les raisons pour lesquelles nous pensons que l’IA générative est un élément essentiel de l’évolution de Roblox.

Les progrès de l’IA générative et des grands modèles de langage (LLM) offrent une opportunité incroyable de débloquer l’avenir des expériences immersives en permettant une création plus facile et plus rapide tout en maintenant la sécurité et sans nécessiter d’énormes ressources de calcul. En outre, les progrès des modèles d’IA multimodaux, c’est-à-dire formés à partir de plusieurs types de contenus – tels que les images, le code, le texte, les modèles 3D et l’audio – ouvrent la voie à de nouvelles avancées en matière d’outils de création. Ces mêmes modèles commencent à produire des résultats multimodaux, comme un modèle qui peut créer un texte, ainsi que des images qui complètent le texte. Nous considérons ces avancées en matière d’IA comme une formidable opportunité d’améliorer l’efficacité des créateurs les plus expérimentés et de permettre à un plus grand nombre de personnes de donner vie à de grandes idées sur Roblox. À la Roblox Developers Conference (RDC) de cette année, nous avons annoncé plusieurs nouveaux outils qui introduiront l’IA générative dans Roblox Studio et au-delà, afin d’aider tous ceux qui travaillent sur Roblox à évoluer plus rapidement, à innover plus vite et à augmenter leurs compétences pour créer un contenu encore meilleur.

Roblox Assistant

Roblox a toujours fourni aux créateurs les outils nécessaires, les services, et l’assistance ils ont besoin de créer des expériences 3D immersives. Parallèlement, nous avons vu nos créateurs commencer à utiliser l’IA générative (en anglais pour le moment) et conversationnelle de tiers pour les aider à créer. Bien qu’elles soient utiles pour réduire la charge de travail du créateur, ces versions prêtes à l’emploi n’ont pas été conçues pour les flux de travail de Roblox de bout en bout ni formées au code, à l’argot et au jargon de Roblox. Cela signifie que les créateurs sont confrontés à un travail supplémentaire important pour utiliser ces versions afin de créer du contenu pour Roblox. Nous avons travaillé sur les moyens d’apporter la valeur de ces outils dans Roblox Studio, et à RDC nous avons partagé un premier exemple d’Assistant.

Assistant est notre IA conversationnelle qui permet aux créateurs de tous niveaux de passer beaucoup moins de temps sur les tâches banales et répétitives liées à la création et plus de temps sur les activités à forte valeur ajoutée, comme la narration, le game-play et la conception d’expériences. Roblox est particulièrement bien placé pour construire ce modèle d’IA conversationnelle pour les mondes 3D immersifs, grâce à notre accès à un vaste ensemble de modèles 3D publics sur lesquels s’entraîner, à notre capacité à intégrer un modèle avec les API de notre plateforme et à notre gamme en expansion de solutions d’IA innovantes. Les créateurs pourront utiliser des messages textuels en langage naturel pour créer des scènes, modifier des modèles 3D et appliquer des comportements interactifs à des objets. Assistant (en anglais jusqu’à présent) soutiendra les trois phases de la création : l’apprentissage, le codage et la construction.

Apprendre : Qu’un créateur soit novice en matière de développement sur Roblox ou qu’il soit un vétéran chevronné, Roblox Assistant l’aidera à répondre à des questions sur un large éventail de domaines en utilisant le langage naturel.
Coder : Assistant développera notre outil Code Assist récent. Par exemple, les développeurs peuvent demander à Assistant d’améliorer leur code, d’expliquer une section du code ou d’aider à déboguer et de suggérer des corrections pour un code qui ne fonctionne pas correctement.
Construire : L’Assistant aidera les créateurs à prototyper rapidement de nouvelles idées. Par exemple, un nouveau créateur peut générer des scènes entières et essayer différentes versions en tapant simplement (en anglais) une demande telle que « Add some streetlights along this road » ou « Add some streetlights along this road ».

Le travail avec l’Assistant sera collaboratif, interactif et évolutif, permettant aux créateurs de fournir un retour d’informations et à l’Assistant de travailler pour fournir la bonne solution. C’est comme si vous aviez un créateur expert comme partenaire avec lequel vous pouvez rebondir et essayer des idées jusqu’à ce que vous obteniez ce que vous voulez.

Pour faire d’Assistant le meilleur partenaire possible, nous avons fait une autre annonce à la RDC : nous avons invité les développeurs s’engager à accepter de fournir leurs données anonymes sur les scripts Lua. Ces données de scripts aideront nos outils d’IA, comme Code Assist et Assistant, à suggérer et à créer des codes plus efficaces, en rendant la pareille aux développeurs de Roblox qui les utilisent. De plus, si les développeurs choisissent de partager au-delà de Roblox, les données de leurs scripts seront ajoutées à un ensemble de données mis à la disposition de tiers pour former leurs outils de chat IA afin qu’ils soient plus performants dans la suggestion de code Luau, ce qui permettra de rendre service aux développeurs Luau partout dans le monde.

Pour être clair, grâce à des études approfondies sur les utilisateurs et à des conversations transparentes avec les principaux développeurs, nous avons conçu ce programme de manière à ce qu’il soit facultatif et à ce que tous les participants comprennent et acceptent ce qu’il implique. Pour remercier ceux qui choisissent de participer au partage des données de scripts avec Roblox, nous leur donnerons accès aux versions plus puissantes d’Assistant et de Code Assist qui sont alimentées par ce modèle formé par la communauté. Ceux qui n’ont pas opté pour cette option continueront à avoir accès à la version existante de l’assistant et de l’assistant de codage.

Création d’avatars plus facile

En fin de compte, nous voulons que chacun de nos 65,5 millions d’utilisateurs quotidiens ait un avatar qui le représente vraiment et qui exprime ce qu’il est. Depuis peu, les membres du programme UGC ont la possibilité de créer et vendre des corps d’avatars et des têtes autonomes. Aujourd’hui, ce processus nécessite un accès à Studio ou à notre programme UGC, un niveau de compétence assez élevé et plusieurs jours de travail pour permettre l’expression faciale, les mouvements du corps, le montage en 3D, etc. Cela rend la création d’avatars fastidieuse et a, jusqu’à présent, limité le nombre d’options disponibles. Nous voulons aller plus loin.

Pour permettre à tous les utilisateurs de Roblox d’avoir un avatar personnalisé et expressif, nous devons faire en sorte que les avatars soient très faciles à générer et à personnaliser. Lors de la conférence RDC, nous avons annoncé la sortie d’un nouvel outil en 2024 qui permettra de créer facilement un avatar personnalisé à partir d’une image ou de plusieurs images. Grâce à cet outil, tout créateur ayant accès à Studio ou à notre programme UGC pourra télécharger une image, se faire créer un avatar et le modifier à sa guise. À plus long terme, nous avons l’intention de rendre cela disponible directement dans les expériences sur Roblox.

Pour ce faire, nous formons des modèles d’IA sur le schéma d’avatar de Roblox et sur un ensemble de modèles d’avatars 3D appartenant à Roblox. Une approche s’appuie sur la recherche pour générer des avatars stylisés en 3D à partir d’images en 2D. Nous envisageons également d’utiliser des modèles de diffusion texte-image pré-entraînés pour augmenter les données d’entraînement 3D limitées avec des techniques génératives 2D, et d’utiliser un réseau adversarial génératif (GAN) basé sur un réseau de génération 3D pour l’entraînement. Enfin, nous travaillons à l’utilisation de ControlNet pour superposer des poses prédéfinies afin de guider les images multi-vues des avatars qui en résultent.

Ce processus produit un maillage 3D pour l’avatar. Ensuite, nous tirons parti de la recherche sur la segmentation sémantique en 3Dpour prendre ce maillage 3D et l’ajuster afin d’ajouter les caractéristiques faciales, le caging, rigging et les textures appropriés, ce qui revient à transformer le maillage 3D statique en un avatar Roblox. Enfin, un outil d’édition de maillage permet aux utilisateurs de modeler et d’ajuster le modèle pour qu’il ressemble davantage à la version qu’ils imaginent. Et tout cela se fait rapidement – en quelques minutes – en générant un nouvel avatar qui peut être importé dans Roblox et utilisé dans une expérience.

Modération de la communication vocale

Pour nous, l’IA n’est pas seulement une question de création, c’est aussi un système beaucoup plus efficace pour garantir une communauté diversifiée, sûre et civile, à grande échelle. Alors que nous commençons à déployer de nouvelles fonctionnalités vocales, notamment le chat vocal et Roblox Connect, la nouvelle fonction d’appel en tant qu’avatar et les API annoncées lors de la RDC, nous sommes confrontés à un nouveau défi : la modération du langage parlé en temps réel. La norme industrielle actuelle est un processus connu sous le nom de reconnaissance automatique de la parole (ASR), qui prend essentiellement un fichier audio, le transcrit pour le convertir en texte, puis analyse le texte à la recherche d’un langage inapproprié, de mots-clés, etc.

Cela fonctionne bien pour les entreprises qui l’utilisent à plus petite échelle, mais lorsque nous avons étudié la possibilité d’utiliser ce même processus ASR pour modérer les communications vocales, nous nous sommes rapidement rendu compte que c’était difficile et inefficace à notre échelle. Cette approche perd également des informations extrêmement précieuses qui sont encodées dans le volume et le ton de la voix d’un orateur, ainsi que dans le contexte plus large de la conversation. Sur les millions de minutes de conversation que nous devrions transcrire chaque jour, dans différentes langues, seul un très faible pourcentage pourrait ressembler à quelque chose d’inapproprié. Et au fur et à mesure de notre montée en puissance, ce système nécessiterait de plus en plus de puissance de calcul pour tenir le coup. Nous avons donc examiné de plus près la manière dont nous pouvions le faire plus efficacement, en construisant un pipeline qui va directement de l’audio en direct à l’étiquetage du contenu pour indiquer s’il enfreint nos politiques ou non.

En fin de compte, nous avons pu construire un système de détection vocale personnalisé en interne en utilisant la RAS pour classer nos ensembles de données vocales internes, puis en utilisant ces données vocales classées pour former le système. Plus précisément, pour former ce nouveau système, nous commençons par l’audio et créons une transcription. Nous passons ensuite la transcription dans notre système de filtrage de texte Roblox pour classer l’audio. Ce système de filtrage de texte est très efficace pour détecter les propos contraires à la politique de Roblox, car nous optimisons ce même système de filtrage depuis des années sur l’argot, les abréviations et le jargon propres à Roblox. À l’issue de ces phases de training, nous disposons d’un modèle capable de détecter les transgressions des directives directement à partir de l’audio en temps réel.

Bien que ce système ait la capacité de détecter des mots-clés spécifiques tels que les injures, les violations de la politique se résument rarement à un seul mot. Un mot peut souvent sembler problématique dans un contexte donné et très bien dans un autre contexte. Pour l’essentiel, ces types d’infractions concernent ce que vous dites, la manière dont vous le dites et le contexte dans lequel les déclarations sont faites.

Pour mieux comprendre le contexte, nous tirons parti de la puissance native d’une architecture basée sur des transformateurs, qui est très performante en matière de résumé de séquences. Il peut prendre une séquence de données, comme un flux audio, et la résumer pour vous. Cette architecture nous permet de conserver une séquence audio plus longue afin de détecter non seulement les mots, mais aussi le contexte et les intonations. Une fois tous ces éléments réunis, nous obtenons un système final dont l’entrée est un fichier audio et la sortie une classification – violation ou non de la politique. Ce système peut détecter les mots-clés et les phrases violant les règles, mais aussi le ton, le sentiment et d’autres éléments contextuels importants pour déterminer l’intention. Ce nouveau système, qui détecte les propos contraires à la politique directement à partir de l’audio, est nettement plus efficace en termes de calcul qu’un système ASR traditionnel, ce qui le rendra beaucoup plus facilement extensible à mesure que nous continuerons à réimaginer la façon dont les individus se réunissent.

Nous avions également besoin d’un nouveau moyen d’avertir les utilisateurs de nos outils de communication vocale des conséquences potentielles de ce type de langage. Avec ce système de détection innovant à notre disposition, nous expérimentons maintenant des moyens d’influencer le comportement en ligne afin de maintenir un environnement sûr. Nous savons qu’il arrive que des personnes enfreignent nos règles sans le vouloir et nous voulons savoir si un rappel occasionnel pourrait aider à prévenir d’autres infractions. Pour y parvenir, nous expérimentons le retour d’information en temps réel des utilisateurs par le biais de notifications. Si le système détecte que vous avez dit quelque chose qui enfreint nos politiques un certain nombre de fois, nous afficherons une notification contextuelle sur votre écran pour vous informer que votre langage enfreint nos politiques et vous renvoyer à nos politiques pour plus d’informations.

Les notifications de flux vocal ne sont toutefois qu’un élément du système de modération. Nous examinons également les modèles de comportement sur la plateforme, ainsi que les plaintes d’autres personnes sur Roblox, afin d’orienter nos décisions générales de modération. L’ensemble de ces signaux peut avoir des conséquences plus graves, notamment la révocation de l’accès aux fonctions audio ou, pour les infractions les plus significatives, l’interdiction totale d’accès à la plateforme. Il est essentiel de préserver la sécurité et la civilité de notre communauté alors que ces progrès dans les modèles d’IA multimodale, l’IA générative et les LLM se conjuguent pour offrir aux créateurs de nouveaux outils et de nouvelles capacités incroyables.

Nous pensons que le fait de mettre ces outils à la disposition des créateurs abaissera la barrière à l’entrée pour les créateurs moins expérimentés et libérera les créateurs plus expérimentés des tâches les plus fastidieuses de ce processus. Ils pourront ainsi consacrer plus de temps aux aspects inventifs de la mise au point et de l’idéation. Notre objectif est de permettre à chacun, partout, de donner vie à ses idées et d’accroître considérablement la diversité des avatars, des objets et des expériences disponibles sur Roblox. Nous partageons également des informations et des outils pour aider à protéger les nouvelles créations.

Nous imaginons déjà des possibilités étonnantes : Supposons que quelqu’un soit capable de créer un sosie d’avatar directement à partir d’une photo, il pourrait alors personnaliser son avatar pour le rendre plus grand ou dans le style d’un dessin animé. Ils peuvent aussi construire une expérience en demandant à l’assistant d’ajouter des voitures, des bâtiments et des décors, de régler l’éclairage ou les conditions de vent, ou de modifier le terrain. À partir de là, ils peuvent innover pour affiner les choses simplement en allant et venant dans les deux sens avec l’Assistant. Nous savons que la réalité de ce que les gens créeront avec ces outils, au fur et à mesure qu’ils seront disponibles, ira bien au-delà de ce que nous pouvons imaginer.

Avatars et identité dans le métaverse, 1ère partie

Comment nous rendons l'infrastructure de Roblox plus efficace et plus résistante

Réimaginer le fait de rapprocher les individus par le biais de la communication, de la connexion et ...