Skip to main content

Rivoluzionare la creazione su Roblox con l’intelligenza artificiale generativa ​

September 11, 2023

by Daniel Sturman, Chief Technology Officer, Roblox


Prodotto & Tecnologia

All’inizio di quest’anno abbiamo condiviso la nostra visione per l’intelligenza artificiale generativa (AI) su Roblox e i nuovi strumenti intuitivi che consentiranno a ogni utente di diventare un creatore. ​ Poiché questi strumenti si evolvono rapidamente in tutto il settore, volevo fornire alcuni aggiornamenti sui progressi che abbiamo fatto, sulla strada ancora da percorrere per democratizzare la creazione di IA generativa e sul motivo per cui riteniamo che l’IA generativa sia un elemento fondamentale per la direzione che Roblox sta prendendo. ​

I progressi nell’intelligenza artificiale generativa e nei modelli linguistici di grandi dimensioni (LLM) rappresentano un’incredibile opportunità per sbloccare il futuro delle esperienze immersive consentendo una creazione più semplice e veloce mantenendo la sicurezza e senza richiedere ingenti risorse di elaborazione. Inoltre, i progressi nei modelli di intelligenza artificiale multimodali, nel senso che sono addestrati con più tipi di contenuti, come immagini, codice, testo, modelli 3D e audio, aprono la porta a nuovi progressi negli strumenti di creazione. Questi stessi modelli stanno iniziando a produrre anche output multimodali, come un modello in grado di creare un output di testo, nonché alcuni elementi visivi che completano il testo. ​ Consideriamo queste scoperte dell’intelligenza artificiale come un’enorme opportunità per aumentare contemporaneamente l’efficienza per i creatori più esperti e per consentire a ancora più persone di dare vita a grandi idee su Roblox. ​ Quest’anno alla Roblox Developers Conference (RDC)abbiamo annunciato diversi nuovi strumenti che porteranno l’intelligenza artificiale generativa in Roblox Studio e oltre per aiutare chiunque su Roblox a scalare più velocemente, iterare più rapidamente e aumentare le proprie capacità per creare contenuti ancora migliori.

Roblox Assistant

Roblox ha sempre fornito ai creatori strumenti,servizi ,eassistenza hanno bisogno di creare esperienze 3D coinvolgenti. Allo stesso tempo, abbiamo visto i nostri creatori iniziare a utilizzare l’intelligenza artificiale generativa e conversazionale di terze parti per aiutarli a creare. ​ Sebbene siano utili per ridurre il carico di lavoro del creatore, queste versioni standard non sono state progettate per flussi di lavoro Roblox end-to-end o addestrate sul codice, sullo slang e sul gergo Roblox. ​ Ciò significa che i creatori devono affrontare un lavoro aggiuntivo significativo per utilizzare queste versioni per creare contenuti per Roblox. ​ Abbiamo lavorato su come portare il valore di questi strumenti in Roblox Studio e in RDC abbiamo condiviso un primo esempio di Assistant. ​

Assistant è la nostra IA conversazionale che consente ai creatori di tutti i livelli di abilità di dedicare molto meno tempo alle attività banali e ripetitive coinvolte nella creazione e più tempo ad attività di alto valore, come la narrativa, il gioco e la progettazione dell’esperienza. ​ Roblox è in una posizione unica per costruire questo modello di intelligenza artificiale conversazionale per mondi 3D coinvolgenti, grazie al nostro accesso a un ampio set di modelli 3D pubblici su cui addestrarsi, alla nostra capacità di integrare un modello con le API della nostra piattaforma e alla nostra crescente suite di soluzioni IA innovative . Creators will be able to use natural language text prompts to create scenes, edit 3D models, and apply interactive behaviors to objects. L’Assistant supporterà le tre fasi della creazione: apprendimento, codifica e costruzione: ​

  • Apprendimento:che un creatore sia nuovo allo sviluppo su Roblox o un professionale esperto, Roblox Assistant aiuterà a rispondere alle domande su un’ampia gamma di superfici utilizzando il linguaggio naturale.l language.
  • Programmare: Assistant espanderà il nostro recenteCode Assist strumento. Ad esempio, gli sviluppatori potrebbero chiedere Assistant di migliorare il proprio codice, spiegare una sezione di codice o aiutare a eseguire il debug e suggerire correzioni per il codice che non funziona correttamente. ​
  • Costruire: Assistant aiuterà i creatori a prototipare rapidamente nuove idee. ​ Ad esempio, un nuovo creatore potrebbe generare intere scene e provare diverse versioni semplicemente digitando un messaggio come “Aggiungi alcuni lampioni lungo questa strada” o “Crea una foresta con diversi tipi di alberi”. Ora aggiungi alcuni cespugli e fiori.

Lavorare con l’Assistant sarà collaborativo, interattivo e iterativo, consentendo ai creatori di fornire feedback e fare in modo che l’Assistant lavori per fornire la soluzione giusta. ​ Sarà come avere un creatore esperto come partner da cui puoi rimbalzare idee e provare idee finché non le ottieni nel modo giusto. ​

Per rendere l’Assistant il miglior partner possibile, abbiamo fatto un altro annuncio in occasione di RDC: abbiamo invitato gli sviluppatori adaderire per contribuire con i propri dati di script Luau anonimizzati. Questi dati di script contribuiranno a rendere i nostri strumenti di intelligenza artificiale, come Code Assist e Assistant, significativamente migliori nel suggerire e creare codice più efficiente, restituendo qualcosa agli sviluppatori Roblox che li utilizzano. ​ Inoltre, se gli sviluppatori scelgono di condividere oltre Roblox, i loro dati di script verranno aggiunti a un set di dati reso disponibile a terze parti per addestrare i loro strumenti di chat AI a suggerire meglio il codice Luau, restituendo qualcosa agli sviluppatori Luau ovunque. ​

Per essere chiari, attraverso una ricerca completa sugli utenti e conversazioni trasparenti con i migliori sviluppatori, abbiamo progettato questo per consentire l’attivazione e contribuiremo a garantire che tutti i partecipanti comprendano e acconsentano a ciò che il programma comporta. ​ Come ringraziamento a coloro che scelgono di partecipare alla condivisione dei dati degli script con Roblox, garantiremo l’accesso alle versioni più potenti di Assistant e Code Assist basate su questo modello addestrato dalla comunità. ​ Coloro che non hanno aderito continueranno ad avere accesso alla nostra versione esistente di Assistant e Code Assist. ​

Creazione di avatar più semplice ​

In definitiva, vogliamo che ciascuno dei nostri 65,5 milioni di utenti giornalieri abbia un avatar che lo rappresenti veramente ed esprima chi è. ​ Recentemente abbiamo rilasciato la possibilità per i membri del nostro programma UGC di crea e vendi sia corpi avatar che teste autonome. Oggi, questo processo richiede l’accesso a Studio o al nostro programma UGC, un livello di competenza abbastanza elevato e più giorni di lavoro per abilitare l’espressione facciale, il movimento del corpo, il rigging 3D, ecc. Ciò rende la creazione degli avatar dispendiosa in termini di tempo e, ad oggi, ha limitato il numero di opzioni disponibili. Vogliamo andare ancora oltre.

Per consentire a tutti su Roblox di avere un avatar personalizzato ed espressivo, dobbiamo rendere gli avatar molto facili da generare e personalizzare. A RDC abbiamo annunciato un nuovo strumento che rilasceremo nel 2024 che consentirà di creare facilmente un avatar personalizzato da un’immagine o da più immagini. Con questo strumento, qualsiasi creatore con accesso a Studio o al nostro programma UGC potrà caricare un’immagine, farsi creare un avatar e quindi modificarlo come preferisce. A lungo termine, intendiamo renderlo disponibile anche direttamente all’interno delle esperienze su Roblox.

Per renderlo possibile, stiamo addestrando modelli di intelligenza artificiale sullo schema avatar di Roblox e su una serie di modelli di avatar 3D di proprietà di Roblox. Un approccio fa leva ricerca per generare avatar stilizzati 3D da immagini 2D. Stiamo anche valutando l’utilizzo di modelli di diffusione testo-immagine pre-addestrati per aumentare i dati di addestramento 3D limitati con tecniche generative 2D e l’utilizzo di una rete di generazione 3D basata su GAN (Generative Adversarial Network) per l’addestramento. Infine, stiamo lavorando sull’utilizzo di ControlNetper stratificare in pose predefinite per guidare le risultanti immagini multi-vista degli avatar.

Questo processo produce una mesh 3D per l’avatar. Successivamente, sfruttiamo il 3D ricerca sulla segmentazione semantica, addestrato sulle pose di avatar 3D, per prendere quella mesh 3D e adattarla per aggiungere caratteristiche facciali, gabbie, rigging e texture appropriate, in sostanza, trasformando la mesh 3D statica in un avatar Roblox. Infine, uno strumento di modifica della mesh consente agli utenti di modificare e modificare il modello per farlo sembrare più simile alla versione che stanno immaginando. E tutto ciò avviene velocemente, in pochi minuti, generando un nuovo avatar che può essere importato in Roblox e utilizzato in un’esperienza.

Moderare la comunicazione vocale

L’intelligenza artificiale per noi non è solo creazione, è anche un sistema molto più efficiente per garantire una comunità diversificata, sicura e civile, su larga scala. Mentre iniziamo a implementare nuove funzionalità vocali, tra cui la chat vocale e Roblox Connect, la nuova funzione chiamata come avatar e le API annunciate all’RDC, affrontiamo una nuova sfida: moderare il linguaggio parlato in tempo reale. L’attuale standard del settore è un processo noto come riconoscimento vocale automatico (ASR), che essenzialmente prende un file audio, lo trascrive per convertirlo in testo, quindi analizza il testo per cercare linguaggio, parole chiave, ecc. inappropriati.

Funziona bene per le aziende che lo utilizzano su scala più piccola, ma quando abbiamo esplorato l’utilizzo di questo stesso processo ASR per moderare la comunicazione vocale, ci siamo subito resi conto che è difficile e inefficiente per i nostri bisogni. Questo approccio perde anche informazioni incredibilmente preziose codificate nel volume e nel tono di voce di chi parla, nonché nel contesto più ampio della conversazione. Dei milioni di minuti di conversazione che dovremmo trascrivere ogni giorno, in diverse lingue, solo una percentuale molto piccola potrebbe sembrare qualcosa di inappropriato. E man mano che continuiamo a crescere, quel sistema richiederebbe sempre più potenza di calcolo per tenere il passo. Quindi abbiamo esaminato più da vicino come potremmo farlo in modo più efficiente, costruendo una pipeline che va direttamente dall’audio dal vivo all’etichettatura del contenuto per indicare se viola o meno le nostre politiche.

Alla fine, siamo stati in grado di costruire un sistema interno personalizzato di rilevamento vocale utilizzando ASR per classificare i nostri set di dati vocali interni, quindi utilizzare tali dati vocali classificati per addestrare il sistema. Più specificamente, per addestrare questo nuovo sistema, iniziamo con l’audio e creiamo una trascrizione. Quindi eseguiamo la trascrizione attraverso il nostro sistema di filtro di testo Roblox per classificare l’audio. Questo sistema di filtro del testo è ottimo per rilevare il linguaggio che viola le politiche su Roblox poiché ottimizziamo questo stesso sistema di filtro da anni su slang, abbreviazioni e gergo specifici di Roblox. Al termine di questi livelli di formazione, disponiamo di un modello in grado di rilevare le violazioni delle policy direttamente dall’audio in tempo reale.

Sebbene questo sistema abbia la capacità di rilevare parole chiave specifiche come linguaggio volgare, le violazioni delle norme raramente sono costituite da una sola parola. Una parola può spesso sembrare problematica in un contesto e andare bene in un contesto diverso. Essenzialmente, questi tipi di violazioni riguardano ciò che dici, come lo dici e il contesto in cui vengono fatte le dichiarazioni.

Per comprendere meglio il contesto, sfruttiamo la potenza nativa di un’architettura basata su trasformatore, che è molto efficace nel riepilogo delle sequenze. Può prendere una sequenza di dati, come un flusso audio, e riassumerla per te. Questa architettura ci consente di preservare una sequenza audio più lunga in modo da poter rilevare non solo le parole ma anche il contesto e le intonazioni. Una volta riuniti tutti questi elementi, abbiamo un sistema finale in cui l’input è audio e l’output è una classificazione: viola o meno la policy. Questo sistema è in grado di rilevare parole chiave e frasi che violano le norme, ma anche tono, sentimento e altro contesto importante per determinare l’intento. Questo nuovo sistema, che rileva i discorsi che violano le policy direttamente dall’audio, è significativamente più efficiente in termini di calcolo rispetto a un sistema ASR tradizionale, il che renderà molto più semplice la scalabilità mentre continuiamo a reimmaginare il modo in cui le persone si riuniscono.

Avevamo anche bisogno di un nuovo modo per avvisare coloro che utilizzano i nostri strumenti di comunicazione vocale delle potenziali conseguenze di questo tipo di linguaggio. Con questo innovativo sistema di rilevamento a nostra disposizione, stiamo ora sperimentando modi per influenzare il comportamento online per mantenere un ambiente sicuro. Sappiamo che le persone a volte violano involontariamente le nostre norme e vogliamo capire se un promemoria occasionale potrebbe aiutare a prevenire ulteriori reati. Per facilitare questo, stiamo sperimentando il feedback degli utenti in tempo reale tramite notifiche. Se il sistema rileva che hai detto più volte qualcosa che viola le nostre politiche, visualizzeremo una notifica pop-up sullo schermo informandoti che la tua lingua viola le nostre politiche e indirizzandoti alle nostre politiche per ulteriori informazioni.

Tuttavia, le notifiche del flusso vocale sono solo un elemento del sistema di moderazione. Esaminiamo anche i modelli comportamentali sulla piattaforma, nonché i reclami di altri su Roblox, per guidare le nostre decisioni generali di moderazione. L’insieme di questi segnali potrebbe comportare conseguenze più gravi, tra cui la revoca dell’accesso alle funzionalità audio o, in caso di infrazioni più gravi, il divieto totale dalla piattaforma. Mantenere la nostra comunità sicura e civile è fondamentale poiché questi progressi nei modelli di intelligenza artificiale multimodale, nell’intelligenza artificiale generativa e negli LLM si uniscono per abilitare nuovi incredibili strumenti e funzionalità per i creatori.

Riteniamo che fornire ai creatori questi strumenti ridurrà la barriera all’ingresso per i creatori meno esperti e libererà i creatori più esperti dai compiti più noiosi di questo processo. Ciò consentirà loro di dedicare più tempo agli aspetti inventivi della messa a punto e dell’ideazione. Il nostro obiettivo con tutto questo è consentire a tutti, ovunque, di dare vita alle proprie idee e aumentare notevolmente la diversità di avatar, oggetti ed esperienze disponibili su Roblox. Stiamo anche condividendo informazioni e strumenti per contribuire a proteggere le nuove creazioni..

Stiamo già immaginando possibilità sorprendenti: supponiamo che qualcuno sia in grado di creare un avatar doppelganger direttamente da una foto, potrebbe quindi personalizzare il proprio avatar per renderlo più alto o renderlo in stile anime. Oppure possono creare un’esperienza chiedendo all’Assistente di aggiungere automobili, edifici e scenari, impostare le condizioni di illuminazione o vento oppure modificare il terreno. Da lì, potevano ripetere per perfezionare le cose semplicemente digitando avanti e indietro con l’Assistant. Sappiamo che la realtà di ciò che le persone creano con questi strumenti, non appena saranno disponibili, andrà ben oltre ciò che possiamo persino immaginare.