Skip to main content

Revolusi Kreasi di Roblox dengan AI Generatif

September 11, 2023

by Daniel Sturman, Chief Technology Officer, Roblox


Produk & Teknologi

Awal tahun ini kami membagikan visi kami tentang artifical intelligence (AI) generatif di Roblox dan fitur baru yang intuitif yang akan memampukan setiap pengguna untuk menjadi kreator. Seiring dengan pesatnya perkembangan fitur ini di seluruh industri, kami ingin memberikan beberapa update tentang progres yang telah kami capai, jalan yang masih harus ditempuh untuk mendemokratisasi pembuatan AI generatif, dan mengapa menurut kami AI generatif adalah elemen penting untuk arah tujuan Roblox.

Kemajuan dalam AI generatif dan model bahasa besar (large language models – LLM) menghadirkan peluang luar biasa untuk membuka masa depan pengalaman virtual imersif dengan memungkinkan kreasi yang lebih mudah dan cepat dengan tetap menjaga keamanan serta tanpa memerlukan sumber daya komputasi yang besar. Lebih jauh lagi, kemajuan dalam model AI yang bersifat multimodal, artinya mereka dilatih dengan berbagai jenis konten, seperti gambar, kode, teks, model 3D, dan audio, yang membuka pintu bagi kemajuan baru pada fitur kreasi. Model yang sama ini juga mulai menghasilkan output multimodal, seperti model yang dapat membuat output teks, serta beberapa output visual yang melengkapi teks. Kami melihat terobosan AI ini sebagai peluang besar untuk secara bersamaan meningkatkan efisiensi bagi kreator yang lebih berpengalaman dan memungkinkan lebih banyak orang mewujudkan berbagai ide hebat di Roblox. Di Roblox Developers Conference (RDC) tahun ini, kami mengumumkan beberapa fitur baru yang akan menghadirkan AI generatif ke Roblox Studio dan lebih banyak lagi untuk membantu semua orang di Roblox untuk berkembang dan melakukan iterasi lebih cepat, serta meningkatkan keahlian mereka untuk membuat konten yang lebih baik lagi.

Roblox Assistant

Roblox selalu menyediakan fitur, layanan, dan dukungan yang kreator perlukan untuk membuat pengalaman virtual 3D yang imersif. Pada saat yang sama, kami melihat kreator mulai menggunakan AI generatif dan percakapan pihak ketiga untuk membantu mereka berkreasi. Meskipun AI tersebut berguna untuk membantu mengurangi beban kerja kreator, versi siap pakai ini tidak dirancang untuk mengakomodasi alur kerja Roblox end to end ataupun terlatih dalam kode, slang, dan istilah Roblox. Ini berarti kreator menghadapi pekerjaan tambahan yang signifikan untuk menggunakan versi tersebut dalam membuat konten untuk Roblox. Selama ini kami bekerja mencari cara untuk menghadirkan manfaat fitur ini ke Roblox Studio. Di RDC, kami mengumumkan Assistant versi awal.

Assistant adalah AI percakapan kami yang memungkinkan kreator dengan semua level keahlian menggunakan waktu yang jauh lebih sedikit untuk tugas yang membosankan dan berulang saat berkreasi. Dengan demikian, kreator akan memiliki lebih banyak waktu untuk aktivitas yang lebih penting, seperti narasi, game play, dan desain pengalaman virtual. Roblox diposisikan secara unik untuk membangun model AI percakapan ini untuk dunia 3D yang imersif, berkat akses kami ke sejumlah besar model 3D publik yang dapat dilatih, kemampuan kami untuk mengintegrasikan model dengan API platform kami, dan rangkaian solusi AI inovatif kami yang terus berkembang. Kreator akan dapat menggunakan panduan teks bahasa alami untuk membuat adegan, mengedit model 3D, dan menerapkan perilaku interaktif pada objek. Assistant akan mendukung tiga fase kreasi: pembelajaran, coding, dan pembuatan:

  • Pembelajaran: Baik kreator yang masih baru dalam mengembangkan Roblox ataupun yang sudah berpengalaman, Roblox Assistant akan membantu menjawab pertanyaan di berbagai bidang menggunakan bahasa alami.
  • Coding: Assistant akan memperluas fitur Code Assist kami. Misalnya, developer dapat meminta Assistant untuk menyempurnakan kodenya, menjelaskan bagian kode, atau membantu melakukan debug dan menyarankan perbaikan untuk kode yang tidak berfungsi dengan benar.
  • Pembuatan: Assistant akan dapat membantu kreator membuat prototipe ide baru dengan sangat cepat. Misalnya, kreator baru dapat membuat seluruh adegan dan mencoba berbagai versi yang berbeda hanya dengan mengetik perintah seperti “Add some streetlights along this road” (Tambahkan beberapa lampu jalan di sepanjang jalan ini) atau “Make a forest with different kinds of trees. Now add some bushes and flowers” (Buat hutan dengan berbagai jenis pepohonan. Sekarang tambahkan beberapa semak dan bunga).

Bekerja dengan Assistant akan bersifat kolaboratif, interaktif, dan iteratif, sehingga memungkinkan kreator memberikan masukan dan Assistant akan bekerja untuk memberikan solusi yang tepat. Ini seperti memiliki kreator ahli sebagai partner yang dapat berdiskusi ide dengan kamu dan mencoba mengimplementasi ide tersebut sampai kamu mendapatkan ide terbaik.

Untuk menjadikan Assistant sebagai partner terbaik, kami membuat pengumuman lain di RDC: Kami mengundang developer untuk ikut berkontribusi dalam menyumbangkan data skrip Luau secara anonim. Data skrip ini akan membantu membuat fitur AI kami, seperti Code Assist dan Assistant, jauh lebih baik dalam menyarankan dan membuat kode lebih efisien. Dengan ini, peningkatan yang dihasilkan juga akan bermanfaat bagi developer Roblox yang menggunakannya. Selain itu, jika developer memilih untuk berbagi di luar Roblox, data skrip mereka akan ditambahkan ke kumpulan data yang disediakan bagi pihak ketiga untuk melatih fitur AI percakapan mereka agar AI tersebut dapat menyarankan kode Luau dengan lebih baik untuk memberikan kontribusi kembali kepada developer Luau di mana pun.

Oleh karena itu, melalui riset pengguna yang komprehensif dan percakapan transparan dengan developer teratas, opsi untuk mengikuti program ini aktif secara default dan kami memastikan bahwa semua peserta memahami dan menyetujui apa yang tercakup dalam program ini. Sebagai ucapan terima kasih kepada mereka yang memilih untuk berpartisipasi dalam berbagi data skrip dengan Roblox, kami akan memberikan akses ke versi Assistant dan Code Assist yang lebih canggih yang didukung oleh model yang dilatih komunitas. Mereka yang belum ikut serta akan tetap memiliki akses ke versi Assistant dan Code Assist yang ada.

Kreasi Avatar yang Lebih Mudah

Pada akhirnya, kami ingin setiap dari 65,5 juta pengguna harian kami memiliki avatar yang benar-benar mewakili dan mengekspresikan diri mereka. Baru-baru kami ini merilis kemampuan untuk anggota Program UGC kami untuk membuat dan menjual tubuh dan kepala avatar. Saat ini, proses tersebut memerlukan akses ke Studio atau Program UGC kami dengan tingkat keahilian yang cukup tinggi, dan bekerja beberapa hari untuk mengaktifkan ekspresi wajah, gerakan tubuh, rigging 3D, dll. Hal ini membuat kreasi avatar menghabiskan waktu lama dan, hingga saat ini, membatasi jumlah opsi yang tersedia. Kami ingin melangkah lebih jauh.

Agar semua orang di Roblox memiliki avatar yang dipersonalisasi dan ekspresif, kami perlu membuat avatar menjadi sangat mudah untuk dibuat dan dikustomisasi. Di RDC, kami mengumumkan fitur baru yang kami rilis pada tahun 2024 yang akan memungkinkan kreasi avatar kustom dengan mudah dari satu atau beberapa gambar. Dengan fitur ini, setiap kreator yang memiliki akses ke Studio atau program UGC kami akan bisa meng-upload gambar, mendapatkan avatar yang dibuat untuk mereka, lalu memodifikasinya sesuai keinginan mereka. Dalam jangka panjang, kami juga bermaksud untuk menyediakannya secara langsung dalam pengalaman virtual di Roblox.

Untuk mewujudkannya, kami melatih model AI pada skema avatar Roblox dan serangkaian model avatar 3D milik Roblox. Satu pendekatan memanfaatkan riset untuk menghasilkan avatar bergaya 3D dari gambar 2D. Kami juga mempertimbangkan untuk menggunakan model difusi teks ke gambar yang telah dilatih sebelumnya untuk memperkuat data pelatihan 3D terbatas dengan teknik generatif 2D dan menggunakan jaringan generasi 3D berbasis generative adversarial network (GAN) untuk pelatihan. Kami juga sedang berupaya menggunakan ControlNet untuk melapisi pose yang telah ditentukan sebelumnya untuk memandu gambar multitampilan avatar yang dihasilkan.

Proses ini menghasilkan mesh 3D untuk avatar. Selanjutnya, kami memanfaatkan riset segmentasi semantik 3D yang terlatih dalam pose avatar 3D untuk menggunakan mesh 3D tersebut dan menyesuaikannya untuk menambahkan fitur wajah, caging, rigging, dan tekstur. Pada dasarnya, membuat mesh 3D statis menjadi avatar Roblox. Terakhir, fitur pengeditan mesh memungkinkan pengguna untuk mengubah dan menyesuaikan model agar terlihat seperti versi yang mereka bayangkan. Proses ini terjadi dengan cepat dalam hitungan menit. Proses ini menghasilkan avatar baru yang dapat diimpor ke Roblox dan digunakan dalam pengalaman virtual.

Moderasi Komunikasi Suara

Bagi kami AI bukan hanya tentang kreasi, tetapi juga merupakan sistem yang jauh lebih efisien untuk memastikan komunitas yang beragam, aman, dan sopan, dalam skala yang besar. Saat kami mulai meluncurkan fitur suara baru, termasuk chat suara dan Roblox Connect, fitur panggilan baru sebagai avatar kamu, dan API yang diumumkan di RDC, kami kemudian menghadapi tantangan baru, yaitu memoderasi bahasa lisan secara real time. Saat ini, standar industri untuk hal ini adalah proses yang dikenal sebagai Pengenalan Ucapan Otomatis (Automatic Speech Recognition – ASR), yang pada dasarnya mengambil file audio, mentranskripsikannya untuk mengubahnya menjadi teks, kemudian menganalisis teks untuk mencari bahasa, kata kunci, dan sebagainya yang tidak pantas.

Hal ini berfungsi secara baik bagi perusahaan yang menggunakan teknologi ini dalam skala yang lebih kecil. Tetapi, saat kami mempelajari penggunaan proses ASR yang sama untuk memoderasi komunikasi suara, kami segera menyadari bahwa hal ini sulit dan tidak efisien untuk skala kami. Pendekatan ini juga menghilangkan informasi yang sangat berharga yang terkode dalam volume dan nada suara pembicara, serta konteks percakapan yang lebih luas. Dari jutaan menit percakapan yang harus kami transkripsikan setiap hari dalam berbagai bahasa, hanya sebagian kecil yang mungkin terdengar tidak pantas. Seiring dengan peningkatan skala yang kami lakukan, sistem tersebut akan memerlukan lebih banyak daya komputasi untuk mengimbanginya. Jadi kami melihat lebih dekat bagaimana kami dapat melakukan hal ini secara lebih efisien, dengan membangun aliran kerja yang menghubungkan audio langsung ke pelabelan konten untuk mengindikasikan apakah konten tersebut melanggar kebijakan kami atau tidak.

Pada akhirnya, kami dapat membangun sistem deteksi suara kustom internal dengan menggunakan ASR untuk mengklasifikasi kumpulan data suara internal lalu menggunakan data suara rahasia tersebut untuk melatih sistem. Pada khususnya, kami mulai dengan audio dan membuat transkrip untuk melatih sistem baru ini. Kemudian kami menjalankan transkrip tersebut melalui sistem filter teks Roblox untuk mengklasifikasi audio. Sistem filter teks ini sangat baik dalam mendeteksi bahasa yang melanggar kebijakan Roblox karena kami telah mengoptimalkan sistem filter yang sama ini selama bertahun-tahun pada slang, singkatan, dan istilah khusus Roblox. Di akhir pelatihan berlapis ini, kami memiliki model yang mampu mendeteksi pelanggaran kebijakan langsung dari audio secara real time.

Meskipun sistem ini memiliki kemampuan untuk mendeteksi kata kunci tertentu seperti kata tidak pantas, pelanggaran kebijakan jarang yang hanya berupa satu kata. Satu kata sering kali tampak bermasalah dalam suatu konteks dan tidak masalah dalam konteks yang berbeda. Pada dasarnya, tipe pelanggaran ini melibatkan apa yang kamu katakan, cara kamu mengatakannya, dan tempat konteks pernyataan tersebut dibuat.

Untuk memahami konteks secara lebih baik, kami memanfaatkan kekuatan alami arsitektur berbasis transformator, yang sangat baik dalam meringkas urutan. Arsitektur ini dapat mengambil urutan data, seperti aliran audio lalu meringkasnya untuk kamu. Arsitektur ini juga memungkinkan kami mempertahankan rangkaian audio yang lebih panjang sehingga kami tidak hanya dapat mendeteksi kata, tetapi juga konteks dan intonasi. Setelah semua elemen ini bersatu, kami memiliki sistem akhir dengan input berupa audio dan output berupa klasifikasi untuk menentukan apakah pelanggaran kebijakan terjadi. Sistem ini tidak hanya dapat mendeteksi kata kunci dan frasa yang melanggar kebijakan, tetapi juga nada, sentimen, dan konteks lain yang penting untuk menentukan maksud ucapan. Sistem baru ini, yang mendeteksi ucapan yang melanggar kebijakan langsung dari audio, secara signifikan lebih efisien dalam hal komputasi dibandingkan dengan sistem ASR tradisional yang akan mempermudah perluasan saat kami terus mewujudkan cara baru bagi orang untuk berkumpul bersama.

Kami juga memerlukan cara baru untuk memperingati mereka yang menggunakan fitur komunikasi suara kami tentang potensi konsekuensi tipe bahasa ini. Dengan sistem deteksi inovatif yang kami miliki, kami kini bereksperimen untuk memengaruhi perilaku online untuk menjaga lingkungan yang aman. Kami memahami bahwa terkadang ada pengguna yang melanggar kebijakan kami secara tidak sengaja dan kami ingin memahami apakah pengingat yang dikirim sesekali dapat membantu mencegah pelanggaran lebih lanjut. Untuk membantu hal ini, kami bereksperimen dengan masukan pengguna secara real time melalui notifikasi. Jika sistem mendeteksi bahwa kamu telah mengatakan sesuatu yang melanggar kebijakan kami beberapa kali, kami akan menampilkan notifikasi pop up di layar yang memberitahukan bahwa ucapanmu melanggar kebijakan kami dan mengarahkanmu ke kebijakan kami untuk informasi lebih lanjut.

Akan tetapi, notifikasi suara hanyalah salah satu elemen dari sistem moderasi. Kami juga mengamati pola perilaku di platform, serta keluhan dari pengguna lain di Roblox dalam menentukan keputusan moderasi kami secara keseluruhan. Gabungan dari berbagai sinyal ini dapat mengakibatkan konsekuensi yang lebih berat, termasuk pencabutan akses ke fitur audio, atau untuk pelanggaran yang lebih serius, pengguna dapat dikeluarkan dari platform. Menjaga komunitas kita tetap aman dan sopan sangatlah penting mengingat kemajuan dalam model AI multimodal, AI generatif, dan LLM bersatu untuk memungkinkan fitur dan kemampuan baru yang luar biasa bagi kreator.

Kami percaya bahwa menyediakan beragam fitur ini kepada kreator akan mengurangi kesulitan bagi kreator yang kurang berpengalaman dan mengurangi tugas yang membosankan bagi kreator yang lebih berpengalaman. Hal ini akan memungkinkan mereka untuk menghabiskan lebih banyak waktu pada aspek inventif dalam menyempurnakan dan membuat ide. Dengan semua ini, kami bertujuan untuk memungkinkan semua orang, di mana pun, untuk mewujudkan ide mereka dan meningkatkan keragaman avatar, item, dan pengalaman virtual yang tersedia di Roblox. Kami juga membagikan informasi dan fitur untuk membantu melindungi kreasi baru.

Kami sudah membayangkan kemungkinan yang luar biasa: Katakanlah seseorang dapat membuat avatar doppelganger langsung dari sebuah foto, lalu orang tersebut dapat menyesuaikan avatarnya untuk membuatnya menjadi lebih tinggi atau menjadikannya bergaya anime. Mereka juga dapat membuat pengalaman virtual dengan meminta Assistant untuk menambahkan mobil, bangunan, dan pemandangan, mengatur kondisi pencahayaan atau angin, atau mengubah medan. Selanjutnya, mereka dapat melakukan perbaikan untuk menyempurnakan berbagai hal hanya dengan berkomunikasi melalui teks dengan Assistant. Kami sangat bersemangat karena kami menyadari bahwa apa yang akan diciptakan pengguna dengan berbagai fitur dan kemampuan ini, saat sudah tersedia, akan melampaui apa yang dapat kami bayangkan.