Skip to main content

Revolucionamos la creación en Roblox con la inteligencia artificial generativa

September 11, 2023

by Daniel Sturman, Chief Technology Officer, Roblox


Tecnología

A principio de este año compartimos nuestra visión sobre la inteligencia artificial (IA) generativa en Roblox y las nuevas herramientas intuitivas que permitirán a cada usuario convertirse en un creador. Como estas herramientas evolucionan rápidamente en todo el sector, quería ofrecer algunas actualizaciones sobre los progresos que hemos hecho, el camino que queda por recorrer para democratizar la creación de inteligencia artificial generativa y por qué pensamos que la IA generativa es un elemento fundamental para el futuro de Roblox.

Los avances en inteligencia artificial generativa y los modelos de lenguaje de gran tamaño (LLM) presentan una oportunidad increíble para desbloquear el futuro de las experiencias inmersivas, permitiendo una creación más ágil y rápida sin renunciar a la seguridad y sin necesidad de recursos informáticos masivos. Además, los progresos en los modelos de inteligencia artificial multimodales, aquellos que pueden trabajar con distintos tipos de contenido como imágenes, código, texto, modelos 3D y audio, están revolucionando nuestras herramientas de creación. Estos mismos modelos están empezando a producir también resultados multimodales, generando no solo texto, sino también elementos visuales. Creemos que estas innovaciones de la IA presentan una oportunidad enorme para empoderar tanto a nuestros creadores experimentados como a aquellos que están empezando, permitiéndoles dar vida a sus ideas en Roblox de una manera más eficiente y emocionante. En esta última la Conferencia de Desarrolladores de Roblox (RDC), presentamos una serie de herramientas que están trayendo la inteligencia artificial generativa a Roblox Studio y más allá. Estas herramientas están diseñadas para acelerar tu proceso de creación, permitiéndote iterar con mayor agilidad y mejorar tus habilidades para crear contenido de la más alta calidad.

Roblox Assistant

Desde siempre, Roblox proporciona a los creadores las herramientas, los servicios y el apoyo para crear experiencias 3D inmersivas. Sin embargo, hemos observado que muchos de nuestros talentosos creadores recurren a soluciones de inteligencia artificial generativa y conversacional de terceros para facilitar su proceso creativo. Aunque estas soluciones externas pueden ser útiles para aliviar la carga de trabajo, no están diseñadas específicamente para el flujo de trabajo integral de Roblox, y carecen de familiaridad con el código, el argot y la jerga propios de nuestra plataforma. Esto significa que los creadores deben invertir un esfuerzo adicional para adaptar estas herramientas a la creación de contenido en Roblox. Hemos estado trabajando incansablemente para llevar el valor de estas herramientas externas directamente a Roblox Studio, y en la (RDC), compartimos un adelanto de lo que hemos logrado.

Assistant es nuestra inteligencia artificial conversacional que permite a los creadores de todos los niveles dedicar menos tiempo a las tareas secundarias y repetitivas de la creación y más tiempo a actividades de alto valor, como la narrativa, la jugabilidad y el diseño de experiencias. La posición privilegiada de Roblox en este ámbito nos ha permitido desarrollar un modelo de IA conversacional específicamente adaptado a mundos 3D inmersivos, gracias a nuestro acceso a un gran conjunto de modelos 3D públicos con los que entrenarnos, a nuestra capacidad para integrar un modelo con las API de nuestra plataforma y a nuestro creciente conjunto de soluciones innovadoras de inteligencia artificial. Los creadores podrán utilizar sugerencias de texto en lenguaje natural para crear escenas, editar modelos 3D y aplicar comportamientos interactivos a los objetos. Assistant apoyará las tres fases de la creación: aprender, codificar y construir.

  • Aprender: Tanto si un creador es principiante en el desarrollo en Roblox como si es un veterano experimentado, Roblox Assistant responderá a preguntas en una amplia gama de consultas utilizando lenguaje natural.
  • Programar: Assistant ampliará la capacidad de Code Assist, nuestra herramienta más reciente. Por ejemplo, los desarrolladores pueden recurrir a esta herramienta para mejorar sus scripts, explicar secciones complejas del código o incluso para depurarlo y ofrecerá sugerencias para corregirlo si el mismo no funciona correctamente.
  • Construir: Assistant asistirá a los creadores en la elaboración rápida de prototipos de nuevas ideas. Por ejemplo, un nuevo creador podría generar escenas enteras y probar distintas versiones simplemente escribiendo una sugerencia como «Añade algunos postes de luz a lo largo de esta carretera» o «Diseña un bosque con distintos tipos de árboles. Ahora añade algunos arbustos y flores».

La colaboración con Assistant será una experiencia totalmente colaborativa, interactiva y en constante evolución, dándoles a los creadores la oportunidad de proporcionar sus comentarios y sugerencias para una mejora continua y la búsqueda de soluciones óptimas. Será como tener como compañero a un creador experto con el que podrás intercambiar ideas y probarlas hasta que obtengas el resultado esperado.

Para hacer de Assistant el mejor socio posible, hicimos otro anuncio en la RDC: invitamos a los desarrolladores a compartir sus datos del script de Luau de manera anónima. Estos datos de script ayudarán a hacer que nuestras herramientas de inteligencia artificial, como Code Assist y Assistant, sean significativamente mejores a la hora de sugerir y crear código más eficiente, en beneficio de los desarrolladores de Roblox que las utilizan. Además, si los desarrolladores optan por compartir más allá de Roblox, los datos de sus scripts se añadirán a un conjunto de datos a disposición de terceros para entrenar a sus herramientas de chat de inteligencia artificial con el fin de mejorar el código Luau, en beneficio de los desarrolladores de Luau de todo el mundo.

Llevamos a cabo una investigación exhaustiva entre nuestros usuarios y mantuvimos conversaciones claras y directas con algunos de los desarrolladores más destacados, que nos permitieron diseñar esta herramienta de manera que su participación sea completamente voluntaria y todos los participantes comprendan el programa y otorguen su consentimiento. Como agradecimiento a quienes decidan compartir datos de scripts con Roblox, concederemos acceso a las versiones más potentes de Assistant y Code Assist que funcionan con este modelo entrenado por la comunidad. Los que no hayan optado seguirán teniendo acceso a nuestra versión actual de Assistant y Code Assist.

Creación de avatares más sencilla

En última instancia, queremos que cada uno de nuestros 65.5 millones de usuarios diarios tenga un avatar que le represente de verdad y exprese quién es. Recientemente permitimos a los miembros de nuestro Programa UGC crear y vender tanto cuerpos de avatar como cabezas independientes. Hoy en día, ese proceso requiere acceso a Studio o a nuestro Programa UGC, un nivel de habilidad bastante alto y varios días de trabajo para activar la expresión facial, el movimiento corporal, el rigging 3D, etc. Esto implica una inversión de tiempo más larga y, hasta la fecha, ha limitado el número de opciones disponibles. Queremos ir aún más lejos.

Para que todo el mundo en Roblox pueda tener un avatar personalizado y expresivo, este debe ser muy fácil de generar y personalizar. En la RDC, anunciamos una nueva herramienta que lanzaremos en 2024 y que permitirá crear fácilmente un avatar personalizado a partir de una o varias imágenes. Con ella, cualquier creador con acceso a Studio o a nuestro programa UGC podrá subir una imagen, con la que se creará un nuevo avatar, y luego modificarlo a su gusto. A largo plazo, tenemos la intención de ponerlo a disposición directamente dentro de las experiencias en Roblox.

Para que se haga realidad, estamos entrenando modelos de inteligencia artificial en el esquema de avatares de Roblox y en un conjunto de modelos de avatares 3D propiedad de Roblox. Un enfoque aprovecha la investigación para generar avatares estilizados en 3D a partir de imágenes en 2D. También estamos estudiando el uso de modelos de difusión texto-imagen preentrenados para aumentar los datos limitados de entrenamiento 3D con técnicas generativas 2D, y el uso de una red de generación 3D basada en una red generativa adversarial (GAN) para el entrenamiento. Por último, estamos trabajando en el uso de ControlNet para superponer poses predefinidas que guíen las imágenes multivista resultantes de los avatares.

Este proceso produce una malla 3D para el avatar. A continuación, aprovechamos la investigación sobre segmentación semántica en 3Dentrenada en poses de avatares 3D, para tomar esa malla 3D y ajustarla con el fin de añadir los rasgos faciales, las jaulas, el rigging y las texturas adecuados; en esencia, hacer de la malla 3D estática un avatar de Roblox. Por último, una herramienta de edición de mallas permite a los usuarios transformar y ajustar el modelo para que se parezca más a la versión que están imaginando. Y todo esto ocurre rápidamente, en cuestión de minutos, generando un nuevo avatar que puede importarse a Roblox y utilizarse en una experiencia.

Moderación de la comunicación vocal

Para nosotros, la inteligencia artificial no es solo creación, es también un sistema mucho más eficaz que garantiza una comunidad diversa, segura y civil, a escala. A medida que empezamos a implementar nuevas funciones de voz, como el chat de voz y Roblox Connect y las API anunciadas en la RDC, nos enfrentamos a un nuevo reto: la moderación del lenguaje hablado en tiempo real. La norma actual de la industria para esto es un proceso conocido como Reconocimiento Automático del Habla (ASR), que esencialmente toma un archivo de audio, lo transcribe para convertirlo en texto, y luego analiza el texto para buscar palabras inapropiadas, clave, etc.

Este proceso funciona bien para las empresas que lo utilizan a menor escala, pero al explorar su uso para moderar la comunicación de voz, nos dimos cuenta rápidamente de que es difícil e ineficaz a nuestra escala. Este enfoque también pierde información muy valiosa que está codificada en el volumen y el tono de voz del hablante, así como en el contexto más amplio de la conversación. De los millones de minutos de conversación que tendríamos que transcribir cada día, en distintos idiomas, solo un porcentaje muy pequeño podría parecer algo inapropiado. Y a medida que sigamos creciendo, ese sistema requerirá cada vez más potencia de cálculo para mantener el ritmo. Así que analizamos más de cerca cómo lo volveríamos más eficaz, construyendo una canalización que va directamente del audio en vivo al etiquetado del contenido para indicar si infringe o no nuestras políticas.

Por último, pudimos crear un sistema interno de detección de voz personalizado utilizando ASR para clasificar nuestros conjuntos de datos de voz internos y, a continuación, utilizar esos datos de voz clasificados para entrenar el sistema. Más concretamente, para entrenar este nuevo sistema, empezamos con audio y creamos una transcripción. A continuación, pasamos la transcripción por nuestro sistema de filtro de texto Roblox para clasificar el audio. Este sistema de filtro de texto es excelente para detectar el lenguaje que infringe las políticas en Roblox, ya que llevamos años optimizando este mismo para la jerga, las abreviaturas y el argot específicos de Roblox. Al final de estas capas de entrenamiento, tenemos un modelo capaz de detectar incumplimientos de la política directamente a partir del audio en tiempo real.

Aunque este sistema tiene la capacidad de detectar palabras clave específicas, como blasfemias, los incumplimientos de la política rara vez se infringe a través de una sola palabra. A menudo, una palabra puede parecer problemática en un contexto y no significar nada malo en otro. Esencialmente, este tipo de infracción tiene que ver con lo que dices, cómo lo dices y el contexto en el que se hacen las declaraciones.

Para obtener una mejor comprensión del contexto, aprovechamos la potencia nativa de una arquitectura basada en transformadores, que es muy buena resumiendo secuencias. Es capaz de tomar una secuencia de datos, como una transmisión de audio, y resumirla para ti. Esta arquitectura nos permite conservar una secuencia de audio más larga para poder detectar no solo palabras, sino también el contexto y las entonaciones. Una vez reunidos todos estos elementos, tenemos un sistema final en el que la entrada es audio y la salida es una clasificación: infringe la política o no la infringe. Este sistema puede detectar palabras clave y frases que incumplen la política, pero también el tono, el sentimiento y otros contextos importantes para determinar la intención. Este nuevo sistema, que detecta el habla que vulnera las normas directamente a partir del audio, es significativamente más eficiente desde el punto de vista informático que un sistema ASR tradicional, y será mucho más fácil de escalar a medida que sigamos reimaginando la forma en que las personas se reúnen.

También necesitábamos una nueva forma de alertar a los usuarios de nuestras herramientas de comunicación por voz de las posibles consecuencias de este tipo de idioma. Con este innovador sistema de detección a nuestra disposición, ahora estamos experimentando formas de influir en el comportamiento en línea para mantener un entorno seguro. Sabemos que a veces la gente infringe nuestras políticas involuntariamente y queremos saber si un recordatorio ocasional podría ayudar a evitar nuevos incumplimientos. Para contribuir a ello, estamos experimentando con los comentarios de los usuarios en tiempo real a través de notificaciones. Si el sistema detecta que has dicho algo que infringe nuestras políticas un cierto número de veces, mostraremos una notificación emergente en tu pantalla informándote de que tu lenguaje viola nuestras políticas y te dirigiremos a nuestras políticas para obtener más información.

Sin embargo, las notificaciones de transmisión de voz son solo un elemento del sistema de moderación. También miramos los patrones de comportamiento en la plataforma, así como las quejas de otros usuarios en Roblox, para impulsar nuestras decisiones generales de moderación. La suma de estas señales podría acarrear consecuencias más graves, como la revocación del acceso a las funciones de audio o, en caso de infracciones más graves, la expulsión total de la plataforma. Mantener nuestra comunidad segura y civil es fundamental a medida que estos avances en modelos de inteligencia artificial multimodal, inteligencia artificial generativa y LLM se unen para permitir nuevas herramientas y capacidades increíbles para los creadores.

Creemos que proporcionar a los creadores estas herramientas reducirá la barrera de entrada para quienes son menos experimentados y liberará a los creadores más experimentados de las tareas más tediosas de este proceso. Esto les permitirá dedicar más tiempo a los aspectos inventivos de afinar e idear. Nuestro objetivo con todo esto es permitir a todo el mundo, en todas partes, dar vida a sus ideas y aumentar enormemente la diversidad de avatares, objetos y experiencias disponibles en Roblox. También compartimos información y herramientas para proteger las nuevas creaciones .

Ya estamos imaginando posibilidades increíbles: Supongamos que alguien es capaz de crear un doble de avatar directamente a partir de una foto, podría entonces personalizar su avatar para hacerlo más alto o representarlo al estilo anime. O pueden construir una experiencia pidiendo al Assistant que añada coches, edificios y decorados, que configure las condiciones de iluminación o viento, o que cambie el terreno. A partir de ahí, podrían iterar para perfeccionar las cosas solo tecleando de un lado a otro con Assistant. Sabemos que la realidad de lo que la gente cree con estas herramientas, a medida que estén disponibles, irá mucho más allá de lo que podemos imaginar.