Skip to main content

Die Revolution des Entwicklungsprozesses mit generativer KI

September 11, 2023

by Daniel Sturman, Chief Technology Officer, Roblox


Tech

Anfang des Jahres verkündeten wir unsere Vision für die generative künstliche Intelligenz (KI) auf Roblox und stellten intuitive neue Tools vor, die es allen Nutzer:innen ermöglichen werden, Creator:innen zu werden. Diese Tools entwickeln sich industrieweit drastisch weiter und ich möchte diesbezüglich ein paar Updates über unsere eigenen Fortschritte teilen, einen Einblick darüber verschaffen, was unsere Pläne zur Demokratisierung generativer KI sind, und warum wir glauben, dass generative KI so wichtig für die Richtung ist, die Roblox einschlägt.

Fortgeschrittene generative KI und Large Language Models (LLMs) bieten eine riesige Chance bei der Erstellung immersiver Erlebnisse. Sie vereinfachen und beschleunigen das Entwicklungsverfahren unter Erhalt der Sicherheitsanforderungen und ohne die Anforderung von massiven Rechnerleistungen. Zudem öffnen Fortschritte von multimodalen KI-Modellen, d.h. solchen, die an verschiedenen Inhaltsarten wie Bildern, Code, Text, 3D-Modellen und Audio trainiert werden, die Tür für weitere Neuerungen in den Erstellungstools. Dieselben Modelle beginnen jetzt auch, multimodale Outputs zu produzieren, wie z.B. ein Modell, dass sowohl einen Text also auch Bildmaterialien erstellen kann, um den Text zu ergänzen. Wir sehen diese Durchbrüche in der KI als große Chance, die Effizienz unserer erfahrenen Creator:innen zu steigern und es gleichzeitig noch mehr Menschen zu ermöglichen, ihre Ideen auf Roblox umzusetzen. Dieses Jahr kündigten wir bei der Roblox Developers Conference (RDC) mehrere Tools an, die generative AI innerhalb und außerhalb von Roblox Studio anwenden werden, um allen dabei zu helfen, ihre Schöpfungen auf Roblox schneller erstellen, erweitern und verbessern zu können und ihre Fähigkeiten für noch bessere Inhalte einsetzen können.

Roblox Assistant

Roblox hat Creator:innen schon immer die Tools, Dienste und Unterstützung zur Verfügung gestellt, die sie zur Erstellung immersiver 3D-Erlebnisse brauchten. Gleichzeitig haben wir festgestellt, dass unsere Creator:innen anfingen, generative und konversationelle KI von dritten Anbietern zu nutzen, um ihnen beim Entwickeln zu helfen. Auch wenn diese Tools Creator:innen einiges an Arbeit abnehmen können, sind diese handelsüblichen Versionen nicht für die Arbeitsabläufe auf Roblox optimiert und wurden auch nicht auf Roblox-Code, -Slang und -Jargon trainiert. Dadurch entsteht den Creator:innen wiederum zusätzliche Arbeit, um diese Versionen zum Erstellen von Inhalten auf Roblox für sich nützlich zu machen. Wir haben daran gearbeitet, den Wert dieser Tools in Roblox Studio zu integrieren und stellten auf der RDC eine frühe Version von „Assistant“ vor.

Assistant ist unsere eigene konversationelle KI, die es Creator:innen unterschiedlicher Fähigkeitsstufen ermöglicht, sich weniger mit banalen, repetitiven Aufgaben auseinanderzusetzen, und sich stattdessen auf wertvollere Aktivitäten zu konzentrieren, wie die Narrative, das Gameplay und das Erlebnisdesign. Roblox ist in der einzigartigen Position, dieses konversationelle KI-Modell für immersive 3D-Welten zu entwickeln: Wir haben Zugriff auf einen großen Datensatz an 3D-Modellen, die zum Training eingesetzt werden können, wir haben die Fähigkeit, ein Modell mit unseren Plattform-APIs zu integrieren, und wir besitzen eine wachsende Palette an innovativen KI-Lösungen. Creator:innen werden per Texteingabe mit natürlicher Sprache Szenen erstellen, 3D-Modelle bearbeiten und Objekten interaktive Verhaltensweisen verleihen können. Assistant wird die drei Phasen des Entwicklungsverfahrens unterstützen: Lernen, Programmieren und Erstellen:

  • Lernen: Egal, ob jemand zum ersten Mal etwas auf Roblox erstellt oder schon jahrelange Erfahrung hat, wird Roblox Assistant ihm dabei behilflich sein, Fragen jeglicher Art in natürlicher Sprache zu beantworten.
  • Programmieren: Assistant wird unser aktuelles Code Assist Tool erweitern. Entwickler:innen könnten Assistant z.B. bitten, ihren Code zu verbessern, einen Abschnitt des Codes zu erklären oder bei der Fehlersuche zu helfen und Lösungsvorschläge zu unterbreiten, wenn der Code nicht funktioniert.
  • Erstellen: Assistant wird Creator:innen dabei helfen, neue Ideen blitzschnell umzusetzen. Zum Beispiel können neue Creator:innen ganze Szenen generieren und dabei verschiedene Versionen ausprobieren mit Eingaben wie: „Add some streetlights along this road“ oder „Make a forest with different kinds of trees. Now add some bushes and flowers.“

Die Arbeit mit Assistant wird kollaborativ, interaktiv und iterativ sein. Somit können die Creator:innen Feedback geben und Assistant an der richtigen Lösung arbeiten lassen. Es wird so sein, als ob du einen Programmierexperten an deiner Seite hast, mit dem du Ideen besprechen und ausprobieren kannst, bis alles deinen Vorstellungen entspricht.

Um Assistant so effektiv wie möglich zu gestalten, haben wir bei der RDC noch eine Ankündigung gemacht: Wir laden Entwickler:innen dazu ein, aktiv zu wählen , ob sie sich daran beteiligen wollen, ihre anonymisierten Luau-Skript-Daten beizusteuern. Diese Skriptdaten werden unsere KI-Tools, wie Code Assist und Assistant, deutlich bei der Empfehlung und Erstellung von effizienteren Codes verbessern, was wiederum zum Vorteil von Roblox-Entwickler:innen, die diese Tools verwenden. Darüber hinaus werden Skriptdaten von Entwickler:innen, die ihre aktive Zustimmung zum Teilen auch außerhalb von Roblox geben, einem Datensatz hinzugefügt, der Dritten zum Trainieren ihrer KI-Chat-Tools und somit zur Verbesserung derer Luau-Code-Empfehlungen zur Verfügung gestellt wird. Dies wiederum, ist zum Vorteil aller Luau-Entwickler:innen.

Wir möchten betonen, dass wir, nach ausführlicher Nutzerforschung und transparenten Gesprächen mit Topentwickler:innen, dies nur mit ausdrücklicher Zustimmung erfolgt. Zudem werden wir sicherstellen, dass alle Teilnehmer:innen das Programm und die darin enthaltenen Einzelheiten verstehen und damit einverstanden sind. Diejenigen, die sich dazu entscheiden, ihre Skriptdaten mit Roblox zu teilen, erhalten als Dankeschön Zugriff auf leistungsstärkere Versionen von Assistant und Code Assist, die von diesem von der Community trainierten Modell angetrieben werden. Diejenigen, die sich gegen das Teilen ihres Skripts entschieden haben, werden weiterhin Zugriff auf unsere bestehende Version von Assistant und Code Assist erhalten.

Einfachere Avatar-Erstellung

Wir wünschen uns, dass alle unserer 65,5 Millionen täglich aktiven Nutzer:innen einen Avatar haben, der sie wahrhaft repräsentiert und ihre Persönlichkeit reflektiert. Wir haben unseren UGC-Programm-Mitgliedern neulich die Möglichkeit eröffnet, sowohl Avatar-Körper als auch einzelne Köpfe zu erstellen und zu verkaufen. Im Moment ist dafür noch Zugriff auf Studio oder eine Mitgliedschaft in unserem UGC-Programm erforderlich. Zudem müssen Creator:innen ein ziemlich hohes Fähigkeitslevel haben und mehrere Tage Arbeit in die Entwicklung von Gesichtsausdrücken, Körperbewegungen, 3D-Rigging usw. stecken. Die Erstellung von Avataren ist daher relativ zeitaufwändig und bietet bisher nur begrenzte Optionen. Wir wollen noch weiter gehen.

Um alle auf Roblox zu befähigen, einen personalisierten, ausdrucksstarken Avatar zu kreieren, müssen wir die Erstellung und Anpassung von Avataren vereinfachen. Bei der RDC kündigten wir für 2024 ein neues Tool an, mit dem personalisierte Avatare aus einem Bild oder aus mehreren Bildern heraus ganz einfach erstellt werden können. Mit diesem Tool können alle Creator:innen mit Zugriff auf Studio oder einer Mitgliedschaft in unserem UGC-Programm ein Bild hochladen und daraus ihren Avatar erstellen und nach Bedarf anpassen. Langfristig haben wir vor, diese Funktion auch direkt in Erlebnissen auf Roblox anzubieten.

Um dies möglich zu machen, trainieren wir KI-Modelle anhand von Roblox‘ Avatar-Schema und einem Satz von Roblox-eigenen 3D-Avatar-Modellen. Ein Ansatz setzt Forschung wirksam ein, um 3D-stilisierte Avatare aus 2D-Bildern zu generieren. Wir planen zudem vorab trainierte Text-zu-Bild-Diffusionsmodelle zu nutzen, um limitierte 3D-Trainingsdaten mit 2D generativen Techniken zu erweitern, und ein Generative Adversarial Network (GAN)-basiertes 3D Generation Network zu Trainingszwecken einzusetzen. Schließlich arbeiten wir daran, ControlNet zu verwenden, um vordefinierte Posen einzufügen, um die resultierenden Mehrfachansichten der Avatare zu steuern.

Dieser Vorgang erzeugt ein 3D-Mesh für den Avatar. Als nächstes nutzen wir die Forschung zur 3D semantischen Segmentierung, die auf 3D-Avatar-Posen trainiert ist, um dieses 3D-Mesh zu verwenden und es anzupassen, indem wir geeignete Gesichtsmerkmale, Einrahmungen, Rigging und Texturen hinzufügen, was im Wesentlichen bedeutet, das statisches 3D-Mesh in einen Roblox-Avatar umgewandelt wird. Schließlich ermöglicht ein Mesh-Bearbeitungstool den Nutzer:innen, das Modell zu verformen und zu bearbeiten, um es ihren Vorstellungen anzupassen. All das passiert innerhalb weniger Minuten – die Erstellung eines neuen Avatars, der auf Roblox importiert werden und in Erlebnissen verwendet werden kann.

Die Moderation von Sprachkommunikation

KI ist für uns nicht nur ein Entwicklungstool, sondern auch ein effizientes System zur Sicherung einer diversen, sicheren und anständigen Community in großem Umfang. Mit der Einführung neuer Voice-Features, darunter Voice Chat und Roblox Connect, die neue Funktion, bei der man sich gegenseitig als Avatar anrufen kann, sowie auf der RDC angekündigter APIs, stehen wir vor einer neuen Herausforderung: die Moderation von gesprochener Sprache in Echtzeit. Der jetzige Industriestandart für diesen Vorgang ist als automatische Spracherkennung bekannt, wobei gewissermaßen eine Audiodatei transkribiert und in Text umgewandelt wird, welcher dann auf unangemessene Sprache, Schlagwörter usw. geprüft wird.

Das funktioniert gut bei Unternehmen, die dies in kleinerem Umfang einsetzen, aber wir haben relativ schnell festgestellt, dass dieses Verfahren der automatischen Spracherkennung zur Moderation von Sprachkommunikation in der Größenordnung, wie wir sie brauchen, schwierig und ineffizient ist. Bei diesem Ansatz gehen zudem wertvolle Informationen, die in der Stimme der Sprecher:innen codiert sind, wie z.B. Lautstärke und Tonfall, sowie der weitere Kontext des Gesprächs, verloren. Von den Millionen von Minuten Konversation, die wir täglich in verschiedenen Sprachen zu transkribieren haben, würde sich nur ein sehr kleiner Anteil eventuell unangemessen anhören. Und bei unserem kontinuierlichen Wachstum würde das System immer mehr Rechenleistung erfordern, um mithalten zu können. Deswegen haben wir uns näher angesehen, wie wir dies auf effizientere Art lösen können, indem wir eine Pipeline erstellen, bei der die Live-Audio-Inhalte direkt annotiert werden können, um anzugeben, ob sie gegen unsere Richtlinien verstoßen oder nicht.

Letztendlich haben wir unser hauseigenes Sprachdetektionssystem entwickelt, indem wir automatische Spracherkennung einsetzten, um unsere hauseigenen Sprachdatensätze zu klassifizieren und unser System dann auf diese klassifizierten Sprachdaten zu trainieren. Um das neue System zu trainieren, beginnen wir damit, ein Transkript des Audios zu erstellen. Das Skript wird dann durch ein Roblox-Textfiltersystem geschickt, um das Audio zu klassifizieren. Dieses Textfiltersystem ist sehr gut darin, Sprache auf Roblox zu erkennen, die gegen unsere Richtlinien verstößt, da wir dieses Filtersystem schon seit Jahren auf Roblox-spezifischen Slang, Abkürzungen und Jargon optimieren. Nach all diesen Trainingsebenen haben wir ein Modell, das fähig ist, Richtlinienverstöße in Echtzeit direkt in den Audiodateien zu erkennen.

Das System erkennt zwar keine spezifischen Schlagwörter wie z.B. Kraftausdrücke, Richtlinienverstöße bestehen jedoch selten aus nur einzelnen Wörtern. Ein einzelnes Wort kann in einem bestimmten Kontext problematisch und in einem anderen Kontext völlig harmlos sein. Diese Art Verstöße hängen im Wesentlichen davon ab, was, wie und in welchem Zusammenhang etwas gesagt wird.

Um den Kontext immer besser zu verstehen, nutzen wir die natürliche Leistungsfähigkeit einer auf Transformer-Architektur basierenden Lösung, die sehr gut in der Sequenz-Zusammenfassung ist. Sie kann eine Datensequenz, wie z.B. einen Audio-Stream, zusammenfassen. Diese Architektur ermöglicht es uns, eine längere Audiosequenz zu erhalten, damit wir nicht nur Wörter, sondern auch Zusammenhänge und Intonation erkennen können. Zusammen ergeben alle diese Elemente ein System, das durch die Eingabe von Audio eine Klassifizierung erzeugen kann: ob der Inhalt gegen die Richtlinien verstößt oder nicht. Dieses System kann nicht nur Schlagwörter und gegen die Richtlinien verstoßende Sätze erkennen, sondern auch Ton, Stimmung und anderen Kontext, der für die Erkennung der Absicht wichtig ist. Dieses neue System, das gegen die Richtlinien verstoßende Rede direkt im Audio erkennen kann, ist bedeutend effizienter als ein traditionelles Spracherkennungssystem, wodurch es viel einfacher wird, mit unserem Wachstum mitzuhalten und weiterhin Menschen auf neue Art zu verbinden.

Wir brauchten auch eine neue Methode, Leute, die unsere Sprachkommunikations-Tools verwenden, auf die potenziellen Konsequenzen für die Nutzung unangebrachter Ausdrücke hinzuweisen. Mit diesem uns zur Verfügung stehenden innovativen Erkennungssystem experimentieren wir mit Methoden, Online-Verhalten positiv zu beeinflussen und eine sichere Umgebung zu bewahren. Wir wissen, dass Menschen manchmal unabsichtlich gegen unsere Richtlinien verstoßen und wir möchten feststellen, ob ein gelegentlicher Hinweis künftige Verstöße verhindern kann. Um uns damit zu helfen, experimentieren wir mit Nutzer-Feedback in Echtzeit durch Benachrichtigungen. Wenn das System erkennt, dass du wiederholt etwas gesagt hast, dass gegen unsere Richtlinien verstößt, zeigen wir dir eine Pop-up-Benachrichtigung auf deinem Bildschirm an, die dich darüber informiert, dass das, was du gesagt hast, gegen unsere Richtlinien verstößt, und leitet dich für weitere Informationen zu unseren Richtlinien weiter.

Voice-Stream-Benachrichtigungen sind jedoch nur ein Element des Moderationssystems. Wir sehen uns auch Verhaltensmuster auf der Plattform und Beschwerden von anderen Nutzer:innen an, um allgemeine Moderationsentscheidungen zu treffen. Die Anhäufung dieser Signale kann zu strengeren Konsequenzen führen, darunter den Entzug des Zugriffs auf Audiofunktionen oder, für ernstere Vergehen, den Ausschluss von der Plattform. Die Bewahrung von Sicherheit und Netiquette in unserer Community ist von oberster Wichtigkeit, während die Fortschritte der multimodalen KI-Modelle, generativen KI und LLMs zusammengeführt werden, um fantastische neue Tools und Kapazitäten für Creator:innen zu ermöglichen.

Wir glauben, dass die Bereitstellung dieser Tools die Eintrittsbarriere für weniger erfahrene Creator:innen senkt und fortgeschrittenen Creator:innen langwierige Aufgaben im Arbeitsablauf abnimmt. Somit können sie mehr Zeit an den erfinderischen Aspekten der Optimierung und beim Entwickeln von Ideen verbringen. Wir haben uns zum Ziel gesetzt, es allen Menschen auf der ganzen Welt zu ermöglichen, ihre Ideen zum Leben zu erwecken und die Diversität der Avatare, Artikel und Erlebnisse auf Roblox erheblich zu erhöhen. Zudem teilen wir Informationen und Tools, um zu helfen, neue Schöpfungen zu schützen.

Wir denken dabei schon an fantastische Möglichkeiten: Nehmen wir an, man könnte einen Avatar-Doppelgänger direkt von einem Foto aus erstellen. Man könnte seinen Avatar dann persönlich anpassen, ihn z.B. größer machen oder in Anime-Stil umwandeln. Oder man könnte ein Erlebnis erstellen, indem man Assistant auffordert, ein paar Autos, Gebäude und Landschaften einzufügen, Belichtung und Windkonditionen festzulegen oder das Terrain zu ändern. Dies könnte man dann ausbauen und verfeinern, indem man weiterhin mit Assistant chattet. Wir wissen, dass die Realität von dem, was Leute mit diesen Tools erstellen werden, unsere Vorstellungen weit übertreffen werden.