Skip to main content

생성형 AI를 통한 Roblox 작품 제작 혁신

September 11, 2023

by Daniel Sturman, Chief Technology Officer, Roblox


테크

올해 초 Roblox는 생성형 인공 지능(AI)에 대한 비전 모든 사용자가 크리에이터가 될 수 있도록 하는 직관적인 새 툴을 공개한 바 있습니다. 이러한 툴은 현재 업계 전반에 걸쳐 급속히 진화하고 있으며, Roblox도 예외는 아닙니다. 본 게시글에서는 Roblox가 그간 달성한 성과, 생성형 AI를 통한 작품 제작 과정을 민주화하기 위해 앞으로 나아갈 길, 생성형 AI가 Roblox의 향후 방향성에 있어 중요한 요소가 되는 이유 등에 대한 생각을 공유하고자 합니다.

생성형 AI와 대규모 언어 모델(LLM)의 발전은 안전을 유지하는 가운데 대규모의 연산 리소스 없이 더 쉽고 빠른 작품 제작을 가능하게 해 줌으로써, 몰입형 체험의 미래를 위한 놀라운 기회를 제공해 줍니다. 또한, 멀티모달, 즉 이미지, 코드, 텍스트, 3D 모델, 오디오 등 다양한 유형의 콘텐츠로 학습되는 AI 모델의 발전은 작품 제작 툴의 새로운 진보를 향한 문을 열어 줍니다. 이러한 모델은 텍스트 출력뿐만 아니라 텍스트를 보완하는 비주얼 요소를 제작할 수 있는 멀티모달 출력도 생성하기 시작했습니다. AI의 이러한 혁신은 경력 있는 크리에이터의 효율성을 높이는 동시에 더 많은 이들이 Roblox에서 각자의 아이디어를 현실화할 수 있는 엄청난 기회가 되어 줄 것입니다. 올해의 Roblox 개발자 회의(RDC)에서는 생성형 AI를 Roblox Studio 등에 도입함으로써 크리에이터가 보다 신속히 규모를 확장하고 반복 개선을 진행하며, 각자의 기술을 강화하고 더 나은 콘텐츠를 제작할 수 있도록 하는 새로운 툴이 공개되었습니다.

Roblox Assistant

Roblox는 크리에이터에게 몰입형 3D 체험을 구축하는 데 필요한 툴 및 서비스, 지원 제공해 왔습니다. 이와 동시에, 크리에이터들이 각자의 창작 활동에 타사의 생성형 및 대화형 AI를 사용하기 시작하는 것을 목격하기도 했습니다. 이러한 외부의 기성 버전은 크리에이터의 작업량을 줄이는 데는 유용하게 사용될 수 있지만, Roblox 엔드투엔드 워크플로를 위해 설계된 것은 아니며 Roblox 코드나 속어, 용어에 대해 훈련된 것도 아닙니다. 따라서 Roblox용 콘텐츠 제작에 이러한 버전을 사용하려면 상당한 추가 작업이 필요하게 됩니다. Roblox는 이러한 툴의 가치를 Studio에 통합하는 방법을 연구해 왔으며, 마침내 RDC에서 Assistant의 초기 사례를 공개하기에 이르렀습니다.

Assistant는 지루한 반복 작업에 소비되는 시간을 대폭 삭감해, 모든 기술 수준의 크리에이터가 내러티브, 게임 플레이, 체험 디자인 등 고부가 가치 활동에 더 많은 시간을 할애할 수 있도록 지원하는 대화형 AI입니다. Roblox는 AI 교육을 위한 대규모 공개 3D 모델에 대한 액세스, 플랫폼 API와 모델을 통합할 수 있는 능력, 점점 확장 중인 혁신적인 AI 솔루션 제품군 덕분에 몰입형 3D 세계의 제작을 위한 대화형 AI 모델을 구축할 수 있는 독보적인 위치를 차지하고 있습니다. 이곳에서 크리에이터는 자연어 텍스트 프롬프트를 사용해 각 장면을 만들고, 3D 모델을 편집하며, 개체에 대화형 동작을 적용할 수 있게 됩니다. Assistant는 다음과 같이 작품 제작의 3단계(학습, 코딩, 빌드)를 모두 지원할 예정입니다.

  • 학습: Roblox Assistant는 Roblox 개발을 막 시작한 크리에이터에서부터 베테랑 크리에이터를 위한 다양한 분야의 질문에 자연어로 대답합니다.
  • 코딩: Assistant는 최근 출시된 코드 지원 툴의 기능을 확장합니다. 예를 들어 Assistant에게 코드 개선, 코드 일부에 대한 설명, 디버깅 지원, 제대로 작동하지 않는 코드의 수정 제안 등을 요청할 수 있습니다.
  • 빌드: Assistant는 크리에이터가 새로운 아이디어의 프로토타입을 신속히 제작할 수 있도록 지원합니다. 예를 들어 초보 크리에이터들도 ‘Add some streetlights along this road.’ 또는 ‘Make a forest with different kinds of trees. Now add some bushes and flowers.’와 같은 프롬프트를 입력해 공간 전체를 생성하고 다양한 버전을 적용해 볼 수 있습니다.

Assistant를 이용한 작업은 협업적이고 상호작용적이면서도 반복적이므로, 크리에이터는 그에 따른 피드백을 제공해 올바른 솔루션을 제공하도록 할 수 있습니다. 마치 작품 제작 전문가와 파트너가 되어 작업을 진행하는 것처럼, 아이디어를 공유하며 올바른 결과를 얻을 때까지 시험해 볼 수 있는 것과 같습니다.

Assistant를 최고의 파트너로 만들기 위해 Roblox는 RDC에서 또 다른 사항을 공개했습니다. 바로 개발자가 자신의 익명화된 Luau 스크립트 데이터 제공에 옵트인할 수 있는 기능입니다. 이 스크립트 데이터는 코드 지원 및 Assistant와 같은 AI 툴이 보다 효율적인 코드를 제안하고 생성할 수 있도록 도와줍니다. 또한 개발자가 스크립트 데이터를 Roblox 외부에도 공유하기로 선택한 경우 제삼자가 사용할 수 있는 데이터 집합에 추가되므로, 해당 AI 채팅 툴을 통해 Luau 코드의 제안에 대한 훈련이 이루어져 결국 전 세계의 Luau 개발자가 그 혜택을 누릴 수 있게 됩니다.

Roblox는 본 건을 철저한 사용자 조사 및 최고 개발자와의 투명한 대화를 통해 옵트인 방식으로 설계했으며, 모든 참가자가 해당 프로그램에 수반되는 내용을 이해하고 동의할 수 있도록 지원할 것입니다. 스크립트 데이터 공유에 참여하는 이들에게는 감사의 뜻으로 커뮤니티 트레이닝 모델을 기반으로 하는 더욱 강력한 버전의 Assistant 및 코드 지원에 대한 액세스 권한이 부여됩니다. 옵트인하지 않은 사용자는 기존 버전의 ‘Assistant’ 및 ‘코드 지원’을 계속 이용할 수 있습니다.

더욱 쉬워진 아바타 제작

Roblox는 궁극적으로 매일 6,550만 명의 사용자가 진정한 의미의 자신을 표현하는 아바타를 사용할 수 있기를 원합니다. 최근에는 UGC 프로그램 멤버를 대상으로 아바타 신체 및 머리를 각각 만들고 판매할 수 있는 기능을 출시한 바 있습니다. 현 프로세스에는 Studio 또는 UGC 프로그램 액세스 및 상당히 높은 수준의 기술이 필요하며, 얼굴 표정, 신체 움직임, 3D 리깅 등의 작업에 수일의 기간이 소요됩니다. 따라서 아바타 제작에 시간이 오래 걸릴 뿐만 아니라 사용할 수 있는 옵션도 제한되어 있습니다. Roblox는 여기에서 좀 더 나아가고자 합니다.

Roblox에서 활동하는 모든 이들이 각자만의 표현력 있는 아바타를 이용할 수 있도록 하기 위해서는 아바타 생성 및 꾸미기 과정이 한층 더 간편해져야 할 필요가 있습니다. 이에 Roblox는 이번 RDC에서 2024년에 출시 예정인 새로운 툴을 공개했습니다. 바로 하나 또는 여러 개의 이미지를 사용해 맞춤형 아바타를 손쉽게 생성할 수 있는 기능으로, 본 툴을 이용하면 Studio 또는 UGC 프로그램에 액세스할 수 있는 크리에이터 누구나 각자의 이미지를 업로드하고 아바타를 만들어 원하는 대로 수정할 수 있게 됩니다. 장기적으로는 Roblox 체험 내에서도 직접 이 기능을 사용할 수 있도록 할 계획입니다.

이를 가능하게 하기 위해, Roblox의 아바타 스키마와 Roblox가 소유한 3D 아바타 모델 세트로 AI 모델 훈련 작업이 진행 중입니다. 한 가지 방법은 리서치를 활용해 2D 이미지로부터 3D 스타일 아바타를 생성하는 것입니다. 또한 제한적인 3D 훈련 데이터를 2D 생성 기술로 강화하기 위해 사전 훈련된 텍스트에서 이미지로의 확산 모델을 사용하거나, 훈련에 생성적 적대 신경망(Generative Adversarial Network, GAN) 기반 3D 생성 네트워크를 사용하는 방법도 검토하고 있습니다. 마지막으로 ControlNet을 사용하여 아바타의 멀티뷰 이미지로 안내하기 위해 미리 정의된 포즈를 레이어드하는 작업을 진행하고 있습니다.

본 프로세스는 아바타의 3D 메시를 생성해 줍니다. 다음으로 3D 시멘틱 세그멘테이션 연구를 활용해 3D 아바타 포즈를 훈련하고, 해당 3D 메시를 사용해 조정하며, 적절한 표정 기능, 케이징, 리깅, 텍스처를 추가함으로써 실질적으로 정적 3D 메시를 Roblox 아바타로 만듭니다. 마지막으로 메시 편집 도구를 사용하면 모델을 모핑하고 조정해 자신이 구상 중인 버전에 더욱 가까운 결과를 낼 수 있습니다. 이 모든 작업은 단 몇 분 안에 진행되므로, 사용자들은 새로이 생성된 아바타를 신속히 Roblox로 가져와 체험 내에서 사용할 수 있게 됩니다.

음성 커뮤니케이션 내용 검열

Roblox에게 AI란 단지 작품 제작을 위한 것이 아니라, 다양하고 안전하며 매너 있는 대규모 커뮤니티를 유지하기 위한 보다 효율적인 시스템이기도 합니다. 새로운 음성 기능(음성 채팅, 새로운 아바타 통화 기능 ‘Roblox Connect’, RDC에서 발표된 API 등)을 출시함에 따라 Roblox는 실시간 음성 언어 검열이라는 새로운 과제에 직면하게 되었습니다. 이에 대한 현재의 업계 표준은 자동 음성 인식(ASR)으로 알려져 있는 프로세스로, 기본적으로 오디오 파일을 가져와 이를 텍스트로 변환한 다음 분석해 부적절한 단어나 키워드 등을 찾는 방식입니다.

이러한 방식은 소규모 기업에는 적합합니다. 그러나 동일한 ASR 프로세스를 음성 커뮤니케이션 검열에 사용하는 방안을 검토한 결과, 오늘날의 Roblox에는 적용이 쉽지 않고 비효율적이라는 결론이 도출되었습니다. 또한 이 방식으로 인해 화자의 음성 크기와 음색, 그리고 대화의 더 넓은 맥락에서 암호화되는, 믿을 수 없을 만큼 귀중한 정보가 손실됩니다. 매일 다양한 언어로 전사되어야 하는 수백만 분의 대화 중에서 부적절한 내용처럼 들리는 경우는 극히 일부에 불과합니다. Roblox의 규모가 확장함에 따라 이러한 시스템을 유지하기 위해서는 점점 더 뛰어난 연산 성능이 필요합니다. 이에 Roblox는 실시간 음성으로부터 콘텐츠에 라벨을 지정해 정책 위반 여부를 표시하는 파이프 라인을 구축함으로써 보다 효율적인 수행 방안을 모색했습니다.

그 결과, ASR로 사내 음성 데이터 세트를 분류한 다음 분류된 음성 데이터를 사용해 시스템을 교육함으로써 사내 맞춤형 음성 감지 시스템을 구축할 수 있었습니다. 이 새로운 시스템을 훈련시키기 위해서는 음성으로 시작해 전사 내용을 생성해야 합니다. 그런 다음 Roblox 텍스트 필터 시스템으로 스크립트를 실행해 음성을 분류합니다. 본 텍스트 필터 시스템은 Roblox 정책을 위반하는 언어 감지에 탁월한 성능을 발휘하는데, 이는 지난 수년에 걸친 이용으로 인해 Roblox에서 정의된 속어, 약어, 전문 용어에 최적화된 상태이기 때문입니다. 이러한 훈련 단계를 거치고 나면 최종적으로 음성으로부터 실시간으로 직접 정책 위반을 감지할 수 있는 모델이 완성됩니다.

본 시스템은 욕설과 같은 특정 키워드를 감지할 수 있으나, 정책 위반의 판단이 단 한 단어의 감지로 해결되는 경우는 거의 없습니다. 특정 단어가 각 문맥이나 상황에 따라 문제가 될 수도, 되지 않을 수도 있기 때문입니다. 기본적으로 이러한 유형의 위반에는 발언의 내용, 말투, 해당 발언이 이루어지는 문맥이 관련되어 있습니다.

문맥에 대한 이해도를 높이기 위해서는 시퀀스 요약에 매우 뛰어난 트랜스포머 기반 아키텍처의 네이티브 파워가 활용됩니다. 이를 통해 음성 스트리밍과 같은 일련의 데이터를 받아 요약합니다. 본 아키텍처를 사용하면 더 긴 음성 시퀀스를 유지할 수 있어 단어뿐 아니라 문맥과 억양도 감지할 수 있습니다. 이러한 요소가 모두 갖추어지면, 입력은 음성이고 출력은 분류(정책 위반 여부)인 최종 시스템이 완성됩니다. 이 시스템은 키워드와 정책 위반 문구뿐만 아니라 의도를 판단하는 데 중요한 어조, 감정, 기타 문맥도 감지할 수 있습니다. 정책을 위반하는 대화를 음성으로부터 직접 감지하는 이 새로운 시스템은 기존 ASR 시스템보다 연산의 효율이 훨씬 높습니다. 따라서 사람들이 모이는 방식을 재구상하고자 하는 Roblox 비전의 구현 및 확장을 훨씬 더 용이하게 해 줄 것입니다.

또한 음성 커뮤니케이션 툴을 사용하는 사람들에게 이러한 언어로 인한 잠재적 결과에 대해 주의를 줄 수 있는 새로운 방법도 필요합니다. Roblox는 이 혁신적인 감지 시스템 활용에 힘입어, 안전한 환경을 유지하기 위해 사용자의 온라인 행동에 영향을 줄 수 있는 방법을 탐구하고 있습니다. 사람들은 의도치 않게 정책을 위반하는 경우가 있으므로, 이에 대한 알림을 제공해 추가 위반을 줄일 수 있는지를 파악하기 위함입니다. 알림을 통한 실시간 사용자 피드백 제공은 현재 실험 중에 있습니다. 시스템에서 정책 위반이 여러 번 감지되는 경우 이를 알리는 팝업이 화면에 표시되며 자세한 정보를 담은 정책 페이지로 안내됩니다.

그러나 음성 스트리밍 알림은 검열 시스템의 한 가지 요소에 불과합니다. 검열에 대한 전반적인 결정을 내리기 위해 Roblox는 플랫폼에서의 행동 패턴이나 다른 사람들의 불만 사항도 참고합니다. 이러한 것들이 데이터로 집계되면 음성 관련 기능이 정지되거나 심각한 위반의 경우 플랫폼 이용 자체가 완전히 금지되는 등 더욱 심각한 결과로 이어질 수 있습니다. 멀티모달 AI 모델, 생성형 AI, 대규모 언어 모델의 종합적인 발전에 따라 크리에이터에게 새롭고도 놀라운 툴 및 기능을 제공할 수 있게 되면서, 안전하고 매너 있는 커뮤니티를 지속적으로 유지하는 것은 Roblox에게 매우 중요한 과제라 할 수 있습니다.

Roblox에서 제공하는 크리에이터 전용 각종 툴은 막 제작을 시작한 크리에이터의 진입 장벽을 낮추고 경력 있는 크리에이터가 반복적인 프로세스의 지루한 작업에서 벗어날 수 있도록 해 줄 것입니다. 따라서 크리에이터는 이렇게 확보한 시간을 작품에 대한 세부 작업 및 아이디어 창출 등 창의적인 측면에 할애할 수 있게 됩니다. 이 모든 것에 대한 Roblox의 목표는 전 세계 모든 이들이 언제 어디서나 자신의 아이디어를 현실화할 수 있도록 하고, Roblox에서 이용 가능한 아바타, 아이템, 체험의 종류를 크게 늘리는 것입니다. 이를 위해 새로운 작품을 보호하는 데 도움이 되는 정보와 툴 또한 제공됩니다.

우리는 이미 놀라운 가능성을 꿈꾸고 있습니다. 예를 들어 누군가가 사진으로부터 직접 아바타 도플갱어를 만들 수 있다고 가정해 보겠습니다. 이들은 해당 아바타를 맞춤 설정해 키를 더 크게 만들거나 애니메이션 스타일로 렌더링할 수도 있습니다. 또는 Assistant에 자동차, 건물, 풍경을 추가하고, 조명 또는 바람 조건을 설정하거나 지형을 변경하도록 요청해 체험을 구축할 수도 있습니다. 그런 다음 Assistant와의 작업을 반복해 입력해 가는 것만으로 작품의 질을 개선할 수 있습니다. 사람들은 결국 Roblox가 제공하는 툴을 사용해 상상을 뛰어넘는 결과를 내어 놓을 것입니다.