중국 스카이워크AI의 '전방위 공세', 게임·영상·음악 모델 한번에 공개

중국 AI 기업 쿤룬 완웨이(昆仑万维)가 운영하는 ‘스카이워크AI(天工AI)’가 세계 모델, 영상 생성, 음악 생성 모델을 한꺼번에 공개했습니다. 이번 발표는 단순한 신제품 출시가 아니라, 중국 AI 기업이 ‘플랫폼 경제’로 전환하겠다는 전략적 선언이기도 합니다. 중국의 AI 기술이 어디까지 왔는지, 그리고 이들이 어떤 방향으로 나아가고 있는지 살펴보겠습니다.

Table of Contents

중관촌 포럼에서 공개된 ‘AIGC 풀패키지’

스카이워크AI는 지난 3월 27일 중국 국가급 과학기술 혁신 플랫폼인 중관촌 포럼에서 세 가지 핵심 모델을 동시에 발표했습니다. 게임 세계 모델 Matrix-Game 3.0, 영상 생성 모델 SkyReels V4, 음악 생성 모델 Mureka V9가 그 주인공입니다.

여기서 주목할 점은 발표 장소입니다. 중관촌 포럼은 중국 정부가 직접 주최하는 행사로, 이곳에서 AI 전용 세션을 열었다는 것 자체가 스카이워크AI가 중국 정부로부터 상당한 인정을 받고 있다는 의미로 해석됩니다. 단순한 기업 발표회가 아니라 국가 차원의 기술력 과시 무대였던 셈이죠.

스카이워크AI의 CEO 저우야후이(周亚辉)는 이날 발표에서 “AI는 이제 대규모 언어 모델(LLM) 도구 시대를 넘어 AI 네이티브 플랫폼 경제 시대로 진입하고 있다”고 강조했습니다. 그는 “모델은 엔진이고, 플랫폼은 공장이며, 창작자는 사장”이라는 비유를 들며, 앞으로는 개인 창작자들이 AI 플랫폼을 통해 자신의 창의력을 마음껏 발휘할 수 있는 시대가 온다고 설명했어요.

세계 모델 Matrix-Game 3.0: 실시간 상호작용이 가능한 가상 세계

먼저 게임 세계 모델인 Matrix-Game 3.0부터 살펴보겠습니다. 세계 모델(World Model)이란 AI가 현실 세계의 물리 법칙과 인과관계를 이해하고, 사용자의 행동에 따라 실시간으로 반응하는 가상 환경을 만들어내는 기술을 말합니다. 쉽게 말해, 게임 엔진처럼 작동하는 AI라고 보시면 됩니다.

Matrix-Game 3.0의 가장 큰 특징은 두 가지입니다.

첫째는 ‘장기 기억 능력’입니다. 기존 AI 영상 생성 모델들은 몇 초에서 십여 초 정도의 영상을 만들 수 있지만, 시간이 길어지면 장면이 변형되거나 물체가 갑자기 사라지는 등의 문제가 발생했어요. 하지만 Matrix-Game 3.0은 이전 프레임의 정보를 기억하고 참조하는 메모리 메커니즘을 도입해, 1분 이상의 긴 시퀀스에서도 일관성을 유지할 수 있습니다.

둘째는 ‘실시간 생성 능력’입니다. 이 모델은 720P 해상도에서 최대 초당 40프레임(FPS)의 속도로 영상을 생성할 수 있습니다. 이는 사용자가 키보드를 누르거나 시점을 이동하면 즉시 반응하는, 진짜 게임처럼 작동하는 수준이에요. 기존의 영상 생성 모델들이 ‘오프라인’에서 천천히 영상을 만들어내는 것과는 차원이 다른 접근입니다.

스카이워크AI는 이를 위해 추론 단계를 대폭 줄이고, 훈련 단계에서부터 모델이 장시간 실행될 때의 오차 누적을 미리 학습하도록 했습니다. 또한 생성 과정에서 스스로 오류를 수정하는 메커니즘도 추가했죠. 이런 기술적 개선을 통해 세계 모델은 단순한 ‘영상 생성기’에서 ‘상호작용 가능한 시스템’으로 진화했습니다.

영상 모델 SkyReels V4: 글로벌 1위 등극

영상 생성 모델 SkyReels V4는 지난주 Artificial Analysis의 텍스트-투-비디오(오디오 포함) 글로벌 순위에서 1위를 차지했습니다. OpenAI의 Sora 2, Google의 Veo 3.1 같은 쟁쟁한 경쟁자들을 제치고 정상에 오른 거죠.

SkyReels V4의 핵심 강점은 네 가지입니다.

첫째, 음성과 영상을 동시에 생성하는 ‘대칭 듀얼 스트림 MMDiT 아키텍처‘를 자체 개발했습니다. 기존 모델들은 영상을 먼저 만들고 나중에 음성을 덧붙이는 방식이었지만, SkyReels V4는 처음부터 음성과 영상을 함께 고려해 생성하기 때문에 립싱크(입 모양과 소리의 일치)가 훨씬 자연스럽습니다.

둘째, 제어 가능성이 뛰어납니다. 텍스트뿐만 아니라 이미지, 음성, 영상 등 다양한 형태의 입력을 받아들이고, 첫 프레임과 마지막 프레임, 움직임 궤적, 여러 장의 참고 이미지 등을 활용해 원하는 결과물을 정교하게 만들어낼 수 있어요. 마음에 들지 않는 부분이 있으면 처음부터 다시 만들 필요 없이, 해당 부분만 수정·추가·삭제할 수 있습니다.

셋째, 스토리텔링 능력입니다. 스카이워크AI는 강화학습(Reinforcement Learning)을 도입해 모델이 단순히 개별 프레임을 잘 만드는 것을 넘어, 전체 영상의 인과관계와 서사 구조를 이해하도록 훈련시켰습니다. 예를 들어, 5초짜리 정물 촬영부터 시작해 10초짜리 걷기 동작, 그리고 15초짜리 복잡한 스토리까지 단계적으로 학습하는 ‘계단식 커리큘럼 학습’ 방식을 사용했죠.

넷째, 상업화 가능성입니다. 아무리 성능이 좋아도 비용이 너무 높으면 실제로 쓸 수 없습니다. SkyReels V4는 저해상도에서 전체 구조를 잡고 고해상도에서 핵심 부분만 보완하는 방식으로 계산 비용을 기존의 3분의 1 수준으로 낮췄습니다. 현재 1080P, 32FPS, 15초 분량의 영상을 대규모로 생산할 수 있는 수준에 도달했어요.

실제로 SkyReels V4는 스카이워크AI의 해외 숏폼 드라마 플랫폼 DramaWave에서 이미 활용되고 있으며, API를 통해 외부 개발자들에게도 공개되었습니다.

음악 모델 Mureka V9: AI 음악을 새로운 장르로

음악 생성 모델 Mureka V9는 ‘만들 수 있다’에서 ‘원하는 대로 만들 수 있다’로 진화했습니다. 기존 AI 음악 모델들의 가장 큰 문제는 ‘뭔가 아쉽다’는 느낌이었어요. 가사가 제대로 배치되지 않거나, 감정의 고조가 자연스럽지 않거나, 강조해야 할 부분에서 힘이 빠지는 식이었죠.

Mureka V9는 자체 개발한 MusiCoT 기술을 더욱 최적화 해, 단락별 텍스트 제어, 생성 효율, 믹싱 품질, 전체적인 청감을 전방위로 개선했습니다. 이제 모델은 단순히 프롬프트에 따라 음악을 생성하는 것이 아니라, 실제 작곡가처럼 “이 부분에서는 무엇을 어떻게 노래해야 하고, 왜 이렇게 전개해야 하는지”를 이해하며 작업합니다.

흥미로운 점은 Mureka V9가 중국어, 영어, 프랑스어, 스페인어 등 4개 언어를 혼합한 곡도 자연스럽게 만들어낸다는 것입니다. 실제로 발표회에서 공개된 데모 곡은 여름의 나른한 분위기를 담은 다국어 곡이었는데, 언어 전환이 매우 자연스러웠다고 합니다.

Mureka의 이전 버전인 V8은 이미 Artificial Analysis 음악 모델 순위에서 1위를 차지했습니다. Suno V4.5, Udio v1.5 Allegro 같은 글로벌 주요 모델들을 제쳤죠. V9는 V8보다 더욱 개선된 버전이니, 그 성능은 더 말할 필요가 없을 것 같습니다.

스카이워크AI는 Mureka를 단순한 음악 생성 도구가 아니라, 재즈나 컨트리, 힙합처럼 하나의 독립적인 ‘음악 장르’로 자리매김시키려 하고 있습니다. 음악 창작이 더 이상 소수의 전문가만 할 수 있는 고비용 작업이 아니라, 누구나 일상적으로 자신의 감정을 표현하는 수단이 될 수 있다는 거죠. 이를 위해 스카이워크AI는 Mureka를 ‘AI 시대의 Spotify’로 만들겠다는 포부를 밝혔습니다.

3+1 전략: 모델에서 플랫폼으로

스카이워크AI가 이번에 세 가지 모델을 동시에 발표한 것은 단순한 우연이 아닙니다. 이들은 모두 스카이워크AI의 새로운 AGI(인공일반지능) 전략인 ‘3+1 아키텍처’의 일부입니다.

‘3+1’이란 무엇일까요? 먼저 ‘3’은 세 가지 AI 네이티브 플랫폼 경제체를 의미합니다. 게임 세계 모델은 새로운 AI 오픈월드 시뮬레이션 게임 플랫폼 ‘마오센학원(猫森学园)’으로, 영상 모델은 해외 유료 숏폼 드라마 플랫폼 DramaWave(‘AI판 Netflix’)로, 음악 모델은 AI 음악 창작 및 배포 플랫폼 Mureka(‘AI판 Spotify’)로 각각 구체화됩니다.

그리고 ‘1’은 Skywork Super Agents라는 통합 운영 체제입니다. 이는 창작자들이 콘텐츠를 만들고, PPT를 제작하고, 게시하고, 포스터를 디자인하고, 팔로워를 늘리고, 수익을 창출하는 전 과정을 AI가 도와주는 시스템이에요. 저우야후이 CEO는 이를 “1인 기업을 위한 옵티머스(Optimus, 테슬라의 휴머노이드 로봇)”라고 표현했습니다.

이 전략의 핵심은 ‘수렴’입니다. 스카이워크AI는 원래 6개 방향으로 사업을 전개하고 있었는데, 이를 4개의 핵심 모델(게임, 영상, 음악, 그리고 에이전트용 Skywork 6.0)과 3개의 플랫폼, 그리고 1개의 통합 시스템으로 압축한 것이죠. 이는 AI 기업이 단순히 ‘좋은 모델’을 만드는 것을 넘어, 그 모델들을 실제로 활용할 수 있는 ‘생태계’를 구축하는 단계로 진입했음을 의미합니다.

중국 AI 기업의 ‘플랫폼 전환’, 무엇을 의미하나

스카이워크AI의 이번 발표에서 가장 주목해야 할 부분은 바로 ‘플랫폼’이라는 키워드입니다. 지금까지 AI 업계의 경쟁은 크게 두 가지 방향으로 나뉘어 있었어요. 하나는 Midjourney나 Sora처럼 특정 분야에서 극한의 성능을 추구하는 것이고, 다른 하나는 여러 모달리티(텍스트, 이미지, 음성, 영상 등)를 통합해 하나의 시스템이나 플랫폼을 만드는 것입니다.

후자가 훨씬 어렵습니다. 모델 성능뿐만 아니라 아키텍처 설계, 엔지니어링 능력, 제품 형태, 생태계 구축까지 모든 것이 유기적으로 연결되어야 하거든요. 어느 한 부분이라도 삐걱거리면 전체 시스템이 무너질 수 있습니다.

스카이워크AI는 후자의 길을 선택했고, 이번 발표를 통해 그 첫 번째 결과물을 내놓은 셈입니다. 모회사인 쿤룬 완웨이가 2022년 ‘All in AGI와 AIGC’ 전략을 선언한 이후, 스카이워크AI는 꾸준히 ‘모델+제품’의 완전한 매트릭스를 구축해왔습니다. 현재 쿤룬 완웨이의 해외 서비스는 전 세계 100여 개국에서 월 평균 활성 사용자 약 4억 명을 기록하고 있으며, 해외 매출 비중이 92%에 달합니다.

이는 중국 AI 기업들이 이제 단순히 ‘기술력’만 자랑하는 단계를 넘어, 실제로 글로벌 시장에서 수익을 창출하는 ‘비즈니스 모델’을 구축하는 단계로 진입했음을 보여줍니다. 우리나라 입장에서는 경쟁자가 한층 더 강력해졌다는 의미이기도 하죠.

발표회 라운드테이블: 현장 전문가들의 시각

발표회 후 진행된 라운드테이블에서는 쿤룬 완웨이 회장 팡한(方汉), 텐센트 혼원3D 책임자 궈춘차오(郭春超), 난양이공대학교 부교수 류쯔웨이(刘子纬), QQ댄스 창립자 야오용(姚勇) 등이 ‘전모달 콘텐츠 혁명’을 주제로 토론을 벌였습니다.

팡한 회장은 “AIGC의 본질은 모든 사람이 창작의 문턱과 비용을 낮추는 것”이라며, “기술이 인간의 창작 능력에 근접해야만 창작자들이 실제로 사용하게 된다”고 강조했습니다. 그는 최근 화제가 된 Sora의 서비스 중단에 대해서도 “OpenAI는 능력의 경계가 어디인지 모른다”며, “콘텐츠 제품은 결국 사용자 수요로 돌아가야 한다”고 평가했어요.

궈춘차오는 ‘구체적인 실용화’의 두 가지 핵심 지표를 제시했습니다. 첫째는 생성 결과가 인간의 의도와 정확히 일치하는지, 즉 ‘말한 대로 이루어지는지’이고, 둘째는 에이전트 시스템의 실행 성공률과 비용이 지속적으로 낮아지는지입니다. 이 두 가지가 돌파되면 생산 방식 자체가 바뀔 것이라고 내다봤습니다.

류쯔웨이 교수는 “지난 2~3년간 다중모달의 발전은 본질적으로 기술과 수요의 양방향 견인”이었다고 분석했습니다. 한편으로는 대규모 언어 모델의 능력이 한계에 다다르면서 업계가 새로운 패러다임을 찾기 시작했고, 다른 한편으로는 시각과 청각 콘텐츠의 상업적 가치가 빠르게 확대되면서 모델 진화를 역으로 추진했다는 거죠.

야오용은 게임 업계의 관점에서 “게임은 항상 세 가지를 벗어날 수 없다: 신선함, 보기 좋음, 재미”라며, “AI는 이미 앞의 두 가지에서 효과를 발휘하기 시작했지만, 재미라는 것은 현재로서는 모델이 규모화해서 학습하기 매우 어렵다”고 지적했습니다.

이들의 대화에서 공통적으로 드러나는 것은, AI가 이제 ‘보조 도구’에서 ‘생산 과정의 참여자’, 나아가 ‘일부 생산 단계의 주도자’로 변화하고 있다는 점입니다. 그리고 이런 변화가 일어나려면 단일 기능만으로는 부족하고, 여러 모달리티가 통합된 플랫폼이 필요하다는 인식이 확산되고 있습니다.

글로벌 1위 그룹에 진입한 ‘만능형’ 중국 플레이어

스카이워크AI의 이번 발표가 업계에 던지는 메시지는 명확합니다. 글로벌 1위 그룹에 ‘만능형’ 중국 플레이어가 등장했다는 것이죠. 게임, 영상, 음악 세 분야 모두에서 세계 최고 수준의 모델을 보유한 기업은 현재 스카이워크AI가 거의 유일합니다.

물론 스카이워크AI가 최종적으로 성공할지는 아직 알 수 없습니다. 하지만 적어도 이들은 ‘먼저 플랫폼을 만들고 나중에 콘텐츠를 채운다’는 전통적인 실패 패턴을 피하고, ‘먼저 핵심 능력을 확보한 후 플랫폼으로 확장한다’는 역순의 전략을 택했습니다. 그리고 중관촌 포럼이라는 국가급 플랫폼에서 AI 전용 세션을 열 수 있었다는 것 자체가, 중국 정부로부터 상당한 인정과 지원을 받고 있다는 증거입니다.

중국 AI 기업들이 단순히 ‘기술 데모’를 넘어 실제 비즈니스 모델과 글로벌 생태계를 구축하는 단계로 빠르게 진입하고 있는 가운데, 특히 스카이워크AI처럼 여러 분야에서 동시에 최고 수준의 성능을 보이는 ‘풀스택’ 플레이어의 등장은, 향후 AI 산업의 경쟁 구도를 근본적으로 바꿀 수 있는 변수로 작용할 전망입니다.

중관촌 포럼에서 공개된 ‘AIGC 풀패키지’

세계 모델 Matrix-Game 3.0: 실시간 상호작용이 가능한 가상 세계

영상 모델 SkyReels V4: 글로벌 1위 등극

음악 모델 Mureka V9: AI 음악을 새로운 장르로

3+1 전략: 모델에서 플랫폼으로

중국 AI 기업의 ‘플랫폼 전환’, 무엇을 의미하나

발표회 라운드테이블: 현장 전문가들의 시각

글로벌 1위 그룹에 진입한 ‘만능형’ 중국 플레이어

Most recent

AI

지우개 달린 AI 등장? 틀리면 고쳐 그리는 바이트댄스 ‘GRN’의 소름 돋는 정체

AI

“코딩 몰라도 7일 만에 앱 출시?” 바이두 ‘미아오다 3.0’이 가져온 대충격

AI

2,500달러 써서 1달러 번 천재의 최후… 소라(Sora)는 가고 클링(Kling)은 남은 이유!!

ROBOT

중국 센스타임의 로봇 편의점 ‘SenseMartGo’, 자판기를 넘어 ‘손발’이 달린 로봇 편의점이 등장!!

ROBOT

중국 유니트리, 세계 최초 탑승형 변신 로봇 GD01 공개 (소름 주의)

AI

클링 AI IPO 추진, 몸값 27조 원의 역습! 모회사 시총 70% 집어삼킨 ‘AI 공룡’의 탄생

WEARABLE

Qwen AI 안경 S1, 드디어 ‘먼저 말 걸어주는’ AI로 진화했다

중국 스카이워크AI의 ‘전방위 공세’, 게임·영상·음악 모델 한번에 공개

중관촌 포럼에서 공개된 ‘AIGC 풀패키지’

세계 모델 Matrix-Game 3.0: 실시간 상호작용이 가능한 가상 세계

영상 모델 SkyReels V4: 글로벌 1위 등극

음악 모델 Mureka V9: AI 음악을 새로운 장르로

3+1 전략: 모델에서 플랫폼으로

중국 AI 기업의 ‘플랫폼 전환’, 무엇을 의미하나

발표회 라운드테이블: 현장 전문가들의 시각

글로벌 1위 그룹에 진입한 ‘만능형’ 중국 플레이어

Most recent