2,500달러 써서 1달러 번 천재의 최후… 소라(Sora)는 가고 클링(Kling)은 남은 이유!!

2026년 05월 17일

sora
sora

AI 영상 생성의 ‘전설’이 조용히 사라졌습니다

작별 인사도, 유언도 없었습니다. 한때 “AI 영상의 이정표”라 불리던 Sora(소라)가 조용히 역사 속으로 사라졌습니다.

도쿄 거리를 걷는 여성 영상 하나로 전 세계를 놀라게 했던 그 Sora가, 이제는 공식 URL조차 접속이 되지 않습니다. 등장부터 퇴장까지 고작 27개월. AI 영상 생성 시장이 수십억 달러 규모로 폭발적으로 성장하는 것을 지켜보면서도, 정작 그 시장을 열었던 Sora 자신은 살아남지 못했습니다.

반면 “Sora에 가장 가까운 모델”이라 불리던 Kuaishou(콰이쇼우)의 Kling AI(클링 AI)는 살아남았습니다. 아니, 살아남은 정도가 아니라 지금은 AI 영상 생성 분야에서 가장 돈을 잘 버는 모델 중 하나가 됐습니다. 2025년 1월 기준 Kling AI의 ARR(연간 반복 수익)은 이미 3억 달러(약 4,000억 원)를 돌파했고, 2026년에는 두 배 이상 성장이 예상됩니다.

그런데 흥미로운 건, 시장은 여전히 Kling에 냉담하다는 점입니다. Kuaishou의 주가는 지난해 고점 대비 반 토막이 났습니다. Sora는 죽었고, Kling은 살아있지만, 둘 다 어딘가 수렁에 빠진 것처럼 보입니다. 도대체 AI 영상 생성이라는 이 시장, 무슨 일이 벌어지고 있는 걸까요?

오늘은 영상 생성 AI의 대표 주자인(주자였던?) Sora와 Kling을 놓고 요 주제에 대해 한번 살펴보도록 하겠습니다.

전 세계에 충격을 선사했던 Sora의 도쿄 밤거리 여성 생성 이미지

Sora는 왜 실패했나 — 천재 감독의 비극

Sora와 Kling을 나란히 놓고 비교하면 흥미로운 장면이 연출됩니다. 같은 “경찰이 도망자를 쫓는” 장면을 생성했을 때, Sora는 인물이 벽을 통과하고 경찰이 오히려 도망자보다 앞서 달리는 황당한 영상을 만들어냈습니다. 반면 Kling은 화면이 다소 소박하더라도 “경찰이 도망자를 쫓는” 상황 자체는 충실하게 재현했습니다.

Sora는 마치 재능 넘치는 영화감독 같습니다. 프롬프트(사용자가 입력하는 지시문)를 자기 나름대로 해석해 창의적인 화면을 만들어내고, 빛과 구도의 질감도 탁월합니다. 그런데 정작 물리적인 움직임의 논리, 즉 “사람이 어떻게 달리는가”, “물체가 어떻게 움직이는가”에서는 어이없는 실수를 반복했습니다. 전체 생성 콘텐츠의 실제 사용 가능 비율이 5~10%에 불과했다는 분석도 있습니다.

더 큰 문제는 비용이었습니다. Sora는 영화 같은 화질을 구현하기 위해 초당 약 30장의 이미지를 렌더링하고, 기준에 미달하면 그냥 폐기합니다. 그 결과 초당 생성 비용이 Kling의 두 배에 달했습니다. Plus 구독자가 한 달에 영상을 16편 이상 만들면 구독료로 비용을 감당할 수 없는 구조였습니다. OpenAI는 평균 2,500달러를 투입해 겨우 1달러의 수익을 거뒀다는 분석도 나왔습니다.

물론 OpenAI가 Sora를 단순한 영상 생성 도구로만 만든 건 아니었습니다. OpenAI의 기술 보고서 《비디오 생성 모델은 세계 시뮬레이터다》를 보면, Sora의 진짜 목표는 AI가 현실 세계의 물리 법칙을 이해하도록 훈련 시키는 것이었습니다. “의자가 움직여도 형태가 변하지 않는다”는 식의 물리적 상식을 AI가 체득하게 만들고, 이를 통해 로봇이 가상 세계에서 물건 집기, 장애물 피하기 같은 동작을 연습할 수 있게 하는 것이 궁극적인 목표였습니다. 즉, Sora는 AGI(범용 인공지능)로 가는 징검다리였던 셈입니다.

하지만 그 원대한 꿈은 현실의 벽에 부딪혔습니다. ChatGPT가 경쟁자들에게 포위당하는 상황에서, OpenAI는 Sora에 쏟아붓던 컴퓨팅 자원을 다음 세대 대형 언어 모델로 돌려야 했습니다. 결국 IPO를 앞두고 Sora의 산소호흡기를 뽑아버린 것입니다.

Kling AI 공식 웹페이지

Kling은 어떻게 살아남았나 — “쓸 수 있는 AI”의 힘

Kling AI를 만든 Kuaishou는 우리나라에서는 다소 생소하지만, 중국에서는 틱톡(TikTok)의 모회사 바이트댄스와 숏폼 영상 시장을 양분하는 거대 플랫폼입니다. Kling은 처음에는 “누구나 머릿속의 영화를 찍을 수 있게 하자”는 B2C(일반 소비자 대상) 비전으로 출발했지만, 결국 B2B(기업 대상) 시장의 강자로 자리 잡았습니다.

Kling이 살아남은 핵심 이유는 “쓸 수 있는 AI”를 만들었다는 점입니다.

전문 콘텐츠 제작자들도 텍스트만으로는 원하는 장면을 정확히 묘사하기 어렵습니다. 특정 인물의 얼굴이나 복잡한 동작을 글로 설명하는 건 한계가 있으니까요. Kling은 이 문제를 해결하기 위해 MVL(멀티모달 비주얼 언어)이라는 기술을 개발했습니다. 사용자가 텍스트 대신 이미지나 영상으로 원하는 내용을 보충할 수 있게 한 것입니다. “이 사진의 인물이 주인공”이라고 지정하면, 시스템이 이를 AI가 이해할 수 있는 특수 신호로 변환해 생성 결과가 의도에서 벗어나지 않도록 합니다.

첫 프레임과 마지막 프레임을 지정하는 기능, 주체 라이브러리, 동작 제어 기능 등 Kling의 대표 기능들은 모두 이 “사용자 편의성 개선”이라는 방향에서 나왔습니다. 덕분에 AI 웹툰, 광고, 이커머스 영상 제작자들이 실제 업무에 Kling을 적극 활용하기 시작했습니다. Sora가 “언젠가 쓸 수 있을지도 모를 기술”이었다면, Kling은 “지금 당장 돈이 되는 도구”였던 것입니다.

또한 Kuaishou가 보유한 방대한 실제 영상 데이터가 Kling의 훈련에 활용됐다는 점도 중요합니다. Sora는 인터넷에 공개된 영상을 긁어모아 학습했지만, Kling은 Kuaishou 플랫폼의 실제 사용자 영상을 학습 데이터로 활용할 수 있었습니다. 이 차이가 생성 품질의 안정성에서 큰 격차를 만들었습니다.

Kling이 Kuaishou에게 얼마나 중요한가

Kling이 단순히 “잘 팔리는 AI 도구”에 그치지 않는 이유가 있습니다. Kuaishou 입장에서 Kling은 회사의 생존과 직결된 문제입니다.

Kuaishou는 2021~2025년 사이 일일 활성 사용자 증가율이 15.6%에서 2.8%로 급감했고, 월간 활성 사용자 증가율도 12.7%에서 2.1%로 쪼그라들었습니다. 이커머스 거래액 증가율은 78%에서 15%로 추락했습니다. 중국 숏폼 시장에서 바이트댄스의 더우인(Douyin, 틱톡의 중국판)에 밀려 사용자를 돈으로 사와야 하는 처지가 된 것입니다. 매년 수조 원에 달하는 사용자 획득 비용을 쏟아부어도 이탈률이 높은 악순환이 반복됐습니다.

이런 상황에서 Kling은 Kuaishou에게 새로운 성장 엔진이 됐습니다. 상업화를 시작한 지 1년 만에 월 수익이 1억 위안(약 190억 원)을 돌파했고, AI 추천 시스템 도입 후 사용자 7일 잔존율이 약 0.3%, 사용 시간이 약 1.4% 향상됐습니다. 광고 수익도 AI 모델 덕분에 2025년 4분기에 약 5% 성장했습니다.

그래서 Kuaishou는 2025년 206억 위안(약 3조 9,000억 원)의 영업이익을 올리면서도, 260억 위안(약 4조 9,000억 원)을 AI 영상 모델과 인프라에 쏟아붓는 공격적인 투자를 감행하고 있습니다. 이익을 내면서도 그 이상을 AI에 재투자하는 구조, 중국 빅테크 중에서도 이 정도 “베팅”을 하는 곳은 드뭅니다.

Kling도 안심할 수 없다 — “트레드밀 위의 선두 주자”

그런데 여기서 이야기가 끝나면 “Kling이 이겼다”는 단순한 결론이 됩니다. 현실은 그렇게 단순하지 않습니다.

2026년 초, Kling이 “동작 제어” 기능으로 전 세계적인 주목을 받은 지 불과 한 달 만에, 바이트댄스의 Jimeng(즉몽) Seedance 2.0이 등장해 모든 관심을 빼앗아 갔습니다. 그리고 얼마 지나지 않아 HappyHorse라는 신규 모델이 기술 순위 1위를 차지하며 Jimeng과 Kling을 동시에 밀어냈습니다. 흥미로운 건, 이 HappyHorse가 Kling 출신 개발자들이 알리바바로 이직 해 만든 모델이라는 점입니다.

2026년 AI 영상 경쟁의 현실은 이렇습니다. 1위 자리의 유효 기간이 불과 몇 주입니다. 각 회사가 주 단위로 돌아가며 1위를 차지합니다. 이것이 바로 “트레드밀 효과”입니다. 열심히 달려도 제자리인 러닝머신처럼, 아무리 앞서 나가도 경쟁자들이 금방 따라잡습니다.

왜 이런 일이 벌어질까요? AI 영상 생성 분야의 기술 구조가 거의 “공개된 패”이기 때문입니다.

대부분의 모델이 DiT(Diffusion Transformer) 아키텍처를 기반으로 합니다. 쉽게 말해, 핵심 기술 설계도가 공개되어 있어서 누구든 비슷한 수준의 모델을 만들 수 있습니다. 반도체 분야에서 TSMC가 2나노 공정을 독점하듯 진입 장벽을 쌓는 것이 불가능한 구조입니다.

데이터 측면에서도 한계가 있습니다. Kuaishou의 숏폼 영상 데이터는 세로형 단편 드라마 학습에는 유리하지만, 진짜 고품질 영화·드라마 소재는 할리우드와 각 제작사가 쥐고 있어 AI 영상 플랫폼들이 접근하기 어렵습니다.

사용자 충성도도 문제입니다. AI 영상 생성 도구들은 사용법이 대동소이해서 학습 비용이 거의 없습니다. “더 좋은 게 나오면 갈아타면 그만”인 구조입니다. 심지어 마음에 드는 영상을 한 번 만들었어도, 다음에 똑같이 재현하려면 처음부터 프롬프트를 다시 입력해야 합니다. 사용자를 플랫폼에 묶어둘 “스타일 라이브러리”나 “캐릭터 라이브러리” 같은 기능을 제대로 구현한 곳이 아직 없습니다.

결국 새로운 플레이어가 돈만 있으면 언제든 진입해 시장을 흔들 수 있는 구조입니다. Kling이 기술력도 있고 상업화도 앞서 있지만, 시장이 냉담한 이유가 바로 여기에 있습니다.

우리가 이 흐름을 주목해야 하는 이유

Sora의 퇴장과 Kling의 고군분투를 보면서 한 가지 분명해지는 것이 있습니다. AI 영상 생성 시장은 아직 누구도 완전히 장악하지 못한 전쟁터라는 사실입니다.

우리나라도 네이버, 카카오, 크래프톤 등 국내 기업들도 AI 영상 생성 분야에 투자하고 있고, 광고·웹툰·게임 등 콘텐츠 산업 전반이 이 기술의 영향권 안에 있긴 합니다만, 중국 기업들이 이미 연간 수천억 원을 쏟아부으며 기술 격차를 좁히고 있는 상황에서, 우리가 어떤 포지션을 취해야 할지 냉정하게 생각해볼 필요가 있습니다.

Sora의 기술 유산은 사라지지 않았습니다. 다른 모델들의 몸속으로 흡수되어 AI 영상의 물결을 계속 밀어 올리고 있습니다. Kling은 살아있지만, 트레드밀 위에서 쉬지 않고 달려야 하는 처지입니다. 이 경쟁에서 최후의 승자가 누가 될지는 아직 아무도 모릅니다.

한 가지 확실한 건, AI 경쟁은 어떤 플레이어도 편들지 않는다는 것입니다.

아무리 뛰어난 기술도, 아무리 앞선 상업화도, 가상의 세계가 현실 세계에 실질적인 가치를 만들어내지 못하면 결국 냉혹한 시장의 심판을 받게 됩니다.

Sora가 그 증거입니다.