3D 디지털 휴먼이 사람처럼 보이지 않는 궁극적인 이유 3가지!! SentiAvatar가 해결한다!!

2026년 04월 16일

SentiAvatar

디지털 휴먼이 겪고 있는 진짜 문제

3D 디지털 휴먼 산업이 이상한 방향으로 흘러가고 있습니다. 업계 전체가 “얼마나 사람처럼 보이는가”라는 외모 경쟁에만 몰두하고 있는 상황이죠. 하지만 정작 중요한 문제는 다른 곳에 있습니다. 아무리 정교한 3D 모델링과 사실적인 렌더링 기술을 자랑해도, 사용자들이 장기적으로 깊이 있는 상호작용을 하게 만드는 핵심 요소가 되지는 못한다는 점입니다.

디지털 휴먼 산업의 발전을 가로막는 진짜 장벽은 시각적으로 “사람 답지 않다”는 게 아닙니다. 진짜 문제는 인간과 비슷한 자연스러운 표현 능력과 유연한 동작을 구현하지 못한다는 점이에요. 많은 디지털 휴먼들이 입은 움직이고 손은 흔들지만, 정작 몸의 동작은 대화 내용과 전혀 맞지 않고, 얼굴 표정은 말하는 내용의 감정과 완전히 동떨어져 있습니다. 이런 뼛속까지 느껴지는 기계적인 느낌과 어색함이 사람과 디지털 휴먼 사이의 감정적 연결과 깊이 있는 상호작용 가능성을 완전히 차단해버리는 거죠.

디지털 휴먼

업계가 넘지 못하는 세 가지 벽

실제 인간의 소통에서 70% 이상의 정보와 감정은 비언어적 신호에 담겨 있습니다. 어깨를 으쓱하는 무력감, 눈썹을 치켜올리는 의심의 표현 같은 미세한 디테일이야말로 대화의 진짜 영혼이라고 할 수 있어요. 하지만 현재 업계는 세 가지 큰 병목 현상에 직면해 있습니다.

첫째, 대화 환경에서 고품질 데이터가 턱없이 부족합니다. 특히 전신 동작을 포함하는 고품질 데이터셋은 거의 존재하지 않는 수준이죠.

둘째, 복합적인 의미를 담은 대화에서 동작이 어긋나는 문제가 있습니다. 감정이 섞인 복잡한 표현을 마주하면 모델의 의미 이해 능력이 급격히 떨어지는 거예요.

셋째, 음성과 화면의 리듬이 맞지 않습니다. 동작이 기계적으로 딱딱하고, 음성의 강세나 쉼표와 전혀 맞물리지 않는 문제가 있습니다.

이 세 가지 족쇄가 디지털 휴먼을 “미리 짜인 대본을 재생하는 기계”라는 위치에 가둬두고 있습니다. “말할 수 있다”, “움직일 수 있다”에서 “소통을 이해한다”로 나아가는 결정적인 한 걸음을 내딛지 못하고 있는 거죠.

중국의 AI 스타트업 SentiPulse(思维光谱)가 중국인민대학교 가오링 인공지능학원과 손잡고 이런 병목을 돌파할 솔루션을 내놓았습니다. 바로 SentiAvatar라는 상호작용형 3D 디지털 휴먼 프레임워크입니다.

전 세계를 대상으로 오픈소스로 공개된 이 3D 동작 생성 완전 솔루션은 디지털 휴먼이 미리 설정된 동작의 틀에서 벗어나, 대화 맥락과 감정에 맞는 자연스러운 실시간 상호작용을 구현하도록 만들었습니다. 말 그대로 “줄에 매달린 꼭두각시” 같은 상호작용에서 벗어나게 해주는 기술이에요.

중국 최초의 상호작용형 3D 디지털 휴먼 프레임워크

SentiAvatar는 업계의 근본적인 문제점을 겨냥해 3D 동작 생성의 새로운 패러다임을 만들어냈습니다.

데이터 기반 측면에서 보면, SuSuInterActs라는 데이터셋을 구축했습니다. 이 데이터셋은 SUSU라는 단일 캐릭터(22세, 온화하고 활발하며 감정이 풍부한 성격)를 중심으로 만들어졌어요. 2만 1천 개의 세그먼트, 총 37시간 분량의 다중 모달 대화 자료를 담고 있으며, 동기화된 음성, 행동 주석 텍스트, 전신 동작, 얼굴 표정을 모두 포함합니다. 이는 중국어 고품질 데이터의 공백을 메우는 중요한 성과라고 할 수 있습니다.

시나리오의 제약을 깨고 디지털 휴먼 상호작용을 “대본화”에서 벗어나게 하기 위해, 연구팀은 사전 학습 단계에서 자체 개발한 Motion Foundation Model(동작 기초 모델)을 도입했습니다. 20만 개 이상의 이질적인 동작 시퀀스(약 676시간 분량)로 학습시켜 범용 운동 사전 지식을 구축했고, 이를 통해 디지털 휴먼의 능력이 단순 대화 시나리오를 훨씬 뛰어넘게 되었습니다.

혁신적인 이중 채널 병렬 아키텍처

SentiAvatar의 가장 혁신적인 부분은 plan-then-infill(계획 후 채우기) 방식의 이중 채널 병렬 아키텍처입니다. 동작을 생성할 때 신체 동작과 얼굴 표정을 분리해서 처리하는 방식이에요. 먼저 “어떤 동작을 할 것인가”를 계획한 다음, “프레임별로 어떻게 실행할 것인가”를 채워 넣는 방식으로 전체 동작 생성 효과를 훨씬 부드럽게 만들었습니다.

구체적으로 설명하면,

첫 번째 단계에서는 대규모 언어 모델(LLM) 기반의 의미 계획기가 행동 레이블 텍스트와 희소 오디오 토큰을 받아서 희소 키프레임 동작 토큰 시퀀스를 출력합니다. 여러 차례에 걸친 연속 생성을 지원하기 위해, 모델은 이전 문장의 마지막 두 키프레임 오디오-동작 토큰 쌍을 문맥 접두사로 사용해 다음 키프레임 위치부터 이어서 작성하는 방식으로 문장 간 끊김 없는 전환을 구현했습니다.

두 번째 단계에서는 Body Infill Transformer가 인접한 키프레임 사이에 중간 3개 프레임을 채워 넣습니다. 프레임별 HuBERT 연속 특징(768차원, 20FPS)을 조건 신호로 사용하죠. 모델은 5프레임 슬라이딩 윈도우를 채택해 처음과 끝 프레임이 알려진 상태에서 중간 3프레임(12개 동작 토큰)을 예측합니다. 추론 시에는 반복적 신뢰도 디코딩 전략(기본 6단계)을 사용해 높은 신뢰도의 예측을 점진적으로 수용하면서 일회성 예측의 품질 저하를 방지합니다.

국제 최고 수준의 성능 입증

권위 있는 실험 결과에 따르면, SentiAvatar는 자체 구축한 SuSuInterActs 데이터셋과 업계 표준인 BEATv2 데이터셋 모두에서 여러 핵심 지표가 현재 국제 최고 수준(SOTA)에 도달했으며, 업계 주요 모델들을 전면적으로 앞서는 성능을 보여줬습니다.

자체 구축한 SuSuInterActs 테스트셋에서 SentiAvatar의 텍스트-동작 검색 재현율 R@1은 43.64%에 달해, 업계 차선 기준선의 거의 2배에 달하는 수치를 기록했습니다. 데이터셋과 언어를 넘나드는 BEATv2 평가셋에서는 FGD 4.941, BC 8.078의 성적으로 두 지표 모두에서 SOTA 기록을 동시에 갱신했습니다. 이전 업계 최고 솔루션을 뛰어넘으며 모델의 교차 시나리오, 교차 언어 일반화 능력을 충분히 검증한 셈이죠.

자체 개발한 고품질 데이터셋, 동작 기초 모델, 핵심 아키텍처를 기반으로 SentiAvatar는 0.3초 내에 6초 분량의 동작 시퀀스를 생성할 수 있으며, 무한 라운드의 스트리밍 상호작용을 지원합니다. 이는 디지털 휴먼이 실시간 대화 중에 연속적으로 일관된 동작과 표정을 생성할 수 있다는 의미입니다. 문장 전체가 끝날 때까지 기다렸다가 일괄 처리할 필요가 없어, 디지털 휴먼의 “상호작용 끊김” 문제를 직접적으로 해결할 수 있게 되었습니다.

오픈소스로 공개된 차세대 디지털 생명체

SentiAvatar는 이미 GitHub 오픈소스 플랫폼에 정식으로 공개되어 전 세계 연구 기관과 개발자들에게 전면 개방되었으며, 관련 기술 보고서도 arXiv에 동시 발표되었습니다. 개발자들은 이 오픈소스 프레임워크를 기반으로 저비용으로 자신만의 3D 디지털 휴먼을 제작할 수 있으며, 게임 상호작용, 영상 제작, 로봇 등의 분야로 응용을 확장할 수도 있습니다.

디지털 휴먼이 더 이상 차갑고 기계적인 상호작용 도구가 아니라, 당신의 얼굴 표정이 담고 있는 함축적 의미를 읽고 똑같이 희소한 감정적 가치를 피드백할 수 있게 된다면 어떨까요? 맥락을 감지하고, 감정을 이해하며, 능동적으로 표현하는 상호작용 주체로 변모한다면, 차세대 “디지털 생명체”의 탄생이 머지않았다고 볼 수 있습니다.

중국이 디지털 휴먼 기술의 핵심 병목을 하나씩 돌파하며 실용화 단계로 빠르게 진입하고 있다는 점은, 메타버스와 AI 상호작용 분야에서 기술 격차가 좁혀지고 있음을 보여주는 신호입니다. 단순히 기술적 성과를 넘어, 이런 오픈소스 전략이 글로벌 개발자 생태계를 어떻게 재편할지도 지켜볼 필요가 있겠습니다.