중국 로봇 AI 데이터 커뮤니티, 로봇 두뇌 경쟁은 진짜 데이터가 좌우한다

중국에서 로봇 산업의 핵심 인프라가 될 수 있는 움직임이 포착됐습니다. 바로 ‘구체화 인공지능(Embodied AI)’ 분야에서 중국 내 첫 오픈소스 데이터셋 커뮤니티가 출범한 것인데요. 로봇이 무대 위에서 춤추는 것과 실제 현장에서 일하는 것 사이의 간극을 메우기 위한 본격적인 움직임으로 보입니다.

Table of Contents

구체화 인공지능, 로봇의 ‘진짜 두뇌’를 만드는 기술

먼저 구체화 인공지능이 무엇인지 부터 짚고 넘어가야 할 것 같습니다. 구체화 인공지능이란 쉽게 말해 로봇이 물리적인 몸을 가지고 실제 세계에서 작업을 수행할 수 있도록 하는 인공지능 기술이에요. 챗GPT처럼 대화만 하는 AI가 아니라, 실제로 물건을 집고, 걷고, 복잡한 작업을 수행하는 로봇의 ‘두뇌’를 만드는 기술이라고 보시면 됩니다.

그런데 이 구체화 인공지능을 발전시키는 데 가장 중요한 것이 바로 ‘데이터’입니다. 특히 실제 로봇이 움직이면서 수집한 ‘진짜 데이터’가 핵심이라 할 수 있죠. 컴퓨터 시뮬레이션으로 만든 가짜 데이터로는 한계가 있기 때문입니다. 로봇이 실제 환경에서 부딪히는 수많은 변수들을 시뮬레이션만으로는 완벽하게 재현할 수 없거든요.

현재 중국의 구체화 인공지능 업계가 직면한 가장 큰 문제는 바로 이 고품질 진짜 데이터의 부족입니다. 각 기업들이 자체적으로 데이터를 수집하고 훈련 시키는 방식으로는 산업 전체의 발전 속도가 더딜 수밖에 없었죠.

중국 첫 구체화 인공지능 오픈소스 데이터 커뮤니티 출범

이런 문제를 해결하기 위해 최근 중국에서 첫 번째 구체화 인공지능 오픈소스 데이터셋 커뮤니티가 출범했습니다. 이 커뮤니티는 로봇 제조사인 러쥐(乐聚)가 주도하고, 상하이교통대학, 하얼빈공업대학, 동지대학 등 주요 대학들과 Unitree(宇树), 마이링보(蚂蚁灵波) 등 여러 로봇 기업들이 참여하는 산학연 협력 플랫폼입니다.

이 커뮤니티의 핵심 목표는 세 가지입니다.

첫째, 고품질 데이터와 도구를 오픈소스로 공개하는 것.
둘째, 개방적이고 공동으로 관리되는 커뮤니티 생태계를 구축하는 것.
셋째, 기술과 산업의 깊은 융합을 가속화하는 것이죠.

주목할 점은 이것이 단순히 데이터를 모으는 것을 넘어서, ‘수집-오픈소스-거래’라는 전체 체인을 구축하려 한다는 것입니다. 즉, 구체화 인공지능 산업이 지속 가능하게 발전할 수 있는 데이터 인프라를 만들겠다는 야심찬 계획인 셈이에요.

OpenLET 데이터셋, 촉각까지 담은 로봇 데이터의 새로운 기준

러쥐는 이번에 ‘OpenLET’이라는 데이터셋도 함께 공개했는데, 이게 상당히 흥미롭습니다. 전 세계 최초로 촉각 정보를 포함한 정교한 조작 데이터와 전신 고품질 운동 데이터를 결합한 데이터셋이거든요.

구체적으로 살펴보면, 손가락 끝에 6×12×10 크기의 압력 센서 배열을 통해 촉각 데이터를 수집합니다. 또한 손목 부분에서 3차원 힘과 3차원 토크를 측정하는 6축 힘 센서 데이터를 포함하는데, 정밀도가 ±0.5%에 달한다고 하네요. 전신 운동 측면에서는 41개 관절의 세밀한 제어 신호를 모두 담고 있습니다.

이 OpenLET 데이터셋은 산업, 상업, 가정 세 가지 주요 영역을 커버하며, 117가지 기본 기술을 포함하고 있어요. 누적 오픈소스 데이터는 60,000분이 넘고, 전체 플랫폼에서의 다운로드 수가 100만 회를 돌파했다고 합니다.

아직 초기 단계인 산업에서 100만 회가 넘는 다운로드는 상당히 의미 있는 숫자입니다. 개발자들이 실제 행동으로 이 데이터가 절실하게 필요하다는 것을 보여준 셈이죠.

진짜 데이터가 없으면 로봇은 무대 위에만 머문다

기사에서 가장 인상적인 표현이 있었습니다. “로봇이 가장 쉽게 주목 받는 순간은 무대 위에서지만, 실제 현장에 투입되면 곧바로 문제가 드러난다”는 것이죠. 그 근본 원인이 바로 ‘두뇌’ 능력의 부족이라는 겁니다.

합성 데이터나 시뮬레이션 데이터는 사전 훈련 단계에서 규모 확장에는 유리하지만, 로봇이 ‘Sim2Real'(시뮬레이션에서 현실로)의 간극을 넘어 실제 작업을 수행하려면 결국 진짜 데이터가 필수적입니다. 이것은 대체 불가능한 자원이에요.

중국의 구체화 인공지능 업계는 이제 각자 데이터를 수집하고 훈련하는 분산 된 탐색 단계에서, 체계적인 구축 단계로 빠르게 전환하고 있습니다. 소수 기업의 내부 역량이었던 데이터 인프라가 이제 전체 산업을 지탱하는 공공 기반으로 변모하고 있는 것이죠.

데이터 인프라가 구체화 인공지능 경쟁을 재편한다

구체화 인공지능 분야의 경쟁 논리가 바뀌고 있습니다. 누가 더 빠르게 고품질 진짜 데이터를 확보하고, 실제로 일할 수 있는 ‘두뇌’를 훈련 시키느냐가 다음 단계에서 주도권을 잡을 수 있는 핵심 요소가 되고 있어요.

데이터 기반 시설의 성숙도가 구체화 인공지능 산업화의 속도와 한계를 결정하는 핵심 변수로 떠오르고 있는 셈입니다. 중국이 이렇게 산학연이 협력하여 오픈소스 데이터 커뮤니티를 구축하는 것은, 로봇 산업의 기반을 다지는 전략적 움직임으로 볼 수 있습니다.

우리나라 입장에서도 이런 움직임을 주의 깊게 살펴볼 필요가 있습니다. 로봇 산업의 경쟁력은 결국 얼마나 많은 양질의 데이터를 확보하고 공유할 수 있느냐에 달려 있기 때문이죠. 중국이 국가 차원에서 이런 인프라를 빠르게 구축해 나가는 동안, 우리는 어떤 준비를 하고 있는지 되돌아볼 시점입니다.