이제 유료 TTS 쓰지 마세요! 샤오미 OmniVoice로 600개 언어 무료 더빙

스마트폰 제조사로 잘 알려진 샤오미가 이번엔 AI 음성 기술 분야에서 꽤 놀라운 카드를 꺼내 들었습니다.

2026년 5월 7일, 샤오미 AI 실험실이 OmniVoice라는 다국어 음성 합성(TTS) 모델을 공개하고 오픈소스로 전격 공개했는데요. 단순한 음성 합성 기술이 아니라, 무려 600여 개 언어를 하나의 모델로 처리할 수 있다고 주장하고 있어 업계의 이목이 집중되고 있습니다.

TTS(Text-to-Speech)란 텍스트를 사람의 목소리처럼 읽어주는 기술입니다. 내비게이션 안내 음성, AI 스피커, 유튜브 자동 더빙 등 우리 일상 곳곳에 이미 녹아 있는 기술이죠. 그런데 샤오미가 이번에 공개한 OmniVoice는 그 수준을 한 단계 끌어올렸다는 평가를 받고 있습니다.

Table of Contents

OmniVoice란 무엇인가? — 600개 언어를 품은 음성 복제 모델

OmniVoice는 샤오미 AI 실험실 내 ‘차세대 Kaldi 팀’이 개발한 다국어 음성 합성 모델입니다. Kaldi는 원래 음성 인식 분야에서 오랫동안 사용되어 온 오픈소스 프레임워크인데, 샤오미가 이 팀을 중심으로 TTS 기술을 새롭게 발전시킨 것입니다.

샤오미 측의 공식 발표에 따르면, OmniVoice는 업계 최초로 수백 개 언어를 커버하는 음성 복제 TTS 모델이라고 합니다. 중국어와 영어 같은 주요 언어에서는 최고 수준의 성능을 보이고, 사용자가 거의 생각할 수 있는 모든 언어를 이 하나의 모델로 합성할 수 있다고 강조하고 있습니다.

특히 주목할 점은 학습 데이터가 10시간도 채 안 되는 소수 언어에서도 고품질 음성 합성이 가능하다는 것입니다. 세상에는 수천 개의 언어가 존재하지만, 대부분의 AI 음성 기술은 데이터가 풍부한 영어, 중국어, 스페인어 등 주요 언어에만 집중되어 있었습니다. OmniVoice는 이런 ‘소외된 언어’들에서도 작동한다는 점에서 기술적으로 의미 있는 시도라고 볼 수 있습니다.

핵심 기술 구조 — 왜 이게 특별한가?

OmniVoice에서 가장 눈에 띄는 기술적 특징은 극도로 단순한 모델 구조입니다.

기존의 TTS 모델들은 텍스트를 분석하는 부분, 음성 특징을 추출하는 부분, 실제 음성을 생성하는 부분 등 여러 단계로 나뉘어 복잡하게 구성되어 있었습니다. 그런데 OmniVoice는 단 하나의 양방향 Transformer 네트워크만으로 텍스트에서 음성까지 직접 변환합니다.

Transformer는 현재 AI 분야에서 가장 널리 쓰이는 핵심 구조로, ChatGPT 같은 대형 언어 모델의 기반이기도 합니다. OmniVoice는 이 구조를 음성 합성에 최대한 단순하게 적용해, 별도의 텍스트 모델링도 없고, 복잡한 혼합 구조도 없으며, 여러 단계의 토큰 예측도 없는 현존 가장 단순한 비자기회귀(Non-Autoregressive) TTS 모델이라고 공식 소개하고 있습니다.

비자기회귀 방식이란 쉽게 말해, 음성을 한 글자씩 순서대로 만드는 게 아니라 한꺼번에 병렬로 생성하는 방식입니다. 덕분에 속도가 훨씬 빠르죠. 실제로 OmniVoice는 PyTorch 환경에서 실시간 대비 40배 속도로 음성을 생성할 수 있다고 합니다. 즉, 1초 짜리 음성을 만드는 데 0.025초밖에 걸리지 않는다는 뜻입니다.

두 가지 핵심 설계 — 성능을 끌어올린 비결

샤오미는 OmniVoice의 높은 성능 뒤에 두 가지 핵심 설계가 있다고 밝혔습니다.

1. 전체 코드북 랜덤 마스킹 전략

첫 번째는 ‘전체 코드북 랜덤 마스킹(Full Codebook Random Masking)’ 전략입니다. 코드북이란 음성의 특징을 숫자 코드로 압축해 저장한 일종의 ‘음성 사전’이라고 생각하면 됩니다. 이 코드들을 학습 과정에서 무작위로 가려두고 모델이 스스로 추론하게 만드는 방식인데, 이를 통해 모델의 학습 효율이 크게 향상되고 전반적인 성능이 올라간다고 합니다.

2. 대형 언어 모델(LLM) 사전 학습 파라미터 활용

두 번째는 더욱 흥미롭습니다. 대형 언어 모델(LLM)의 사전 학습된 파라미터를 TTS 모델에 처음으로 도입한 것입니다. LLM은 방대한 텍스트 데이터를 학습해 언어의 맥락과 의미를 깊이 이해하는 AI 모델인데, 이 지식을 음성 합성에 활용함으로써 발음 정확도가 크게 향상되었다고 합니다. 특히 기존 TTS 모델들이 자주 틀리던 ‘읽기 어려운 단어나 고유명사’ 문제를 해결하는 데 효과적이라고 강조하고 있습니다.

OmniVoice의 실용 기능들 — 실제로 어떻게 쓸 수 있나?

OmniVoice는 기술적 성능 외에도 실생활에서 바로 활용할 수 있는 다양한 기능을 갖추고 있습니다.

① 자유로운 음색 커스터마이징

참고 음성 파일 없이도 성별, 나이, 음조, 방언, 억양 등 원하는 음색의 특성을 텍스트로 설명하면 그에 맞는 목소리를 생성해 줍니다. 심지어 속삭이는 목소리 같은 특수한 스타일도 지원한다고 합니다.

② 잡음 환경에서도 음성 복제 가능

실제 사용 환경에서는 참고 음성의 음질이 좋지 않은 경우가 많습니다. OmniVoice는 잡음이 섞인 음성에서도 자동으로 노이즈를 걸러내고 음색 특징을 추출해, 시끄러운 환경에서 녹음 된 음성도 고품질로 복제할 수 있다고 합니다.

③ 감정과 뉘앙스 표현

웃음소리, 한숨 등의 감정 표현 기호를 삽입하면 합성 음성에 자연스러운 감정이 담깁니다. 단순히 텍스트를 읽어주는 수준을 넘어 실제 사람처럼 대화하는 느낌을 줄 수 있다는 점이 흥미롭습니다.

④ 발음 오류 수정 기능

중국어와 영어에서 자주 발생하는 다음자(多音字, 같은 글자인데 상황에 따라 발음이 다른 경우)나 고유명사의 잘못된 발음을 사용자가 직접 교정할 수 있습니다. 이는 실제 서비스에 적용할 때 매우 중요한 기능입니다.

성능 검증 — 오픈소스 데이터만으로 상용 시스템을 넘었다?

샤오미가 공개한 테스트 결과는 꽤 인상적입니다. 오픈소스 데이터만으로 학습했음에도 불구하고, 24개 언어 테스트에서 음성 유사도와 이해도 모두 여러 상용 시스템을 뛰어넘었다고 합니다. 또한 102개 언어 테스트에서는 음성 이해도가 실제 사람의 목소리에 근접하거나 오히려 더 높은 수준을 보였다고 밝혔습니다.

학습 속도 면에서도 하루 만에 10만 시간 분량의 음성 데이터를 학습할 수 있다고 하니, 이 정도면 상당한 수준의 효율성이라고 할 수 있습니다.

물론 이 수치들은 샤오미 자체 발표 기준이라는 점을 감안해야 합니다. 독립적인 제3자 검증이 이루어지기 전까지는 어느 정도 비판적인 시각을 유지하는 것이 좋습니다. 다만 논문과 코드가 모두 공개되어 있어, 전 세계 연구자들이 직접 검증할 수 있다는 점은 긍정적입니다.

오픈소스 공개의 의미 — 한국에도 영향이 있을까?

이번 OmniVoice 공개에서 주목해야 할 또 하나의 포인트는 완전한 오픈소스 공개라는 점입니다. 논문(arXiv), 학습 및 추론 코드(GitHub), 음성 샘플 데모 페이지, 그리고 코드 없이 바로 사용해볼 수 있는 Hugging Face 데모까지 모두 공개되어 있습니다.

이는 단순히 기술을 자랑하는 것이 아니라, 전 세계 개발자들이 이 기술을 기반으로 다양한 서비스를 만들 수 있도록 생태계를 넓히겠다는 전략으로 읽힙니다. 실제로 오픈소스로 공개된 AI 모델들은 빠르게 다양한 서비스에 통합되어 확산되는 경향이 있습니다.

우리나라 입장에서도 이 기술은 무관하지 않습니다. 한국어는 전 세계적으로 보면 사용자 수가 많지 않은 편에 속하는데, OmniVoice가 주장하는 것처럼 소수 언어에서도 고품질 음성 합성이 가능하다면, 한국어 TTS 서비스 개발에도 활용될 가능성이 있습니다. 또한 국내 AI 음성 기술 기업들 입장에서는 무료로 공개된 고성능 경쟁 모델이 등장한 셈이라, 기술 경쟁이 더욱 치열해질 수 있습니다.

샤오미는 스마트폰, 가전, IoT 기기에 이어 이제 AI 음성 기술 분야에서도 존재감을 드러내고 있습니다. 하드웨어 기업이라는 이미지가 강했던 샤오미가 AI 소프트웨어 기술에서도 이 정도 수준의 결과물을 내놓는다는 것은, 중국 IT 기업들의 AI 기술 투자가 얼마나 광범위하고 빠르게 이루어지고 있는 지를 잘 보여주는 사례라고 할 수 있습니다.

앞으로 OmniVoice가 실제 서비스에 어떻게 적용되고, 제3자 검증에서 어떤 평가를 받을지 지켜볼 필요가 있습니다.