VoxCPM 1.0

Hugging Face ModelScope 音频示例
  • 发布日期: 2025 年 9 月 16 日

  • 参数量: 600M

  • 采样率: 16kHz

备注

VoxCPM 1.0 为延续基线版本,用于兼容与历史参照。

概览

VoxCPM 是一种新颖的无分词器文本转语音(TTS)系统,在语音合成的真实感上做了重新定义。通过在连续空间中建模语音,它突破离散分词的局限,并具备两大核心能力:上下文感知语音生成与逼真的零样本声音克隆。

与将语音转为离散 token 的主流方法不同,VoxCPM 采用端到端扩散自回归架构,从文本直接生成连续语音表示。以 MiniCPM-4 为骨干,结合分层语言建模与 FSQ 约束,实现隐式的语义–声学解耦,显著提升表现力与生成稳定性。

模型架构

VoxCPM 1.0 架构

开始使用

安装、加载与通用 generate() 流程请从 快速开始 开始。

若你明确需要原始 0.5B VoxCPM 发布版且输出为 16kHz,请使用该 checkpoint。

基准表现

VoxCPM 在公开零样本 TTS 基准上取得有竞争力的结果:

Seed-TTS-eval 基准测试

模型

参数量

开源

test-EN

test-ZH

test-Hard

/

WER/%⬇

SIM/%⬆

CER/%⬇

SIM/%⬆

CER/%⬇

SIM/%⬆

MegaTTS3

0.5B

2.79

77.1

1.52

79.0

/

/

DiTAR

0.6B

1.69

73.5

1.02

75.3

/

/

CosyVoice3

0.5B

2.02

71.8

1.16

78.0

6.08

75.8

CosyVoice3

1.5B

2.22

72.0

1.12

78.1

5.83

75.8

Seed-TTS

/

2.25

76.2

1.12

79.6

7.59

77.6

MiniMax-Speech

/

1.65

69.2

0.83

78.3

/

/

CosyVoice

0.3B

4.29

60.9

3.63

72.3

11.75

70.9

CosyVoice2

0.5B

3.09

65.9

1.38

75.7

6.83

72.4

F5-TTS

0.3B

2.00

67.0

1.53

76.0

8.67

71.3

SparkTTS

0.5B

3.14

57.3

1.54

66.0

/

/

FireRedTTS

0.5B

3.82

46.0

1.51

63.5

17.45

62.1

FireRedTTS-2

1.5B

1.95

66.5

1.14

73.6

/

/

Qwen2.5-Omni

7B

2.72

63.2

1.70

75.2

7.97

74.7

OpenAudio-s1-mini

0.5B

1.94

55.0

1.18

68.5

/

/

IndexTTS2

1.5B

2.23

70.6

1.03

76.5

/

/

VibeVoice

1.5B

3.04

68.9

1.16

74.4

/

/

HiggsAudio-v2

3B

2.44

67.7

1.50

74.0

/

/

VoxCPM

0.5B

1.85

72.9

0.93

77.2

8.87

73.0

CV3-eval 基准测试

模型

zh

en

hard/zh

hard/en

/

CER/%⬇

WER/%⬇

CER/%⬇

SIM/%⬆

DNSMOS⬆

WER/%⬇

SIM/%⬆

DNSMOS⬆

F5-TTS

5.47

8.90

/

/

/

/

/

/

SparkTTS

5.15

11.0

/

/

/

/

/

/

GPT-SoVits

7.34

12.5

/

/

/

/

/

/

CosyVoice2

4.08

6.32

12.58

72.6

3.81

11.96

66.7

3.95

OpenAudio-s1-mini

4.00

5.54

18.1

58.2

3.77

12.4

55.7

3.89

IndexTTS2

3.58

4.45

12.8

74.6

3.65

/

/

/

HiggsAudio-v2

9.54

7.89

41.0

60.2

3.39

10.3

61.8

3.68

CosyVoice3-0.5B

3.89

5.24

14.15

78.6

3.75

9.04

75.9

3.92

CosyVoice3-1.5B

3.91

4.99

9.77

78.5

3.79

10.55

76.1

3.95

VoxCPM

3.40

4.04

12.9

66.1

3.59

7.89

64.3

3.74