版本历史

本页汇总 VoxCPM 各版本发布,包括特性对比、版本亮点与迁移建议。

快速对比

特性

VoxCPM 1.0

VoxCPM 1.5

VoxCPM 2

参数量

640M

800M

2B

音频输出

16kHz

44.1kHz

48kHz

语言

2(zh、en)

2(zh、en)

30

Patch 大小

2

4

4

LM token 速率

12.5Hz

6.25Hz

6.25Hz

最大序列长度

4096

4096

8192

Residual LM 融合

加法

加法

拼接 + 投影

DiT 条件输入

单 token(相加)

单 token(相加)

多 token(拼接)

参考音频

提示音频续写

提示音频续写

隔离参考通道

Voice Design

Style Control

SFT / LoRA

RTF(RTX 4090)

~0.17

~0.15

~0.3

架构组件(四阶段流水线、AudioVAE、Local DiT)的详细说明见 模型架构

VoxCPM 2

VoxCPM 2 是目前最新的大版本:一个在 236 万小时多语言数据上训练的 2B 参数模型。相较于 1.x 系列,它在规模、质量与可控性上都有显著提升。

主要特点:

  • 通过 AudioVAE V2 输出 48kHz 音频(非对称 16kHz 编码 → 48kHz 解码)

  • 支持 30 种语言的合成

  • Voice Design:用自然语言描述创建声线,无需参考音频

  • Style Control:通过文本标签控制克隆声音的情绪、语速与说话风格

  • 为声音克隆提供隔离式参考通道(无需配套转写文本)

  • Concat-Projection 式 Residual LM 融合,结合多 token DiT 条件输入,带来更强的表现力

  • 基于 MiniCPM-4 骨干

新项目建议优先使用 VoxCPM 2。它是多语言合成、声音克隆、Voice Design 与生产部署的默认推荐版本。

VoxCPM 1.5

VoxCPM 1.5 是 VoxCPM 2 之前 1.x 的最后一次升级。它在提升音质与效率的同时,保留原有 1.x 用户熟悉的上下文感知生成与零样本声音克隆流程。

主要特点:

  • 44.1kHz 输出

  • 6.25Hz 的 LM token 速率

  • patch 大小由 2 增至 4

  • 为既有 VoxCPM 1.0 用户提供更平滑的迁移路径

若你需要比 VoxCPM 2 体量更小的中英 checkpoint,同时又希望输出质量优于 VoxCPM 1.0,可选用 VoxCPM 1.5。

VoxCPM 1.0

VoxCPM 1.0 是初代无分词器 VoxCPM 发布版,仍可作为整个系列的基线参照,也适用于围绕原始 0.5B checkpoint 的早期实验。

主要特点:

  • 600M 参数量

  • 16kHz 输出

  • 原始 VoxCPM 架构发布

  • 早期 VoxCPM 结果的基准参照

若你需要体积最小的历史 checkpoint,或要与原始基线行为对比,可使用 VoxCPM 1.0。

迁移建议

  • 新项目 请从 VoxCPM 2 开始。

  • 既有 VoxCPM 1.0 用户 若希望走风险更低的 1.x 升级路径,一般应先迁到 VoxCPM 1.5。

  • 若你需要多语种合成、Voice Design、Style Control 或 48kHz 输出,请直接升级到 VoxCPM 2。

详细页面