版本历史¶
本页汇总 VoxCPM 各版本发布,包括特性对比、版本亮点与迁移建议。
快速对比¶
特性 |
VoxCPM 1.0 |
VoxCPM 1.5 |
VoxCPM 2 |
|---|---|---|---|
参数量 |
640M |
800M |
2B |
音频输出 |
16kHz |
44.1kHz |
48kHz |
语言 |
2(zh、en) |
2(zh、en) |
30 |
Patch 大小 |
2 |
4 |
4 |
LM token 速率 |
12.5Hz |
6.25Hz |
6.25Hz |
最大序列长度 |
4096 |
4096 |
8192 |
Residual LM 融合 |
加法 |
加法 |
拼接 + 投影 |
DiT 条件输入 |
单 token(相加) |
单 token(相加) |
多 token(拼接) |
参考音频 |
提示音频续写 |
提示音频续写 |
隔离参考通道 |
Voice Design |
— |
— |
✅ |
Style Control |
— |
— |
✅ |
SFT / LoRA |
✅ |
✅ |
✅ |
RTF(RTX 4090) |
~0.17 |
~0.15 |
~0.3 |
架构组件(四阶段流水线、AudioVAE、Local DiT)的详细说明见 模型架构。
VoxCPM 2¶
VoxCPM 2 是目前最新的大版本:一个在 236 万小时多语言数据上训练的 2B 参数模型。相较于 1.x 系列,它在规模、质量与可控性上都有显著提升。
主要特点:
通过 AudioVAE V2 输出 48kHz 音频(非对称 16kHz 编码 → 48kHz 解码)
支持 30 种语言的合成
Voice Design:用自然语言描述创建声线,无需参考音频
Style Control:通过文本标签控制克隆声音的情绪、语速与说话风格
为声音克隆提供隔离式参考通道(无需配套转写文本)
Concat-Projection 式 Residual LM 融合,结合多 token DiT 条件输入,带来更强的表现力
基于 MiniCPM-4 骨干
新项目建议优先使用 VoxCPM 2。它是多语言合成、声音克隆、Voice Design 与生产部署的默认推荐版本。
VoxCPM 1.5¶
VoxCPM 1.5 是 VoxCPM 2 之前 1.x 的最后一次升级。它在提升音质与效率的同时,保留原有 1.x 用户熟悉的上下文感知生成与零样本声音克隆流程。
主要特点:
44.1kHz 输出
6.25Hz 的 LM token 速率
patch 大小由 2 增至 4
为既有 VoxCPM 1.0 用户提供更平滑的迁移路径
若你需要比 VoxCPM 2 体量更小的中英 checkpoint,同时又希望输出质量优于 VoxCPM 1.0,可选用 VoxCPM 1.5。
VoxCPM 1.0¶
VoxCPM 1.0 是初代无分词器 VoxCPM 发布版,仍可作为整个系列的基线参照,也适用于围绕原始 0.5B checkpoint 的早期实验。
主要特点:
600M 参数量
16kHz 输出
原始 VoxCPM 架构发布
早期 VoxCPM 结果的基准参照
若你需要体积最小的历史 checkpoint,或要与原始基线行为对比,可使用 VoxCPM 1.0。
迁移建议¶
新项目 请从 VoxCPM 2 开始。
既有 VoxCPM 1.0 用户 若希望走风险更低的 1.x 升级路径,一般应先迁到 VoxCPM 1.5。
若你需要多语种合成、Voice Design、Style Control 或 48kHz 输出,请直接升级到 VoxCPM 2。
详细页面¶
VoxCPM 2 全文:VoxCPM 2
VoxCPM 1.5 全文:VoxCPM 1.5
VoxCPM 1.0 全文:VoxCPM 1.0