版本历史¶

本页汇总 VoxCPM 各版本发布，包括特性对比、版本亮点与迁移建议。

快速对比¶

特性	VoxCPM 1.0	VoxCPM 1.5	VoxCPM 2
参数量	640M	800M	2B
音频输出	16kHz	44.1kHz	48kHz
语言	2（zh、en）	2（zh、en）	30
Patch 大小	2	4	4
LM token 速率	12.5Hz	6.25Hz	6.25Hz
最大序列长度	4096	4096	8192
Residual LM 融合	加法	加法	拼接 + 投影
DiT 条件输入	单 token（相加）	单 token（相加）	多 token（拼接）
参考音频	提示音频续写	提示音频续写	隔离参考通道
Voice Design	—	—	✅
Style Control	—	—	✅
SFT / LoRA	✅	✅	✅
RTF（RTX 4090）	~0.17	~0.15	~0.3

架构组件（四阶段流水线、AudioVAE、Local DiT）的详细说明见模型架构。

VoxCPM 2 是目前最新的大版本：一个在 236 万小时多语言数据上训练的 2B 参数模型。相较于 1.x 系列，它在规模、质量与可控性上都有显著提升。

主要特点：

新项目建议优先使用 VoxCPM 2。它是多语言合成、声音克隆、Voice Design 与生产部署的默认推荐版本。

VoxCPM 1.5 是 VoxCPM 2 之前 1.x 的最后一次升级。它在提升音质与效率的同时，保留原有 1.x 用户熟悉的上下文感知生成与零样本声音克隆流程。

主要特点：

若你需要比 VoxCPM 2 体量更小的中英 checkpoint，同时又希望输出质量优于 VoxCPM 1.0，可选用 VoxCPM 1.5。

VoxCPM 1.0 是初代无分词器 VoxCPM 发布版，仍可作为整个系列的基线参照，也适用于围绕原始 0.5B checkpoint 的早期实验。

主要特点：

若你需要体积最小的历史 checkpoint，或要与原始基线行为对比，可使用 VoxCPM 1.0。