VoxCPM 文档¶

一个高保真的语音合成工具包，以连续空间扩散自回归建模为核心，为你的应用带来真实自然、富有表现力的声音。

开始使用

查看 GitHub

🌟 核心特性¶

🌍 30 语种多语言生成 - 支持 30 种语言，绝大多数情况下直接输入目标语言文本即可，无需额外标注语言。
🎨 声音设计 - 无需参考音频，只靠自然语言描述就能创建一把全新的声音。
🎛️ 可控声音克隆 - 用一段简短的参考音频克隆音色，同时还能继续调节情绪、语速与风格，并尽量保留原始音色特征。
🎙️ 高保真克隆 - 若同时提供参考音频及对应转写，模型就能更自然地承接参考语音，在音色、节奏、情绪与风格上保留更多细节。
🔊 48kHz 高品质音频 - 支持输入 16kHz 参考音频，并通过 AudioVAE V2 的非对称编解码直接输出 48kHz 高品质音频，内置超分能力，无需额外上采样器。
🧠 理解语境的语音生成 - 能根据文本内容自动推断更合适的韵律与表达，让生成结果更自然，也更贴合语境。
⚡ 实时流式生成 - 搭配 NanoVLLM-VoxCPM 或 vLLM-Omni，可在 NVIDIA RTX 4090 上实现低至 0.13 的实时系数（RTF），适合高吞吐并发服务场景。
📦 完全开源，可用于商业场景 - 权重与代码均以 Apache License 2.0 发布，可用于商业用途。

版本选择¶

VoxCPM 2 是新项目的推荐版本。更早的版本仍适用于更轻量的部署、兼容旧流程，或查阅历史版本时使用。

VoxCPM 2

当前版本
支持 30 种语言
声音设计与风格控制
48kHz 音频输出

立即查看 →

早期版本

VoxCPM 1.5 适用于更轻量的中英文部署
VoxCPM 1.0 适用于基线对比与历史参考
为 1.x 工作流提供兼容性与迁移指引

查看早期版本 →

社区项目¶

我们很高兴看到 VoxCPM 社区不断壮大。以下是一些具有代表性的生态项目：

NanoVLLM-VoxCPM：用于高吞吐 GPU 服务部署
vLLM-Omni：基于上游 vLLM 栈的官方 VoxCPM2 服务方案，支持连续批处理和 OpenAI 兼容 API
VoxCPM.cpp：基于 ggml / GGUF 的 CPU、CUDA 与 Vulkan 推理
VoxCPMANE：用于 Apple Neural Engine 部署
ComfyUI-VoxCPM：用于节点式工作流与 LoRA 训练
ComfyUI_RH_VoxCPM：提供功能完整的 ComfyUI 工作流，支持多人对话、Voice Design、LoRA 热切换与自动 ASR
MLX-Audio：用于基于 Apple Silicon MLX 的音频推理、API 服务与 Web UI
TTS WebUI Extension：用于基于浏览器的使用方式

完整安装指南和更多社区集成请查看侧边栏中的 Ecosystem 部分。

小技巧

你用 VoxCPM 做了有趣的项目吗？ 我们很乐意把它展示在这里！欢迎提交 issue 或 pull request 来添加你的项目。

备注

以上社区项目并非由 OpenBMB 官方维护。

风险与限制¶

模型输出的一般特点： 尽管 VoxCPM 已在大规模数据集上训练，仍可能出现出人意料、存在偏见或带有伪影的输出。
声音克隆被滥用的风险： VoxCPM 强大的零样本声音克隆能力可以生成高度逼真的合成语音。这项技术也可能被用于伪造语音，实施冒充、欺诈或传播虚假信息。使用者不得用本模型生成侵犯他人权益的内容，严禁将 VoxCPM 用于任何违法或不道德用途。我们强烈建议，凡是公开分享的模型生成内容都应明确标注为 AI 生成。
当前技术限制： 虽然整体表现较稳定，但模型在极长文本或情感、语气变化较大的输入下仍可能偶发不稳定。VoxCPM 2 引入了 Voice Design 和 Style Control，以提供更直接的属性控制，但实际效果仍可能有所波动。
语言覆盖： VoxCPM 1.x 主要基于中文和英文数据训练。VoxCPM 2 已扩展到支持 30 种语言，但不同语言上的效果仍可能受到训练数据覆盖情况的影响。
使用限制： 本模型以研究与开发用途发布。允许商业使用，但在未经严格测试与安全评估的情况下，我们不建议将其用于生产或商业场景。请负责任地使用 VoxCPM。

Star 趋势¶

引用¶

如果你觉得我们的模型对你有帮助，欢迎引用我们的工作并为仓库点亮 Star。

@article{voxcpm2025,
   title        = {VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning},
   author       = {Zhou, Yixuan and Zeng, Guoyang and Liu, Xin and Li, Xiang and Yu, Renjie and Wang, Ziyang and Ye, Runchuan and Sun, Weiyue and Gui, Jiancheng and Li, Kehan and Wu, Zhiyong  and Liu, Zhiyuan},
   journal      = {arXiv preprint arXiv:2509.24650},
   year         = {2025},
}

VoxCPM 文档¶

🌟 核心特性¶

版本选择¶

社区项目¶

风险与限制¶

许可证¶

致谢¶

参与机构¶

Star 趋势¶

引用¶