VoxCPM 文档¶
🌟 核心特性¶
🌍 30 语种多语言生成 - 支持 30 种语言,绝大多数情况下直接输入目标语言文本即可,无需额外标注语言。
🎨 声音设计 - 无需参考音频,只靠自然语言描述就能创建一把全新的声音。
🎛️ 可控声音克隆 - 用一段简短的参考音频克隆音色,同时还能继续调节情绪、语速与风格,并尽量保留原始音色特征。
🎙️ 高保真克隆 - 若同时提供参考音频及对应转写,模型就能更自然地承接参考语音,在音色、节奏、情绪与风格上保留更多细节。
🔊 48kHz 高品质音频 - 支持输入 16kHz 参考音频,并通过 AudioVAE V2 的非对称编解码直接输出 48kHz 高品质音频,内置超分能力,无需额外上采样器。
🧠 理解语境的语音生成 - 能根据文本内容自动推断更合适的韵律与表达,让生成结果更自然,也更贴合语境。
⚡ 实时流式生成 - 搭配 NanoVLLM-VoxCPM 或 vLLM-Omni,可在 NVIDIA RTX 4090 上实现低至 0.13 的实时系数(RTF),适合高吞吐并发服务场景。
📦 完全开源,可用于商业场景 - 权重与代码均以 Apache License 2.0 发布,可用于商业用途。
版本选择¶
VoxCPM 2 是新项目的推荐版本。更早的版本仍适用于更轻量的部署、兼容旧流程,或查阅历史版本时使用。
当前版本
支持 30 种语言
声音设计与风格控制
48kHz 音频输出
VoxCPM 1.5 适用于更轻量的中英文部署
VoxCPM 1.0 适用于基线对比与历史参考
为 1.x 工作流提供兼容性与迁移指引
社区项目¶
我们很高兴看到 VoxCPM 社区不断壮大。以下是一些具有代表性的生态项目:
NanoVLLM-VoxCPM:用于高吞吐 GPU 服务部署
vLLM-Omni:基于上游 vLLM 栈的官方 VoxCPM2 服务方案,支持连续批处理和 OpenAI 兼容 API
VoxCPM.cpp:基于 ggml / GGUF 的 CPU、CUDA 与 Vulkan 推理
VoxCPMANE:用于 Apple Neural Engine 部署
ComfyUI-VoxCPM:用于节点式工作流与 LoRA 训练
ComfyUI_RH_VoxCPM:提供功能完整的 ComfyUI 工作流,支持多人对话、Voice Design、LoRA 热切换与自动 ASR
MLX-Audio:用于基于 Apple Silicon MLX 的音频推理、API 服务与 Web UI
TTS WebUI Extension:用于基于浏览器的使用方式
完整安装指南和更多社区集成请查看侧边栏中的 Ecosystem 部分。
小技巧
你用 VoxCPM 做了有趣的项目吗? 我们很乐意把它展示在这里!欢迎提交 issue 或 pull request 来添加你的项目。
备注
以上社区项目并非由 OpenBMB 官方维护。
风险与限制¶
模型输出的一般特点: 尽管 VoxCPM 已在大规模数据集上训练,仍可能出现出人意料、存在偏见或带有伪影的输出。
声音克隆被滥用的风险: VoxCPM 强大的零样本声音克隆能力可以生成高度逼真的合成语音。这项技术也可能被用于伪造语音,实施冒充、欺诈或传播虚假信息。使用者不得用本模型生成侵犯他人权益的内容,严禁将 VoxCPM 用于任何违法或不道德用途。我们强烈建议,凡是公开分享的模型生成内容都应明确标注为 AI 生成。
当前技术限制: 虽然整体表现较稳定,但模型在极长文本或情感、语气变化较大的输入下仍可能偶发不稳定。VoxCPM 2 引入了 Voice Design 和 Style Control,以提供更直接的属性控制,但实际效果仍可能有所波动。
语言覆盖: VoxCPM 1.x 主要基于中文和英文数据训练。VoxCPM 2 已扩展到支持 30 种语言,但不同语言上的效果仍可能受到训练数据覆盖情况的影响。
使用限制: 本模型以研究与开发用途发布。允许商业使用,但在未经严格测试与安全评估的情况下,我们不建议将其用于生产或商业场景。请负责任地使用 VoxCPM。