ComfyUI_RH_VoxCPM¶

ComfyUI_RH_VoxCPM 是一个由社区维护的 ComfyUI 集成项目，面向 VoxCPM，支持原生 VoxCPM 2、多人对话生成、可选 LoRA 加载、克隆流程中的自动 ASR，以及参考音频去噪。

仓库：HM-RunningHub/ComfyUI_RH_VoxCPM
在线体验：RunningHub

备注

该项目由社区维护，并非 OpenBMB 官方维护。若想查看生态中的其他 ComfyUI 集成，请参阅 ComfyUI-VoxCPM 和 ComfyUI-VoxCPMTTS。

支持的 VoxCPM 版本¶
VoxCPM 2	✅ 推荐。具备完整功能集，包括 Ultimate Cloning 和多人工作流。
VoxCPM 1.5	✅ 通过共享的加载节点工作流提供支持。
VoxCPM-0.5B	✅ 作为更轻量的选项提供支持。

概览¶

该集成提供三个主要节点：

RunningHub VoxCPM Load Model：从 ComfyUI/models/voxcpm/ 加载本地 VoxCPM 模型目录，并可选加载 LoRA 权重
RunningHub VoxCPM Generate Speech：一个统一的生成节点，覆盖 Voice Design、Controllable Cloning 和 Ultimate Cloning
RunningHub VoxCPM Multi-Speaker：生成带标签的多人对话，最多支持五个说话人，并可为每个说话人单独控制音色

相较于文档中列出的其他 ComfyUI 生态方案，这个项目目前是对 VoxCPM 2 支持最完整的可视化工作流之一：它把原生 V2 支持、多人生成、可选 LoRA 加载、自动 ASR 与基于 ZipEnhancer 的去噪整合在同一个包中。

特性¶

通过纯文本控制指令实现 Voice Design
通过参考音频进行 Controllable Cloning，并可选加入风格控制
Ultimate Cloning：用于 prompt 延续 / 极致还原（仅限 VoxCPM 2）
从 ComfyUI/models/voxcpm/loras/ 加载 LoRA
当 Ultimate Cloning 模式下 reference_audio_text 为空时，通过 FunASR SenseVoiceSmall 执行 自动 ASR
在克隆前通过 ZipEnhancer 对参考音频进行去噪
从 [spk1]... [spk2]... 这类带标签脚本生成 多人对话
仓库内自带单人生成和多人生成的 示例工作流

前置要求¶

ComfyUI 已安装并运行
VoxCPM 模型文件已放置到 ComfyUI/models/voxcpm/ 下
如果你希望使用自动转写，需要将 SenseVoiceSmall 放在 ComfyUI/models/SenseVoice/SenseVoiceSmall/ 下
如果你希望对参考音频去噪，需要将 ZipEnhancer 放在 ComfyUI/models/voxcpm/speech_zipenhancer_ans_multiloss_16k_base/ 下

安装¶

通过 ComfyUI Manager：

搜索 ComfyUI_RH_VoxCPM 并安装

手动安装：

cd ComfyUI/custom_nodes
git clone https://github.com/HM-RunningHub/ComfyUI_RH_VoxCPM.git
cd ComfyUI_RH_VoxCPM
pip install -r requirements.txt

模型目录结构¶

README 中推荐的目录结构如下：

ComfyUI/
└── models/
    └── voxcpm/
        ├── VoxCPM2/
        ├── VoxCPM1.5/
        ├── VoxCPM-0.5B/
        ├── loras/
        └── speech_zipenhancer_ans_multiloss_16k_base/

SenseVoiceSmall 应放置在：

ComfyUI/models/SenseVoice/SenseVoiceSmall/

基本用法¶

单说话人生成¶

添加 RunningHub VoxCPM Load Model 节点，并选择你的模型目录。
可以在加载节点中按需启用 optimize。该仓库默认将其设为 False，这对兼容性来说是一个合理的起点。
将输出连接到 RunningHub VoxCPM Generate Speech。
选择以下任一模式：
- Voice Design：设置 control_instruction，并将 reference_audio 留空
- Controllable Cloning：提供 reference_audio，并保持 ultimate_clone 关闭
- Ultimate Cloning：提供 reference_audio，并打开 ultimate_clone
将最终的 AUDIO 输出连接到预览或保存节点。

自动 ASR 与去噪¶

在 Ultimate Cloning 模式下，如果 reference_audio_text 为空，节点会通过 SenseVoiceSmall 自动转写参考音频。
如果启用 denoise_reference，节点会在生成前先使用 ZipEnhancer。

多人工作流¶

RunningHub VoxCPM Multi-Speaker 节点接受如下带标签脚本：

[spk1]Hello there.[spk2]Hi, welcome to VoxCPM.[spk1]Let's begin.

你最多可以为五个说话人分别提供：

参考音频输入（audio_1 到 audio_5）
每个说话人的控制指令（control_1 到 control_5）

这很适合在 ComfyUI 中制作对话演示、播客风格内容，或角色化的语音生成。

示例工作流¶

该仓库当前至少附带两个工作流示例：

一个用于单说话人生成的 VoxCPM 2 基础工作流
一个用于带标签对话生成的 VoxCPM 2 多说话人工作流

这些示例 JSON 文件都可以直接导入到 ComfyUI 中。

何时选择这个集成¶

当你需要以下能力时，可以选择 ComfyUI_RH_VoxCPM：

在 ComfyUI 中使用可视化的 VoxCPM 2 工作流
多人对话生成
内置自动 ASR 的克隆流程
无需离开 ComfyUI 工作流即可可选加载 LoRA

如果你特别需要在节点内进行 LoRA 训练，请参阅 ComfyUI-VoxCPM。如果你更倾向于一个更轻量、聚焦 VoxCPM 1.5 且带自动转写的方案，请参阅 ComfyUI-VoxCPMTTS。