ComfyUI_RH_VoxCPM¶
ComfyUI_RH_VoxCPM 是一个由社区维护的 ComfyUI 集成项目,面向 VoxCPM,支持原生 VoxCPM 2、多人对话生成、可选 LoRA 加载、克隆流程中的自动 ASR,以及参考音频去噪。
备注
该项目由社区维护,并非 OpenBMB 官方维护。若想查看生态中的其他 ComfyUI 集成,请参阅 ComfyUI-VoxCPM 和 ComfyUI-VoxCPMTTS。
VoxCPM 2 |
✅ 推荐。具备完整功能集,包括 Ultimate Cloning 和多人工作流。 |
VoxCPM 1.5 |
✅ 通过共享的加载节点工作流提供支持。 |
VoxCPM-0.5B |
✅ 作为更轻量的选项提供支持。 |
概览¶
该集成提供三个主要节点:
RunningHub VoxCPM Load Model:从
ComfyUI/models/voxcpm/加载本地 VoxCPM 模型目录,并可选加载 LoRA 权重RunningHub VoxCPM Generate Speech:一个统一的生成节点,覆盖 Voice Design、Controllable Cloning 和 Ultimate Cloning
RunningHub VoxCPM Multi-Speaker:生成带标签的多人对话,最多支持五个说话人,并可为每个说话人单独控制音色
相较于文档中列出的其他 ComfyUI 生态方案,这个项目目前是对 VoxCPM 2 支持最完整的可视化工作流之一:它把原生 V2 支持、多人生成、可选 LoRA 加载、自动 ASR 与基于 ZipEnhancer 的去噪整合在同一个包中。
特性¶
通过纯文本控制指令实现 Voice Design
通过参考音频进行 Controllable Cloning,并可选加入风格控制
Ultimate Cloning:用于 prompt 延续 / 极致还原(仅限 VoxCPM 2)
从
ComfyUI/models/voxcpm/loras/加载 LoRA当 Ultimate Cloning 模式下
reference_audio_text为空时,通过 FunASR SenseVoiceSmall 执行 自动 ASR在克隆前通过 ZipEnhancer 对参考音频进行 去噪
从
[spk1]... [spk2]...这类带标签脚本生成 多人对话仓库内自带单人生成和多人生成的 示例工作流
前置要求¶
ComfyUI 已安装并运行
VoxCPM 模型文件已放置到
ComfyUI/models/voxcpm/下如果你希望使用自动转写,需要将 SenseVoiceSmall 放在
ComfyUI/models/SenseVoice/SenseVoiceSmall/下如果你希望对参考音频去噪,需要将 ZipEnhancer 放在
ComfyUI/models/voxcpm/speech_zipenhancer_ans_multiloss_16k_base/下
安装¶
通过 ComfyUI Manager:
搜索
ComfyUI_RH_VoxCPM并安装
手动安装:
cd ComfyUI/custom_nodes
git clone https://github.com/HM-RunningHub/ComfyUI_RH_VoxCPM.git
cd ComfyUI_RH_VoxCPM
pip install -r requirements.txt
模型目录结构¶
README 中推荐的目录结构如下:
ComfyUI/
└── models/
└── voxcpm/
├── VoxCPM2/
├── VoxCPM1.5/
├── VoxCPM-0.5B/
├── loras/
└── speech_zipenhancer_ans_multiloss_16k_base/
SenseVoiceSmall 应放置在:
ComfyUI/models/SenseVoice/SenseVoiceSmall/
基本用法¶
单说话人生成¶
添加 RunningHub VoxCPM Load Model 节点,并选择你的模型目录。
可以在加载节点中按需启用
optimize。该仓库默认将其设为False,这对兼容性来说是一个合理的起点。将输出连接到 RunningHub VoxCPM Generate Speech。
选择以下任一模式:
Voice Design:设置
control_instruction,并将reference_audio留空Controllable Cloning:提供
reference_audio,并保持ultimate_clone关闭Ultimate Cloning:提供
reference_audio,并打开ultimate_clone
将最终的
AUDIO输出连接到预览或保存节点。
自动 ASR 与去噪¶
在 Ultimate Cloning 模式下,如果
reference_audio_text为空,节点会通过 SenseVoiceSmall 自动转写参考音频。如果启用
denoise_reference,节点会在生成前先使用 ZipEnhancer。
多人工作流¶
RunningHub VoxCPM Multi-Speaker 节点接受如下带标签脚本:
[spk1]Hello there.[spk2]Hi, welcome to VoxCPM.[spk1]Let's begin.
你最多可以为五个说话人分别提供:
参考音频输入(
audio_1到audio_5)每个说话人的控制指令(
control_1到control_5)
这很适合在 ComfyUI 中制作对话演示、播客风格内容,或角色化的语音生成。
示例工作流¶
该仓库当前至少附带两个工作流示例:
一个用于单说话人生成的 VoxCPM 2 基础工作流
一个用于带标签对话生成的 VoxCPM 2 多说话人工作流
这些示例 JSON 文件都可以直接导入到 ComfyUI 中。
何时选择这个集成¶
当你需要以下能力时,可以选择 ComfyUI_RH_VoxCPM:
在 ComfyUI 中使用可视化的 VoxCPM 2 工作流
多人对话生成
内置自动 ASR 的克隆流程
无需离开 ComfyUI 工作流即可可选加载 LoRA
如果你特别需要在节点内进行 LoRA 训练,请参阅 ComfyUI-VoxCPM。如果你更倾向于一个更轻量、聚焦 VoxCPM 1.5 且带自动转写的方案,请参阅 ComfyUI-VoxCPMTTS。