ComfyUI_RH_VoxCPM

ComfyUI_RH_VoxCPM 是一个由社区维护的 ComfyUI 集成项目,面向 VoxCPM,支持原生 VoxCPM 2、多人对话生成、可选 LoRA 加载、克隆流程中的自动 ASR,以及参考音频去噪。

备注

该项目由社区维护,并非 OpenBMB 官方维护。若想查看生态中的其他 ComfyUI 集成,请参阅 ComfyUI-VoxCPMComfyUI-VoxCPMTTS

支持的 VoxCPM 版本

VoxCPM 2

✅ 推荐。具备完整功能集,包括 Ultimate Cloning 和多人工作流。

VoxCPM 1.5

✅ 通过共享的加载节点工作流提供支持。

VoxCPM-0.5B

✅ 作为更轻量的选项提供支持。

概览

该集成提供三个主要节点:

  • RunningHub VoxCPM Load Model:从 ComfyUI/models/voxcpm/ 加载本地 VoxCPM 模型目录,并可选加载 LoRA 权重

  • RunningHub VoxCPM Generate Speech:一个统一的生成节点,覆盖 Voice Design、Controllable Cloning 和 Ultimate Cloning

  • RunningHub VoxCPM Multi-Speaker:生成带标签的多人对话,最多支持五个说话人,并可为每个说话人单独控制音色

相较于文档中列出的其他 ComfyUI 生态方案,这个项目目前是对 VoxCPM 2 支持最完整的可视化工作流之一:它把原生 V2 支持、多人生成、可选 LoRA 加载、自动 ASR 与基于 ZipEnhancer 的去噪整合在同一个包中。

特性

  • 通过纯文本控制指令实现 Voice Design

  • 通过参考音频进行 Controllable Cloning,并可选加入风格控制

  • Ultimate Cloning:用于 prompt 延续 / 极致还原(仅限 VoxCPM 2

  • ComfyUI/models/voxcpm/loras/ 加载 LoRA

  • 当 Ultimate Cloning 模式下 reference_audio_text 为空时,通过 FunASR SenseVoiceSmall 执行 自动 ASR

  • 在克隆前通过 ZipEnhancer 对参考音频进行 去噪

  • [spk1]... [spk2]... 这类带标签脚本生成 多人对话

  • 仓库内自带单人生成和多人生成的 示例工作流

前置要求

  • ComfyUI 已安装并运行

  • VoxCPM 模型文件已放置到 ComfyUI/models/voxcpm/

  • 如果你希望使用自动转写,需要将 SenseVoiceSmall 放在 ComfyUI/models/SenseVoice/SenseVoiceSmall/

  • 如果你希望对参考音频去噪,需要将 ZipEnhancer 放在 ComfyUI/models/voxcpm/speech_zipenhancer_ans_multiloss_16k_base/

安装

通过 ComfyUI Manager:

  • 搜索 ComfyUI_RH_VoxCPM 并安装

手动安装:

cd ComfyUI/custom_nodes
git clone https://github.com/HM-RunningHub/ComfyUI_RH_VoxCPM.git
cd ComfyUI_RH_VoxCPM
pip install -r requirements.txt

模型目录结构

README 中推荐的目录结构如下:

ComfyUI/
└── models/
    └── voxcpm/
        ├── VoxCPM2/
        ├── VoxCPM1.5/
        ├── VoxCPM-0.5B/
        ├── loras/
        └── speech_zipenhancer_ans_multiloss_16k_base/

SenseVoiceSmall 应放置在:

ComfyUI/models/SenseVoice/SenseVoiceSmall/

基本用法

单说话人生成

  1. 添加 RunningHub VoxCPM Load Model 节点,并选择你的模型目录。

  2. 可以在加载节点中按需启用 optimize。该仓库默认将其设为 False,这对兼容性来说是一个合理的起点。

  3. 将输出连接到 RunningHub VoxCPM Generate Speech

  4. 选择以下任一模式:

    • Voice Design:设置 control_instruction,并将 reference_audio 留空

    • Controllable Cloning:提供 reference_audio,并保持 ultimate_clone 关闭

    • Ultimate Cloning:提供 reference_audio,并打开 ultimate_clone

  5. 将最终的 AUDIO 输出连接到预览或保存节点。

自动 ASR 与去噪

  • 在 Ultimate Cloning 模式下,如果 reference_audio_text 为空,节点会通过 SenseVoiceSmall 自动转写参考音频。

  • 如果启用 denoise_reference,节点会在生成前先使用 ZipEnhancer。

多人工作流

RunningHub VoxCPM Multi-Speaker 节点接受如下带标签脚本:

[spk1]Hello there.[spk2]Hi, welcome to VoxCPM.[spk1]Let's begin.

你最多可以为五个说话人分别提供:

  • 参考音频输入(audio_1audio_5

  • 每个说话人的控制指令(control_1control_5

这很适合在 ComfyUI 中制作对话演示、播客风格内容,或角色化的语音生成。

示例工作流

该仓库当前至少附带两个工作流示例:

  • 一个用于单说话人生成的 VoxCPM 2 基础工作流

  • 一个用于带标签对话生成的 VoxCPM 2 多说话人工作流

这些示例 JSON 文件都可以直接导入到 ComfyUI 中。

何时选择这个集成

当你需要以下能力时,可以选择 ComfyUI_RH_VoxCPM

  • 在 ComfyUI 中使用可视化的 VoxCPM 2 工作流

  • 多人对话生成

  • 内置自动 ASR 的克隆流程

  • 无需离开 ComfyUI 工作流即可可选加载 LoRA

如果你特别需要在节点内进行 LoRA 训练,请参阅 ComfyUI-VoxCPM。如果你更倾向于一个更轻量、聚焦 VoxCPM 1.5 且带自动转写的方案,请参阅 ComfyUI-VoxCPMTTS