ComfyUI-VoxCPMTTS

ComfyUI-VoxCPMTTS 是面向 VoxCPM 1.5 的轻量 ComfyUI 节点,内置参考音频的 自动语音识别 转写。

备注

LoRA 训练与双模型支持请参阅 ComfyUI-VoxCPM

支持的 VoxCPM 版本

VoxCPM 1.0 (0.5B)

✅ 界面可选(16 kHz)

VoxCPM 1.5

✅ 默认且推荐(44.1 kHz)

VoxCPM 2

❌ 不支持

本扩展提供两种节点变体:

  • AILab_VoxCPMTTS — 简化节点,高级参数默认隐藏

  • AILab_VoxCPMTTS_Advanced — 可手动控制全部生成参数

主要特性

  • 基于 VoxCPM 1.5 的 TTS 与声音克隆(44.1 kHz 输出);界面中也可选用 VoxCPM 0.5B

  • 通过 faster-whisper 对参考音频 自动转写 (需启用 auto_transcribe_reference

  • 淡入后处理使输出更顺滑(高级节点可配置 fade_in_ms

  • 简化节点固定默认(cfg_value=2.0inference_steps=10);高级节点可完全手动调节

  • REFERENCE_TEXT 输出端口用于查看 ASR 结果

  • 通过环境变量 VOXCPM_ASR_MODEL 配置 ASR 模型(tiny / small / medium / large

  • 多设备: auto (自动检测)、CUDAMPSCPU

准备工作

  • 已安装并运行 ComfyUI

  • 已安装匹配后端的 PyTorch

  • 模型下载约需 1.2 GB 磁盘空间

安装

  • 通过 ComfyUI Manager:搜索 VoxCPMTTS 并安装。

手动安装:

cd ComfyUI/custom_nodes/
git clone https://github.com/1038lab/ComfyUI-VoxCPMTTS.git
pip install -r ComfyUI-VoxCPMTTS/requirements.txt
# Restart ComfyUI

首次使用自动下载模型。1.5 模型默认路径为 ComfyUI/models/TTS/VoxCPM1.5/;若选择 0.5B 则为 ComfyUI/models/TTS/VoxCPM-0.5B/

基本用法

文本转语音

  1. 添加 VoxCPM TTS (简化)或 VoxCPM TTS (Advanced) 节点

  2. 输入待合成的 text

  3. 简化节点使用合理默认(cfg_value=2.0inference_steps=10

  4. 高级节点可手动设置 cfg_valueinference_steps 等参数

声音克隆

  1. reference_audio 接入参考音频

  2. 自动转写:须在节点上启用 auto_transcribe_reference (仅留空 reference_text 并不足够)

  3. 也可在 reference_text 中手动填写转写

  4. REFERENCE_TEXT 输出显示识别或提供的转写,便于核对

高级节点参数

参数

说明

cfg_value

Classifier-free guidance 强度

inference_steps

LocDiT 扩散步数

max_length

生成 token 最大长度

fade_in_ms

淡入时长,用于平滑音频

retry_attempts

劣质输出的最大重试次数

retry_threshold

坏例检测阈值

auto_transcribe_reference

对参考音频启用 ASR

normalize

启用文本规范化

unload_model

推理后卸载模型以释放显存

问题排查

显存不足(OOM)

VoxCPM 1.5 对显存要求较高。若出现 OOM:

  • 启用 unload_model,每次生成后释放 GPU 显存

  • device 设为 cpu (更慢但使用系统内存)

  • 关闭其它占用 GPU 的应用

  • 尝试 较快 质量预设以降低显存占用

模型下载问题

若自动下载失败,请从 Hugging Face 手动下载并放入 ComfyUI/models/TTS/VoxCPM1.5/

调试日志可设置 COMFYUI_LOG_LEVEL=DEBUG

与 ComfyUI-VoxCPM 对比

特性

ComfyUI-VoxCPM

ComfyUI-VoxCPMTTS

模型支持

VoxCPM 1.5 + 0.5B

VoxCPM 1.5(推荐)+ 0.5B

LoRA 训练

✅ 内置

自动转写

❌ 仅手动

✅ faster-whisper

节点变体

单一节点

简化 + 高级

质量预设

手动参数

较快 / 均衡 / 高质量

依赖

更重(含 LoRA 训练)

更轻