ComfyUI-VoxCPMTTS¶
ComfyUI-VoxCPMTTS 是面向 VoxCPM 1.5 的轻量 ComfyUI 节点,内置参考音频的 自动语音识别 转写。
备注
LoRA 训练与双模型支持请参阅 ComfyUI-VoxCPM。
VoxCPM 1.0 (0.5B) |
✅ 界面可选(16 kHz) |
VoxCPM 1.5 |
✅ 默认且推荐(44.1 kHz) |
VoxCPM 2 |
❌ 不支持 |
本扩展提供两种节点变体:
AILab_VoxCPMTTS — 简化节点,高级参数默认隐藏
AILab_VoxCPMTTS_Advanced — 可手动控制全部生成参数
主要特性¶
基于 VoxCPM 1.5 的 TTS 与声音克隆(44.1 kHz 输出);界面中也可选用 VoxCPM 0.5B
通过 faster-whisper 对参考音频 自动转写 (需启用
auto_transcribe_reference)淡入后处理使输出更顺滑(高级节点可配置
fade_in_ms)简化节点固定默认(
cfg_value=2.0、inference_steps=10);高级节点可完全手动调节REFERENCE_TEXT输出端口用于查看 ASR 结果通过环境变量
VOXCPM_ASR_MODEL配置 ASR 模型(tiny/small/medium/large)多设备: auto (自动检测)、CUDA、MPS、CPU
准备工作¶
已安装并运行 ComfyUI
已安装匹配后端的 PyTorch
模型下载约需 1.2 GB 磁盘空间
安装¶
通过 ComfyUI Manager:搜索
VoxCPMTTS并安装。
手动安装:
cd ComfyUI/custom_nodes/
git clone https://github.com/1038lab/ComfyUI-VoxCPMTTS.git
pip install -r ComfyUI-VoxCPMTTS/requirements.txt
# Restart ComfyUI
首次使用自动下载模型。1.5 模型默认路径为 ComfyUI/models/TTS/VoxCPM1.5/;若选择 0.5B 则为 ComfyUI/models/TTS/VoxCPM-0.5B/。
基本用法¶
文本转语音¶
添加 VoxCPM TTS (简化)或 VoxCPM TTS (Advanced) 节点
输入待合成的
text简化节点使用合理默认(
cfg_value=2.0、inference_steps=10)高级节点可手动设置
cfg_value、inference_steps等参数
声音克隆¶
将
reference_audio接入参考音频自动转写:须在节点上启用
auto_transcribe_reference(仅留空reference_text并不足够)也可在
reference_text中手动填写转写REFERENCE_TEXT输出显示识别或提供的转写,便于核对
推荐参数设置¶
README 建议在高级节点上手动设置以下速度/质量折中组合:
档位 |
CFG 数值 |
推理步数 |
速度 |
|---|---|---|---|
较快 |
1.5 |
5 |
最快 |
均衡 |
2.0 |
10 |
中等 |
高质量 |
3.0 |
20 |
最慢 |
高级节点参数¶
参数 |
说明 |
|---|---|
|
Classifier-free guidance 强度 |
|
LocDiT 扩散步数 |
|
生成 token 最大长度 |
|
淡入时长,用于平滑音频 |
|
劣质输出的最大重试次数 |
|
坏例检测阈值 |
|
对参考音频启用 ASR |
|
启用文本规范化 |
|
推理后卸载模型以释放显存 |
问题排查¶
显存不足(OOM)¶
VoxCPM 1.5 对显存要求较高。若出现 OOM:
启用
unload_model,每次生成后释放 GPU 显存将
device设为cpu(更慢但使用系统内存)关闭其它占用 GPU 的应用
尝试 较快 质量预设以降低显存占用
模型下载问题¶
若自动下载失败,请从 Hugging Face 手动下载并放入 ComfyUI/models/TTS/VoxCPM1.5/。
调试日志可设置 COMFYUI_LOG_LEVEL=DEBUG。
与 ComfyUI-VoxCPM 对比¶
特性 |
ComfyUI-VoxCPM |
ComfyUI-VoxCPMTTS |
|---|---|---|
模型支持 |
VoxCPM 1.5 + 0.5B |
VoxCPM 1.5(推荐)+ 0.5B |
LoRA 训练 |
✅ 内置 |
❌ |
自动转写 |
❌ 仅手动 |
✅ faster-whisper |
节点变体 |
单一节点 |
简化 + 高级 |
质量预设 |
手动参数 |
较快 / 均衡 / 高质量 |
依赖 |
更重(含 LoRA 训练) |
更轻 |