ComfyUI-VoxCPMTTS¶

ComfyUI-VoxCPMTTS 是面向 VoxCPM 1.5 的轻量 ComfyUI 节点，内置参考音频的 自动语音识别 转写。

仓库：1038lab/ComfyUI-VoxCPMTTS

备注

LoRA 训练与双模型支持请参阅 ComfyUI-VoxCPM。

支持的 VoxCPM 版本¶
VoxCPM 1.0 (0.5B)	✅ 界面可选（16 kHz）
VoxCPM 1.5	✅ 默认且推荐（44.1 kHz）
VoxCPM 2	❌ 不支持

本扩展提供两种节点变体：

AILab_VoxCPMTTS — 简化节点，高级参数默认隐藏
AILab_VoxCPMTTS_Advanced — 可手动控制全部生成参数

主要特性¶

基于 VoxCPM 1.5 的 TTS 与声音克隆（44.1 kHz 输出）；界面中也可选用 VoxCPM 0.5B
通过 faster-whisper 对参考音频 自动转写 （需启用 auto_transcribe_reference）
淡入后处理使输出更顺滑（高级节点可配置 fade_in_ms）
简化节点固定默认（cfg_value=2.0、inference_steps=10）；高级节点可完全手动调节
REFERENCE_TEXT 输出端口用于查看 ASR 结果
通过环境变量 VOXCPM_ASR_MODEL 配置 ASR 模型（tiny / small / medium / large）
多设备： auto （自动检测）、CUDA、MPS、CPU

准备工作¶

已安装并运行 ComfyUI
已安装匹配后端的 PyTorch
模型下载约需 1.2 GB 磁盘空间

安装¶

通过 ComfyUI Manager：搜索 VoxCPMTTS 并安装。

手动安装：

cd ComfyUI/custom_nodes/
git clone https://github.com/1038lab/ComfyUI-VoxCPMTTS.git
pip install -r ComfyUI-VoxCPMTTS/requirements.txt
# Restart ComfyUI

首次使用自动下载模型。1.5 模型默认路径为 ComfyUI/models/TTS/VoxCPM1.5/；若选择 0.5B 则为 ComfyUI/models/TTS/VoxCPM-0.5B/。

基本用法¶

文本转语音¶

添加 VoxCPM TTS （简化）或 VoxCPM TTS (Advanced) 节点
输入待合成的 text
简化节点使用合理默认（cfg_value=2.0、inference_steps=10）
高级节点可手动设置 cfg_value、inference_steps 等参数

声音克隆¶

将 reference_audio 接入参考音频
自动转写：须在节点上启用 auto_transcribe_reference （仅留空 reference_text 并不足够）
也可在 reference_text 中手动填写转写
REFERENCE_TEXT 输出显示识别或提供的转写，便于核对

档位	CFG 数值	推理步数	速度
较快	1.5	5	最快
均衡	2.0	10	中等
高质量	3.0	20	最慢

高级节点参数¶

参数	说明
`cfg_value`	Classifier-free guidance 强度
`inference_steps`	LocDiT 扩散步数
`max_length`	生成 token 最大长度
`fade_in_ms`	淡入时长，用于平滑音频
`retry_attempts`	劣质输出的最大重试次数
`retry_threshold`	坏例检测阈值
`auto_transcribe_reference`	对参考音频启用 ASR
`normalize`	启用文本规范化
`unload_model`	推理后卸载模型以释放显存

问题排查¶

显存不足（OOM）¶

VoxCPM 1.5 对显存要求较高。若出现 OOM：

启用 unload_model，每次生成后释放 GPU 显存
将 device 设为 cpu （更慢但使用系统内存）
关闭其它占用 GPU 的应用
尝试较快质量预设以降低显存占用

模型下载问题¶

若自动下载失败，请从 Hugging Face 手动下载并放入 ComfyUI/models/TTS/VoxCPM1.5/。

调试日志可设置 COMFYUI_LOG_LEVEL=DEBUG。

与 ComfyUI-VoxCPM 对比¶

特性	ComfyUI-VoxCPM	ComfyUI-VoxCPMTTS
模型支持	VoxCPM 1.5 + 0.5B	VoxCPM 1.5（推荐）+ 0.5B
LoRA 训练	✅ 内置	❌
自动转写	❌ 仅手动	✅ faster-whisper
节点变体	单一节点	简化 + 高级
质量预设	手动参数	较快 / 均衡 / 高质量
依赖	更重（含 LoRA 训练）	更轻

ComfyUI-VoxCPMTTS¶

主要特性¶

准备工作¶

安装¶

基本用法¶

文本转语音¶

声音克隆¶

推荐参数设置¶

高级节点参数¶

问题排查¶

显存不足（OOM）¶

模型下载问题¶

与 ComfyUI-VoxCPM 对比¶