Skip to content

Conversation

Karasukaigan
Copy link

@Karasukaigan Karasukaigan commented May 27, 2025

改动点

  1. 新增webui_simple.pygo-webui-simple-mode.bat两个文件。
  2. 选项卡被重新划分成微调训练推理其他工具这三个。
  3. 微调训练所需的所有步骤都在同一个选项卡页面,并且增加了三个自动化选项,用户最少只需要点两个按钮就能完成整个训练任务。
  4. 点击其他工具选项卡里的清空输出目录按钮即可开始新的训练,不再需要手动删除相关文件
  5. 页面顶部有可折叠的详细的使用说明。
  6. 训练用音频文件的导入方式改为拖放导入(可一次拖入多个)。

2025/06/06更新

  1. 支持最新的v2Pro系列模型。
  2. 修复了自动化的一些BUG。

页面

主页面

推理选项卡页面:
推理选项卡页面

其他工具选项卡页面:
其他工具选项卡页面

启动方式

双击go-webui-simple-mode.bat启动WebUI简化版。

微调训练步骤(简化版)

  1. 填写模型名。
  2. 选择一个或多个音频文件,勾选自动开启语音识别,然后点击1.开启语音切分2.开启语音识别会被自动执行。
  3. 勾选自动开启SoVITS训练自动开启GPT训练,然后点击4.开启训练集格式化一键三连5.开启SoVITS训练6.开启GPT训练会被自动执行。

微调训练步骤

  1. 填写模型名。
  2. 选择一个或多个音频文件,然后点击1.开启语音切分。如果已事先完成切分,可直接在语音切分文件夹路径里输入对应的路径。
  3. 选择一个ASR模型,然后点击2.开启语音识别来生成标注文件。如果已事先准备了标注文件,可直接在标注文件路径里输入对应的.list文件路径。
  4. 如果需要对标注文件进行修改,可以点击3.开启音频标注WebUI,但这一步是非必须的。
  5. 点击4.开启训练集格式化一键三连,这一步是为了将数据集整理为特定格式,后续可在logs目录里查看。
  6. 根据自己显卡的情况调整batch_size,设置合适的训练轮数,然后点击5.开启SoVITS训练,可在终端查看训练进度。
  7. 同样需要调整batch_size,设置合适的训练轮数,然后点击6.开启GPT训练,可在终端查看训练进度。如果显存大于12G,且数据集质量好,建议开启DPO。

推理步骤

  1. 默认是微调训练页面,所以需要先切换到推理页面。
  2. 在列表里选择之前训练好的GPT模型和SoVITS模型。
  3. 点击开启TTS推理WebUI

训练新的模型

  1. 切换到其他工具页面。
  2. 点击清空输出目录
  3. 切换回微调训练页面,按照微调训练步骤从头开始。记得换一个模型名。

修复通过Gradio API调用合成语音接口`/get_tts_wav`时出现参数类型错误的问题。

## 报错信息
TypeError: unsupported operand type(s) for /: 'int' and 'str'

## 错误原因
`inference_webui.py`的`get_tts_wav`里并未对传入`sample_steps`的类型进行判断。而由于Gradio在自动生成接口文档时会将`gr.Radio`传入的值判定为字符串,因此如果有用户参考WebUI下面”通过 API 使用“里的说明调用`/get_tts_wav`时,则会因为文档错误导致传参类型错误,从而导致最终的报错。

## 修复方式
通过在`get_tts_wav`开头部分添加对`sample_steps`格式的转换(统一转为int)来解决传参类型错误的问题。
用户不再需要多次切换不同的选项卡页面来完成一次微调训练。现在微调训练的所有流程都在同一个页面里,按照从上往下的顺序排好,并且隐藏了非常用的设置项。
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

1 participant