我在手动清洗数据集的时候遇到了一个问题:当遇到一些文字无法标注的声音例如哈气声,呼吸声,笑声,哭声等等,是否应该保留? 询问DeepSeek后它这么回答我 <img width="1000" height="390" alt="Image" src="https://github.com/user-attachments/assets/a17285b4-3dc4-4feb-9d6d-5bb7f52cd07c" /> <img width="938" height="599" alt="Image" src="https://github.com/user-attachments/assets/bf92bf4b-ccda-4fa9-a268-c1c52e68a303" /> <img width="949" height="579" alt="Image" src="https://github.com/user-attachments/assets/96c9c65f-334f-4565-9d84-00d9e17fd96a" /> 跟我觉得不行的猜想相符。如果贸然引入这类声音,应该会扰乱合成结果→不可控 然而我注意到它说对于支持的模型,用标签特殊标注这些声音是可行的→也就是说可以做到可控 虽然在绝大多数情况这类声音是用不到的,但请原谅我还是想合成这类声音