[Feature] 希望实现用户音频输入的支持

### 描述

目前部分多模态的大模型已经支持了音频输入，比如谷歌gemini，阿里的Qwen-Omni等。希望可以让bot获取用户发送的语音，直接作为音频提示词发送给大模型

### 使用场景

比如在qq私聊时，可以直接给bot发语音，然后bot把系统提示词和用户语音文件一起发送给大模型生成回复

### 你愿意提交PR吗?

- [ ] 是的, 我愿意提交PR!

### Code of Conduct

- [x] 我已阅读并同意遵守该项目的 [行为准则](https://docs.github.com/zh/site-policy/github-terms/github-community-code-of-conduct)。