Skip to content

[Feature] 希望实现用户音频输入的支持 #1343

@Yukikaze166

Description

@Yukikaze166

描述

目前部分多模态的大模型已经支持了音频输入,比如谷歌gemini,阿里的Qwen-Omni等。希望可以让bot获取用户发送的语音,直接作为音频提示词发送给大模型

使用场景

比如在qq私聊时,可以直接给bot发语音,然后bot把系统提示词和用户语音文件一起发送给大模型生成回复

你愿意提交PR吗?

  • 是的, 我愿意提交PR!

Code of Conduct

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or request

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions