-
Notifications
You must be signed in to change notification settings - Fork 779
Open
Description
System Info / 系統信息
cuda:12.1;transformer;python version:3.11;ubuntu 20.04 lTS
Running Xinference with Docker? / 是否使用 Docker 运行 Xinfernece?
- docker / docker
- pip install / 通过 pip install 安装
- installation from source / 从源码安装
Version info / 版本信息
0.13.3
The command used to start Xinference / 用以启动 xinference 的命令
xinference-local --host 0.0.0.0 --port 9997
Reproduction / 复现过程
历史操作:在UI界面,下载bge等model,其中有一个模型下载并运行过vllm。
1.后台log显示过几次在llm family,gpu内存溢出,重复过几次;
2.其中lauch失败过
3. 有对话生成成功过
4. 每次重新打开(换过端口和虚拟环境没有区别),usage只要有下载动作都累积增加,不知道存在哪里,./xinference文件夹下的模型什么都删过没有用。
5. 每次推出都是ctrl+c
Expected behavior / 期待表现
希望能降下usage