Unknown model architecture 'qwen3next' when using Qwen3-Coder-Next

**Describe the bug**
I am attempting to deploy Tabby in an air-gapped environment using Docker, following the [tutorial](https://www.tabbyml.com/blog/deploy-tabby-in-air-gapped-environment-with-docker). While the default models are working as expected, I encountered an error `error loading model architecture: unknown model architecture: 'qwen3next'` when trying to deploy a Qwen3-Coder-Next GGUF model from Hugging Face . 

Docker image based on `main-5731104`

**docker run cmd**
```
docker run -it \
    --gpus '"device=1"' -p 7777:7777 -v $HOME/.tabby:/data \
    tabby-offline \
    serve --model /data/models/TabbyML/Qwen3-Coder-Next --device cuda --port 7777
```

**Qwen3-Coder-Next directory structure**
```
L Qwen3-Coder-Next
  L ggml
    L model-00001-of-00004.gguf
    L model-00002-of-00004.gguf
    L model-00003-of-00004.gguf
    L model-00004-of-00004.gguf
  L tabby.json
```

Is the 'qwen3next' model architecture currently not supported?


**Information about your version**
`tabby 0.33.0-dev.0`

**Information about your GPU**
```
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.126.09              Driver Version: 580.126.09      CUDA Version: 13.0   |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA RTX PRO 6000 Blac...    Off |   00000000:72:00.0 Off |                    0 |
| N/A   39C    P0             102W / 600W |   28740MiB / 97887MiB  |   21%        Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA RTX PRO 6000 Blac...    Off |   00000000:82:00.0 Off |                    0 |
| N/A   39C    P0             101W / 600W |   30970MiB / 97887MiB  |   21%        Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
```

**Additional context**
Log
```
ggml_cuda_init: GGML_CUDA_FORCE_MMQ:   no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 CUDA devices:
  Device 0: NVIDIA RTX PRO 6000 Blackwell Server Edition, compute capability 12.0, VMM: yes
build: 1 (952a47f) with cc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0 for x86_64-linux-gnu
system_info: n_threads = 96, n_threads_batch = 96, total_threads = 192

system_info: n_threads = 96 (n_threads_batch = 96) / 192 | CUDA : ARCHS = 500,610,700,750,800,860,890 | USE_GRAPHS = 1 | PEER_MAX_BATCH_SIZE = 128 | CPU : SSE3 = 1 | SSSE3 = 1 | AVX = 1 | AVX2 = 1 | F16C = 1 | FMA = 1 | BMI2 = 1 | LLAMAFILE = 1 | OPENMP = 1 | REPACK = 1 |

main: binding port with default address family
main: HTTP server is listening, hostname: 127.0.0.1, port: 30888, http threads: 191
main: loading model
srv    load_model: loading model '/data/models/TabbyML/Qwen3-Coder-Next/ggml/model-00001-of-00004.gguf'
llama_model_loader: loaded meta data with 44 key-value pairs and 807 tensors from /data/models/TabbyML/Qwen3-Coder-Next/ggml/model-00001-of-00004.gguf (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = qwen3next
llama_model_loader: - kv   1:                               general.type str              = model
llama_model_loader: - kv   2:                        general.sampling.top_k i32           = 40
llama_model_loader: - kv   3:                        general.sampling.top_p f32           = 0.950000
llama_model_loader: - kv   4:                        general.sampling.temp f32            = 1.000000
llama_model_loader: - kv   5:                               general.name str              = Qwen3 Coder Next 0129
llama_model_loader: - kv   6:                            general.version str              = 0129
llama_model_loader: - kv   7:                           general.basename str              = Qwen3-Coder-Next
llama_model_loader: - kv   8:                         general.size_label str              = 512x2.5B
llama_model_loader: - kv   9:                          qwen3next.block_count u32          = 48
llama_model_loader: - kv  10:                         qwen3next.context_length u32        = 262144
llama_model_loader: - kv  11:                       qwen3next.embedding_length u32        = 2048
llama_model_loader: - kv  12:                    qwen3next.feed_forward_length u32        = 5120
llama_model_loader: - kv  13:                       qwen3next.attention.head_count u32    = 16
llama_model_loader: - kv  14:                    qwen3next.attention.head_count_kv u32    = 2
llama_model_loader: - kv  15:                       qwen3next.rope.freq_base f32          = 5000000.000000
llama_model_loader: - kv  16: qwen3next.attention.layer_norm_rms_epsilon f32              = 0.000001
llama_model_loader: - kv  17:                      qwen3next.expert_used_count u32        = 10
llama_model_loader: - kv  18:                    qwen3next.attention.key_length u32       = 256
llama_model_loader: - kv  19:                  qwen3next.attention.value_length u32       = 256
llama_model_loader: - kv  20:                               general.file_type u32         = 1
llama_model_loader: - kv  21:                                  qwen3next.expert_count u32 = 512
llama_model_loader: - kv  22:                    qwen3next.expert_feed_forward_length u32 = 512
llama_model_loader: - kv  23: qwen3next.expert_shared_feed_forward_length u32             = 512
llama_model_loader: - kv  24:                          qwen3next.ssm.conv_kernel u32      = 4
llama_model_loader: - kv  25:                          qwen3next.ssm.state_size u32       = 128
llama_model_loader: - kv  26:                          qwen3next.ssm.group_count u32      = 16
llama_model_loader: - kv  27:                         qwen3next.ssm.time_step_rank u32    = 32
llama_model_loader: - kv  28:                          qwen3next.ssm.inner_size u32       = 4096
llama_model_loader: - kv  29:                   qwen3next.rope.dimension_count u32        = 64
llama_model_loader: - kv  30:                        general.quantization_version u32     = 2
llama_model_loader: - kv  31:                               tokenizer.ggml.model str      = gpt2
llama_model_loader: - kv  32:                                 tokenizer.ggml.pre str      = qwen2
llama_model_loader: - kv  33:              tokenizer.ggml.tokens arr[str,151936]          = ["!", "\"", "#", "$", "%", "&", "'", ...
llama_model_loader: - kv  34:          tokenizer.ggml.token_type arr[i32,151936]          = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv  35:              tokenizer.ggml.merges arr[str,151387]          = ["Ġ Ġ", "ĠĠ ĠĠ", "i n", "Ġ t", ...
llama_model_loader: - kv  36:                      tokenizer.ggml.eos_token_id u32        = 151645
llama_model_loader: - kv  37:                  tokenizer.ggml.padding_token_id u32        = 151643
llama_model_loader: - kv  38:                      tokenizer.ggml.bos_token_id u32        = 151643
llama_model_loader: - kv  39:                    tokenizer.ggml.add_bos_token bool        = false
llama_model_loader: - kv  40:                           tokenizer.chat_template str       = {% macro render_extra_keys(json_dict, ...
llama_model_loader: - kv  41:                                           split.no u16      = 0
llama_model_loader: - kv  42:                                        split.count u16      = 4
llama_model_loader: - kv  43:                                split.tensors.count i32      = 807
llama_model_loader: type f32:  313 tensors
llama_model_loader: type f16:  494 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = F16
print_info: file size   = 148.50 GiB (16.01 BPW)
llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'qwen3next'
llama_model_load_from_file_impl: failed to load model
common_init_from_params: failed to load model '/data/models/TabbyML/Qwen3-Coder-Next/ggml/model-00001-of-00004.gguf'
srv    load_model: failed to load model, '/data/models/TabbyML/Qwen3-Coder-Next/ggml/model-00001-of-00004.gguf'
srv    operator(): operator(): cleaning up before exit...
```

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Unknown model architecture 'qwen3next' when using Qwen3-Coder-Next #4446

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Unknown model architecture 'qwen3next' when using Qwen3-Coder-Next #4446

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions