turbomind推理时ViT部分张量并行 #3690

LugerW-A · 2025-07-01T04:15:46Z

LugerW-A
Jul 1, 2025

turbomind在LLM部分很快，但是对于InternVL
其在vit部分依然采用的automap的流水线推理的模式，这极大的增加了整体的时延
对与pytorch engine，其vit部分已经实现了tp，我在尝试整合时遇到了困难。
有没有好心人解释一下如何将单纯的一个vit tp实现剥离出来，适配到turbomind推理前的vl_encoder.async_infer中去

LugerW-A · 2025-07-01T07:43:14Z

LugerW-A
Jul 1, 2025
Author

WIP

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

turbomind推理时ViT部分张量并行 #3690

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

turbomind推理时ViT部分张量并行 #3690

Uh oh!

LugerW-A Jul 1, 2025

Replies: 1 comment

Uh oh!

LugerW-A Jul 1, 2025 Author

LugerW-A
Jul 1, 2025

LugerW-A
Jul 1, 2025
Author