Does vLLM aim to place one expert entirely on a single device? #13019

Imagium719 · 2025-02-10T07:51:12Z

Imagium719
Feb 10, 2025

Hi there! I have a question regarding the behavior of vLLM during multi-GPU inference for MoE models. Specifically, does vLLM aim to place each expert entirely on a single device as much as possible, or does it slice experts and distribute them across multiple devices (using tensor parallelism)? I think this is important because the former approach has minimal requirements for GPU interconnect bandwidth, while the latter would require significantly higher bandwidth. Thanks in advance for your insights!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Does vLLM aim to place one expert entirely on a single device? #13019

{{title}}

Replies: 0 comments

Select a reply

Does vLLM aim to place one expert entirely on a single device? #13019

Imagium719 Feb 10, 2025

Replies: 0 comments

Imagium719
Feb 10, 2025