From d9817ba11ac9f77c69c8fbfe92427d0ea5f897b7 Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Fri, 27 Mar 2026 02:55:58 +0000
Subject: [PATCH 01/21] integrate deep-ep nccl backend (intranode + low_latency
 kernels

---
 lmdeploy/cli/serve.py                         |    4 +-
 lmdeploy/messages.py                          |    1 +
 lmdeploy/turbomind/deploy/config.py           |    1 +
 lmdeploy/turbomind/deploy/converter.py        |    1 +
 lmdeploy/turbomind/deploy/module.py           |    2 +-
 lmdeploy/turbomind/turbomind.py               |   21 +-
 src/turbomind/comm/device_comm.h              |   84 +
 src/turbomind/comm/nccl/CMakeLists.txt        |   20 +-
 src/turbomind/comm/nccl/deep_ep/config.hpp    |  193 +++
 src/turbomind/comm/nccl/deep_ep/deep_ep.cpp   | 1119 ++++++++++++++
 src/turbomind/comm/nccl/deep_ep/deep_ep.hpp   |  225 +++
 .../comm/nccl/deep_ep/gin_backend.cu          |  244 +++
 src/turbomind/comm/nccl/deep_ep/gin_backend.h |   82 +
 .../comm/nccl/deep_ep/kernels/api.cuh         |  380 +++++
 .../comm/nccl/deep_ep/kernels/buffer.cuh      |  134 ++
 .../comm/nccl/deep_ep/kernels/configs.cuh     |   81 +
 .../comm/nccl/deep_ep/kernels/exception.cuh   |   76 +
 .../comm/nccl/deep_ep/kernels/internode_ll.cu | 1348 +++++++++++++++++
 .../comm/nccl/deep_ep/kernels/intranode.cu    | 1110 ++++++++++++++
 .../comm/nccl/deep_ep/kernels/launch.cuh      |  138 ++
 .../comm/nccl/deep_ep/kernels/layout.cu       |  153 ++
 .../comm/nccl/deep_ep/kernels/runtime.cu      |   96 ++
 .../comm/nccl/deep_ep/kernels/utils.cuh       |  640 ++++++++
 src/turbomind/comm/nccl/nccl.cu               |  554 +++----
 src/turbomind/comm/nccl/nccl_comm.h           |  116 ++
 src/turbomind/comm/nccl/nccl_ep.cu            |  254 ++++
 src/turbomind/kernels/gemm/CMakeLists.txt     |    1 +
 src/turbomind/kernels/gemm/moe_ep_utils.cu    |  701 +++++++++
 src/turbomind/kernels/gemm/moe_ep_utils.h     |   63 +
 .../models/llama/FusedRMSNormLayer.h          |  172 +++
 .../models/llama/LlamaDecoderLayerWeight.cc   |    8 +-
 .../models/llama/LlamaDecoderLayerWeight.h    |    2 +
 .../models/llama/LlamaDenseWeight.cc          |   10 +-
 src/turbomind/models/llama/LlamaDenseWeight.h |    2 +
 src/turbomind/models/llama/llama_params.h     |    5 +
 src/turbomind/models/llama/llama_utils.cu     |    1 +
 src/turbomind/models/llama/moe_ffn_layer.cc   |  296 +++-
 src/turbomind/models/llama/moe_ffn_layer.h    |   24 +
 src/turbomind/models/llama/unified_decoder.cc |  240 +--
 src/turbomind/models/llama/unified_decoder.h  |   15 +-
 src/turbomind/turbomind.cc                    |   19 +-
 41 files changed, 8189 insertions(+), 447 deletions(-)
 create mode 100644 src/turbomind/comm/nccl/deep_ep/config.hpp
 create mode 100644 src/turbomind/comm/nccl/deep_ep/deep_ep.cpp
 create mode 100644 src/turbomind/comm/nccl/deep_ep/deep_ep.hpp
 create mode 100644 src/turbomind/comm/nccl/deep_ep/gin_backend.cu
 create mode 100644 src/turbomind/comm/nccl/deep_ep/gin_backend.h
 create mode 100644 src/turbomind/comm/nccl/deep_ep/kernels/api.cuh
 create mode 100644 src/turbomind/comm/nccl/deep_ep/kernels/buffer.cuh
 create mode 100644 src/turbomind/comm/nccl/deep_ep/kernels/configs.cuh
 create mode 100644 src/turbomind/comm/nccl/deep_ep/kernels/exception.cuh
 create mode 100644 src/turbomind/comm/nccl/deep_ep/kernels/internode_ll.cu
 create mode 100644 src/turbomind/comm/nccl/deep_ep/kernels/intranode.cu
 create mode 100644 src/turbomind/comm/nccl/deep_ep/kernels/launch.cuh
 create mode 100644 src/turbomind/comm/nccl/deep_ep/kernels/layout.cu
 create mode 100644 src/turbomind/comm/nccl/deep_ep/kernels/runtime.cu
 create mode 100644 src/turbomind/comm/nccl/deep_ep/kernels/utils.cuh
 create mode 100644 src/turbomind/comm/nccl/nccl_comm.h
 create mode 100644 src/turbomind/comm/nccl/nccl_ep.cu
 create mode 100644 src/turbomind/kernels/gemm/moe_ep_utils.cu
 create mode 100644 src/turbomind/kernels/gemm/moe_ep_utils.h
 create mode 100644 src/turbomind/models/llama/FusedRMSNormLayer.h

diff --git a/lmdeploy/cli/serve.py b/lmdeploy/cli/serve.py
index 155392f4a7..bd47ba33ea 100644
--- a/lmdeploy/cli/serve.py
+++ b/lmdeploy/cli/serve.py
@@ -121,7 +121,7 @@ def add_parser_api_server():
         hf_overrides = ArgumentHelper.hf_overrides(pt_group)
         disable_metrics = ArgumentHelper.disable_metrics(pt_group)
         dp = ArgumentHelper.dp(pt_group)
-        ArgumentHelper.ep(pt_group)
+        ep = ArgumentHelper.ep(pt_group)
         ArgumentHelper.enable_microbatch(pt_group)
         ArgumentHelper.enable_eplb(pt_group)
         ArgumentHelper.role(pt_group)
@@ -148,6 +148,7 @@ def add_parser_api_server():
         tb_group._group_actions.append(hf_overrides)
         tb_group._group_actions.append(disable_metrics)
         tb_group._group_actions.append(dp)
+        tb_group._group_actions.append(ep)
         ArgumentHelper.cp(tb_group)
         ArgumentHelper.rope_scaling_factor(tb_group)
         ArgumentHelper.num_tokens_per_iter(tb_group)
@@ -255,6 +256,7 @@ def api_server(args):
                                                    tp=args.tp,
                                                    dp=args.dp,
                                                    cp=args.cp,
+                                                   ep=args.ep,
                                                    nnodes=args.nnodes,
                                                    node_rank=args.node_rank,
                                                    dist_init_addr=args.dist_init_addr,
diff --git a/lmdeploy/messages.py b/lmdeploy/messages.py
index d6cd1a3329..540ee5a0a6 100644
--- a/lmdeploy/messages.py
+++ b/lmdeploy/messages.py
@@ -261,6 +261,7 @@ class TurbomindEngineConfig:
     tp: int = 1
     dp: int = 1
     cp: int = 1
+    ep: int = 1
     device_num: int = None
     attn_tp_size: int = None
     attn_cp_size: int = None
diff --git a/lmdeploy/turbomind/deploy/config.py b/lmdeploy/turbomind/deploy/config.py
index 8fdb95ac78..949f06ea6e 100644
--- a/lmdeploy/turbomind/deploy/config.py
+++ b/lmdeploy/turbomind/deploy/config.py
@@ -71,6 +71,7 @@ class ModelConfig:
     attn_tp_size: int = 1
     attn_cp_size: int = 1
     mlp_tp_size: int = 1
+    ep_size: int = 1
     model_format: str = 'hf'
     expert_num: list[int] = field(default_factory=list)
     expert_router_bias: bool = False
diff --git a/lmdeploy/turbomind/deploy/converter.py b/lmdeploy/turbomind/deploy/converter.py
index 05b1ba526f..0021c5caca 100644
--- a/lmdeploy/turbomind/deploy/converter.py
+++ b/lmdeploy/turbomind/deploy/converter.py
@@ -276,6 +276,7 @@ def get_tm_model(model_path,
         tm_cfg.model_config.attn_cp_size = engine_config.attn_cp_size
     if engine_config.mlp_tp_size is not None:
         tm_cfg.model_config.mlp_tp_size = engine_config.mlp_tp_size
+    tm_cfg.model_config.ep_size = engine_config.ep
 
     output_model = OUTPUT_MODELS.get(output_model_name)(input_model=input_model,
                                                         cfg=tm_cfg,
diff --git a/lmdeploy/turbomind/deploy/module.py b/lmdeploy/turbomind/deploy/module.py
index 330fbacc9e..f8e06c56fd 100644
--- a/lmdeploy/turbomind/deploy/module.py
+++ b/lmdeploy/turbomind/deploy/module.py
@@ -140,7 +140,7 @@ class Ffn(Module):
 
     def __init__(self, model: BaseOutputModel):
         self.model = model
-        self.tp = model.mlp_tp_size
+        self.tp = model.mlp_tp_size if model.model_config.ep_size == 1 else 1
         # inter_sizes in config are padded and may be different from what's
         # in the weights
         self.inter_size = model.model_config.inter_size
diff --git a/lmdeploy/turbomind/turbomind.py b/lmdeploy/turbomind/turbomind.py
index f95b2b93ca..d8b2b5a3b2 100644
--- a/lmdeploy/turbomind/turbomind.py
+++ b/lmdeploy/turbomind/turbomind.py
@@ -86,7 +86,26 @@ def complete_parallel_config(cfg: TurbomindEngineConfig):
 
 def update_parallel_config(cfg: TurbomindEngineConfig):
     cfg.device_num = len(cfg.devices) * cfg.nnodes if cfg.devices else cfg.device_num
-    if not complete_parallel_config(cfg):
+    if not complete_parallel_config(cfg) and cfg.ep > 1:
+        if cfg.communicator in ['cuda-ipc', 'native']:
+            assert cfg.nnodes == 1, 'TurboMind does not support multi-node with ep > 1'
+        total = cfg.dp * cfg.ep
+        if not cfg.device_num:
+            count = torch.cuda.device_count() * cfg.nnodes
+            if total < count:
+                count = total
+            cfg.device_num = count
+        assert total % cfg.device_num == 0
+        overlap = total // cfg.device_num
+        attn_dp_size = overlap
+        inner_tp_size = cfg.ep // overlap
+        cfg.outer_dp_size = cfg.dp // overlap
+        cfg.attn_dp_size = overlap // cfg.nnodes
+        cfg.attn_tp_size = inner_tp_size // cfg.cp
+        cfg.attn_cp_size = cfg.cp
+        cfg.mlp_dp_size = 1
+        cfg.mlp_tp_size = cfg.attn_dp_size * cfg.attn_tp_size * cfg.attn_cp_size
+    elif not complete_parallel_config(cfg):
         total = cfg.dp * cfg.tp
         if not cfg.device_num:
             count = torch.cuda.device_count() * cfg.nnodes
diff --git a/src/turbomind/comm/device_comm.h b/src/turbomind/comm/device_comm.h
index a6948762df..0c85ac7ebf 100644
--- a/src/turbomind/comm/device_comm.h
+++ b/src/turbomind/comm/device_comm.h
@@ -9,9 +9,58 @@
 #include <cuda_runtime.h>
 
 #include "src/turbomind/comm/host_comm.h"
+#include "src/turbomind/core/buffer.h"
+#include "src/turbomind/core/tensor.h"
 
 namespace turbomind::comm {
 
+struct EpConfig {
+    int num_nodes;
+    int num_experts;
+    int hidden;
+    int ll_max_tokens_per_rank;
+};
+
+enum EpMode
+{
+    kNull,
+    kHighThroughput,
+    kLowLatency,
+};
+
+struct EpDispatchInput {
+    EpMode&                 mode;
+    core::Tensor&           x;
+    core::Tensor_<float>&   topk_weights;
+    core::Tensor_<int64_t>& topk_idx;
+};
+
+struct EpDispatchOutput {
+    core::Tensor        out_x;
+    core::Tensor        out_topk_weights;
+    core::Buffer_<int>& f2n;
+    core::Buffer_<int>& f2E;
+    core::Buffer_<int>& en2f;
+    core::Buffer_<int>& offsets;
+
+    std::vector<core::Tensor> handle;
+
+    int out_token_num;
+    int out_expert_token_num;
+};
+
+struct EpCombineInput {
+    EpMode&                     mode;
+    core::Tensor&               x;
+    std::vector<core::Tensor>&  handle;
+    std::optional<core::Tensor> topk_weights;
+    std::optional<core::Tensor> topk_idx;
+};
+
+struct EpCombineOutput {
+    core::Tensor out_x;
+};
+
 enum QueryAttr
 {
     kHasAllGather2D
@@ -117,6 +166,41 @@ class DeviceCommImpl {
     {
         throw std::runtime_error("not implemented");
     }
+
+    virtual void ReduceScatterV(const void*   sendbuff,  //
+                                void*         recvbuff,
+                                const size_t* counts,
+                                DataType      type,
+                                int           group,
+                                cudaStream_t  stream)
+    {
+        throw std::runtime_error("not implemented");
+    }
+
+    virtual void AllGatherV(const void*   sendbuff,  //
+                            void*         recvbuff,
+                            const size_t* counts,
+                            DataType      type,
+                            int           group,
+                            cudaStream_t  stream)
+    {
+        throw std::runtime_error("not implemented");
+    }
+
+    virtual void InitializeEp(const EpConfig& config)
+    {
+        throw std::runtime_error("ep not implemented");
+    }
+
+    virtual void Dispatch(const EpDispatchInput& input, EpDispatchOutput& output, int group)
+    {
+        throw std::runtime_error("not implemented");
+    }
+
+    virtual void Combine(const EpCombineInput& input, EpCombineOutput& output, int group)
+    {
+        throw std::runtime_error("not implemented");
+    }
 };
 
 class DeviceComm {
diff --git a/src/turbomind/comm/nccl/CMakeLists.txt b/src/turbomind/comm/nccl/CMakeLists.txt
index 373558c84e..2c63c0a122 100644
--- a/src/turbomind/comm/nccl/CMakeLists.txt
+++ b/src/turbomind/comm/nccl/CMakeLists.txt
@@ -2,8 +2,24 @@
 
 cmake_minimum_required(VERSION 3.11)
 
-add_library(nccl_comm STATIC nccl.cu)
-target_link_libraries(nccl_comm PRIVATE rms_norm core ${NCCL_LIBRARIES} logger)
+set(DEEP_EP_SOURCE_FILES
+    deep_ep/deep_ep.cpp
+    deep_ep/gin_backend.cu
+    deep_ep/kernels/runtime.cu
+    deep_ep/kernels/layout.cu
+    deep_ep/kernels/intranode.cu
+    deep_ep/kernels/internode_ll.cu
+)
+
+add_library(deepep STATIC ${DEEP_EP_SOURCE_FILES})
+target_link_libraries(deepep PRIVATE ${NCCL_LIBRARIES} CUDA::cudart)
+set_property(TARGET deepep PROPERTY CUDA_ARCHITECTURES 90)
+target_include_directories(deepep PRIVATE ${NCCL_INCLUDE_DIRS})
+set_property(TARGET deepep PROPERTY POSITION_INDEPENDENT_CODE ON)
+set_property(TARGET deepep PROPERTY CUDA_RESOLVE_DEVICE_SYMBOLS ON)
+
+add_library(nccl_comm STATIC nccl.cu nccl_ep.cu)
+target_link_libraries(nccl_comm PRIVATE rms_norm core ${NCCL_LIBRARIES} logger deepep)
 target_include_directories(nccl_comm PRIVATE ${NCCL_INCLUDE_DIRS})
 
 set_property(TARGET nccl_comm PROPERTY POSITION_INDEPENDENT_CODE  ON)
diff --git a/src/turbomind/comm/nccl/deep_ep/config.hpp b/src/turbomind/comm/nccl/deep_ep/config.hpp
new file mode 100644
index 0000000000..0839265799
--- /dev/null
+++ b/src/turbomind/comm/nccl/deep_ep/config.hpp
@@ -0,0 +1,193 @@
+// clang-format off
+#pragma once
+
+#include "kernels/api.cuh"
+#include "kernels/exception.cuh"
+
+namespace deep_ep {
+
+template <typename dtype_t>
+dtype_t ceil_div(dtype_t a, dtype_t b) {
+    return (a + b - 1) / b;
+}
+
+template <typename dtype_t>
+dtype_t align_up(dtype_t a, dtype_t b) {
+    return ceil_div<dtype_t>(a, b) * b;
+}
+
+template <typename dtype_t>
+dtype_t align_down(dtype_t a, dtype_t b) {
+    return a / b * b;
+}
+
+struct Config {
+    int num_sms;
+    int num_max_nvl_chunked_send_tokens;
+    int num_max_nvl_chunked_recv_tokens;
+    int num_max_rdma_chunked_send_tokens;
+    int num_max_rdma_chunked_recv_tokens;
+
+    Config(int num_sms,
+           int num_max_nvl_chunked_send_tokens,
+           int num_max_nvl_chunked_recv_tokens,
+           int num_max_rdma_chunked_send_tokens,
+           int num_max_rdma_chunked_recv_tokens)
+        : num_sms(num_sms),
+          num_max_nvl_chunked_send_tokens(num_max_nvl_chunked_send_tokens),
+          num_max_nvl_chunked_recv_tokens(num_max_nvl_chunked_recv_tokens),
+          num_max_rdma_chunked_send_tokens(num_max_rdma_chunked_send_tokens),
+          num_max_rdma_chunked_recv_tokens(num_max_rdma_chunked_recv_tokens) {
+        EP_HOST_ASSERT(num_sms >= 0);
+        EP_HOST_ASSERT(num_max_nvl_chunked_send_tokens > 0 and num_max_nvl_chunked_recv_tokens > 0);
+        EP_HOST_ASSERT(num_max_nvl_chunked_send_tokens < num_max_nvl_chunked_recv_tokens);
+        EP_HOST_ASSERT(num_max_rdma_chunked_send_tokens > 0 and num_max_rdma_chunked_recv_tokens > 0);
+
+        // Ceil up RDMA buffer size
+        this->num_max_rdma_chunked_recv_tokens = align_up<int>(num_max_rdma_chunked_recv_tokens, num_max_rdma_chunked_send_tokens);
+        EP_HOST_ASSERT(num_max_rdma_chunked_send_tokens < num_max_rdma_chunked_recv_tokens);
+        // NOTES: this assertion is related to RDMA lazy head update, we must ensure senders always have space to push
+        EP_HOST_ASSERT(num_max_rdma_chunked_send_tokens <= num_max_rdma_chunked_recv_tokens / 2);
+    }
+
+    size_t get_nvl_buffer_size_hint(size_t hidden_bytes, int num_ranks) const {
+        // Below are some assumptions
+        // TODO: add assertions
+        constexpr int kNumMaxTopK = 128;
+        constexpr int kNumMaxScales = 128;
+        EP_HOST_ASSERT(num_ranks < NUM_MAX_NVL_PEERS or num_ranks % NUM_MAX_NVL_PEERS == 0);
+        EP_HOST_ASSERT(num_ranks <= NUM_MAX_NVL_PEERS or num_sms % 2 == 0);
+        const auto num_rdma_ranks = std::max(num_ranks / NUM_MAX_NVL_PEERS, 1);
+        const auto num_nvl_ranks = std::min(num_ranks, NUM_MAX_NVL_PEERS);
+        const int num_channels = num_sms / 2;
+
+        size_t num_bytes = 0;
+        num_bytes += num_channels * num_nvl_ranks * (2 * num_rdma_ranks + 3) * sizeof(int);
+        num_bytes += num_channels * num_nvl_ranks * num_max_nvl_chunked_recv_tokens * hidden_bytes;
+        num_bytes += num_channels * num_nvl_ranks * num_max_nvl_chunked_recv_tokens * internode::get_source_meta_bytes();
+        num_bytes += num_channels * num_nvl_ranks * num_max_nvl_chunked_recv_tokens * kNumMaxTopK * sizeof(topk_idx_t);
+        num_bytes += num_channels * num_nvl_ranks * num_max_nvl_chunked_recv_tokens * kNumMaxTopK * sizeof(float);
+        num_bytes += num_channels * num_nvl_ranks * num_max_nvl_chunked_recv_tokens * kNumMaxScales * sizeof(float);
+        num_bytes = ((num_bytes + 127) / 128) * 128;
+        return num_bytes;
+    }
+
+    size_t get_rdma_buffer_size_hint(int64_t hidden_bytes, int num_ranks) const {
+        // Legacy mode
+        if (num_ranks <= NUM_MAX_NVL_PEERS)
+            return 0;
+
+        // Below are some assumptions
+        // TODO: add assertions
+        constexpr int kNumMaxTopK = 128;
+        constexpr int kNumMaxScales = 128;
+        EP_HOST_ASSERT(num_ranks % NUM_MAX_NVL_PEERS == 0);
+        EP_HOST_ASSERT(num_sms % 2 == 0);
+        const int num_rdma_ranks = num_ranks / NUM_MAX_NVL_PEERS;
+        const int num_channels = num_sms / 2;
+
+        size_t num_bytes = 0;
+        num_bytes += num_channels * num_rdma_ranks * (NUM_MAX_NVL_PEERS * 2 + 2) * 2 * sizeof(int);
+        num_bytes += num_channels * num_rdma_ranks * num_max_rdma_chunked_recv_tokens * hidden_bytes * 2;
+        num_bytes += num_channels * num_rdma_ranks * num_max_rdma_chunked_recv_tokens * internode::get_source_meta_bytes() * 2;
+        num_bytes += num_channels * num_rdma_ranks * num_max_rdma_chunked_recv_tokens * kNumMaxTopK * sizeof(topk_idx_t) * 2;
+        num_bytes += num_channels * num_rdma_ranks * num_max_rdma_chunked_recv_tokens * kNumMaxTopK * sizeof(float) * 2;
+        num_bytes += num_channels * num_rdma_ranks * num_max_rdma_chunked_recv_tokens * kNumMaxScales * sizeof(float) * 2;
+        num_bytes += num_channels * num_rdma_ranks * num_max_rdma_chunked_recv_tokens * sizeof(int4) * 2;
+        num_bytes = ((num_bytes + 127) / 128) * 128;
+        return num_bytes;
+    }
+};
+
+struct LowLatencyBuffer {
+    int num_clean_int = 0;
+
+    void* dispatch_rdma_send_buffer = nullptr;
+    void* dispatch_rdma_recv_data_buffer = nullptr;
+    int* dispatch_rdma_recv_count_buffer = nullptr;
+
+    void* combine_rdma_send_buffer = nullptr;
+    void* combine_rdma_recv_data_buffer = nullptr;
+    int* combine_rdma_recv_flag_buffer = nullptr;
+
+    void* combine_rdma_send_buffer_data_start = nullptr;
+    size_t num_bytes_per_combine_msg = 0;
+
+    std::pair<int*, int> clean_meta() {
+        EP_HOST_ASSERT(dispatch_rdma_recv_count_buffer == combine_rdma_recv_flag_buffer);
+        return {dispatch_rdma_recv_count_buffer, num_clean_int};
+    }
+};
+
+struct LowLatencyLayout {
+    void* rdma_buffer = nullptr;
+    size_t total_bytes = 0;
+    LowLatencyBuffer buffers[2];
+
+    template <typename out_ptr_t = void*, typename count_ptr_t = uint8_t*, typename in_ptr_t = void*>
+    out_ptr_t advance(const in_ptr_t& ptr, size_t count) {
+        return reinterpret_cast<out_ptr_t>(reinterpret_cast<count_ptr_t>(ptr) + count);
+    }
+
+    LowLatencyLayout(void* rdma_buffer, int num_max_dispatch_tokens_per_rank, int hidden, int num_ranks, int num_experts): rdma_buffer(rdma_buffer) {
+        const int num_scales = hidden / 128;
+
+        // Dispatch and combine layout:
+        //  - 2 symmetric odd/even send buffer
+        //  - 2 symmetric odd/even receive buffers
+        //  - 2 symmetric odd/even signaling buffers
+
+        // Message sizes
+        // NOTES: you should add a control `int4` for combine messages if you want to do data transformation
+        // NOTES: `num_scales * sizeof(nv_bfloat162)` means the per-128-channel min/max
+        EP_HOST_ASSERT(num_scales * sizeof(float) <= hidden);
+        size_t num_bytes_per_dispatch_msg = sizeof(int4) + std::max(hidden * sizeof(nv_bfloat16), hidden + num_scales * sizeof(float));
+        size_t num_bytes_per_combine_msg = num_scales * sizeof(nv_bfloat162) + hidden * sizeof(nv_bfloat16);
+
+        // Send buffer
+        size_t dispatch_send_buffer_bytes = num_max_dispatch_tokens_per_rank * num_bytes_per_dispatch_msg;
+        size_t combine_send_buffer_bytes = num_experts * num_max_dispatch_tokens_per_rank * num_bytes_per_combine_msg;
+        size_t send_buffer_bytes = std::max(dispatch_send_buffer_bytes, combine_send_buffer_bytes);
+        EP_HOST_ASSERT(send_buffer_bytes % sizeof(int4) == 0);
+        total_bytes += send_buffer_bytes * 2;
+
+        // Symmetric receive buffers
+        // TODO: optimize memory usages
+        size_t dispatch_recv_data_buffer_bytes = num_experts * num_max_dispatch_tokens_per_rank * num_bytes_per_dispatch_msg;
+        size_t combine_recv_buffer_bytes = num_experts * num_max_dispatch_tokens_per_rank * num_bytes_per_combine_msg;
+        size_t recv_buffer_bytes = std::max(dispatch_recv_data_buffer_bytes, combine_recv_buffer_bytes);
+        EP_HOST_ASSERT(recv_buffer_bytes % sizeof(int4) == 0);
+        total_bytes += recv_buffer_bytes * 2;
+
+        // Symmetric signaling buffers
+        size_t dispatch_recv_count_buffer_bytes = num_experts * sizeof(int);
+        size_t combine_recv_flag_buffer_bytes = dispatch_recv_count_buffer_bytes;
+        size_t signaling_buffer_bytes = std::max(dispatch_recv_count_buffer_bytes, combine_recv_flag_buffer_bytes);
+        size_t signaling_buffer_bytes_aligned = align_up<size_t>(signaling_buffer_bytes, 128);
+        total_bytes += signaling_buffer_bytes_aligned * 2;
+
+        // Assign pointers
+        // NOTES: we still leave some space for distinguishing dispatch/combine buffer,
+        // so you may see some parameters are duplicated
+        for (int i = 0; i < 2; ++i) {
+            buffers[i] = {static_cast<int>(signaling_buffer_bytes / sizeof(int)),
+                          advance(rdma_buffer, signaling_buffer_bytes_aligned * 2 + send_buffer_bytes * i),
+                          advance(rdma_buffer, signaling_buffer_bytes_aligned * 2 + send_buffer_bytes * 2 + recv_buffer_bytes * i),
+                          advance<int*>(rdma_buffer, signaling_buffer_bytes_aligned * i),
+                          advance(rdma_buffer, signaling_buffer_bytes_aligned * 2 + send_buffer_bytes * i),
+                          advance(rdma_buffer, signaling_buffer_bytes_aligned * 2 + send_buffer_bytes * 2 + recv_buffer_bytes * i),
+                          advance<int*>(rdma_buffer, signaling_buffer_bytes_aligned * i),
+                          advance(rdma_buffer, signaling_buffer_bytes_aligned * 2 + send_buffer_bytes * i),
+                          num_bytes_per_combine_msg};
+        }
+    }
+};
+
+inline size_t get_low_latency_rdma_size_hint(int num_max_dispatch_tokens_per_rank, int hidden, int num_ranks, int num_experts) {
+    auto num_bytes = LowLatencyLayout(nullptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts).total_bytes;
+    return ((num_bytes + NUM_BUFFER_ALIGNMENT_BYTES) / NUM_BUFFER_ALIGNMENT_BYTES) * NUM_BUFFER_ALIGNMENT_BYTES;
+}
+
+}  // namespace deep_ep
+
+// clang-format on
diff --git a/src/turbomind/comm/nccl/deep_ep/deep_ep.cpp b/src/turbomind/comm/nccl/deep_ep/deep_ep.cpp
new file mode 100644
index 0000000000..ee2b469176
--- /dev/null
+++ b/src/turbomind/comm/nccl/deep_ep/deep_ep.cpp
@@ -0,0 +1,1119 @@
+#include "src/turbomind/comm/nccl/deep_ep/deep_ep.hpp"
+
+#include "kernels/api.cuh"
+#include "kernels/exception.cuh"
+#include "src/turbomind/comm/host_comm.h"
+#include "src/turbomind/core/allocator.h"
+#include "src/turbomind/core/context.h"
+#include "src/turbomind/core/data_type.h"
+#include "src/turbomind/kernels/core/math.h"
+#include "src/turbomind/utils/cuda_utils.h"
+#include "src/turbomind/utils/string_utils.h"
+
+#include <chrono>
+#include <cstdint>
+#include <cstdlib>
+#include <limits>
+#include <numeric>
+#include <type_traits>
+#include <unordered_map>
+
+using turbomind::fmtstr;
+using turbomind::round_up;
+
+namespace shared_memory {
+void cu_mem_set_access_all(void* ptr, size_t size)
+{
+    int device_count;
+    CUDA_CHECK(cudaGetDeviceCount(&device_count));
+
+    CUmemAccessDesc access_desc[device_count];
+    for (int idx = 0; idx < device_count; ++idx) {
+        access_desc[idx].location.type = CU_MEM_LOCATION_TYPE_DEVICE;
+        access_desc[idx].location.id   = idx;
+        access_desc[idx].flags         = CU_MEM_ACCESS_FLAGS_PROT_READWRITE;
+    }
+
+    CU_CHECK(cuMemSetAccess((CUdeviceptr)ptr, size, access_desc, device_count));
+}
+
+void cu_mem_free(void* ptr)
+{
+    CUmemGenericAllocationHandle handle;
+    CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
+
+    size_t size = 0;
+    CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
+
+    CU_CHECK(cuMemUnmap((CUdeviceptr)ptr, size));
+    CU_CHECK(cuMemAddressFree((CUdeviceptr)ptr, size));
+    CU_CHECK(cuMemRelease(handle));
+}
+
+size_t get_size_align_to_granularity(size_t size_raw, size_t granularity)
+{
+    size_t size = (size_raw + granularity - 1) & ~(granularity - 1);
+    if (size == 0)
+        size = granularity;
+    return size;
+}
+
+SharedMemoryAllocator::SharedMemoryAllocator(bool use_fabric): use_fabric(use_fabric) {}
+
+void SharedMemoryAllocator::malloc(void** ptr, size_t size_raw)
+{
+    if (use_fabric) {
+        CUdevice device;
+        CU_CHECK(cuCtxGetDevice(&device));
+
+        CUmemAllocationProp prop  = {};
+        prop.type                 = CU_MEM_ALLOCATION_TYPE_PINNED;
+        prop.location.type        = CU_MEM_LOCATION_TYPE_DEVICE;
+        prop.requestedHandleTypes = CU_MEM_HANDLE_TYPE_FABRIC;
+        prop.location.id          = device;
+
+        size_t granularity = 0;
+        CU_CHECK(cuMemGetAllocationGranularity(&granularity, &prop, CU_MEM_ALLOC_GRANULARITY_MINIMUM));
+
+        size_t size = get_size_align_to_granularity(size_raw, granularity);
+
+        CUmemGenericAllocationHandle handle;
+        CU_CHECK(cuMemCreate(&handle, size, &prop, 0));
+
+        CU_CHECK(cuMemAddressReserve((CUdeviceptr*)ptr, size, granularity, 0, 0));
+        CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
+        cu_mem_set_access_all(*ptr, size);
+    }
+    else {
+        CUDA_CHECK(cudaMalloc(ptr, size_raw));
+    }
+}
+
+void SharedMemoryAllocator::free(void* ptr)
+{
+    if (use_fabric) {
+        cu_mem_free(ptr);
+    }
+    else {
+        CUDA_CHECK(cudaFree(ptr));
+    }
+}
+
+void SharedMemoryAllocator::get_mem_handle(MemHandle* mem_handle, void* ptr)
+{
+    size_t size = 0;
+    CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
+
+    mem_handle->size = size;
+
+    if (use_fabric) {
+        CUmemGenericAllocationHandle handle;
+        CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
+
+        CU_CHECK(cuMemExportToShareableHandle(
+            &mem_handle->inner.cu_mem_fabric_handle, handle, CU_MEM_HANDLE_TYPE_FABRIC, 0));
+    }
+    else {
+        CUDA_CHECK(cudaIpcGetMemHandle(&mem_handle->inner.cuda_ipc_mem_handle, ptr));
+    }
+}
+
+void SharedMemoryAllocator::open_mem_handle(void** ptr, MemHandle* mem_handle)
+{
+    if (use_fabric) {
+        size_t size = mem_handle->size;
+
+        CUmemGenericAllocationHandle handle;
+        CU_CHECK(cuMemImportFromShareableHandle(
+            &handle, &mem_handle->inner.cu_mem_fabric_handle, CU_MEM_HANDLE_TYPE_FABRIC));
+
+        CU_CHECK(cuMemAddressReserve((CUdeviceptr*)ptr, size, 0, 0, 0));
+        CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
+        cu_mem_set_access_all(*ptr, size);
+    }
+    else {
+        CUDA_CHECK(cudaIpcOpenMemHandle(ptr, mem_handle->inner.cuda_ipc_mem_handle, cudaIpcMemLazyEnablePeerAccess));
+    }
+}
+
+void SharedMemoryAllocator::close_mem_handle(void* ptr)
+{
+    if (use_fabric) {
+        cu_mem_free(ptr);
+    }
+    else {
+        CUDA_CHECK(cudaIpcCloseMemHandle(ptr));
+    }
+}
+}  // namespace shared_memory
+
+namespace deep_ep {
+
+Buffer::Buffer(int      rank,
+               int      num_ranks,
+               int64_t  num_nvl_bytes,
+               int64_t  num_rdma_bytes,
+               int64_t  num_ll_rdma_bytes,
+               bool     low_latency_mode,
+               bool     enable_shrink,
+               bool     use_fabric,
+               int      qps_per_rank,
+               HostComm h_comm):
+    rank(rank),
+    num_ranks(num_ranks),
+    num_nvl_bytes(num_nvl_bytes),
+    low_latency_mode(low_latency_mode),
+    num_rdma_bytes(num_rdma_bytes),
+    num_ll_rdma_bytes(num_ll_rdma_bytes),
+    enable_shrink(enable_shrink),
+    shared_memory_allocator(use_fabric),
+    qps_per_rank(qps_per_rank),
+    h_comm(h_comm)
+{
+    // move to turbomind.py
+    setenv("NCCL_GIN_GDAKI_QP_DEPTH", "1024", 0);
+
+    // Common checks
+    EP_STATIC_ASSERT(NUM_BUFFER_ALIGNMENT_BYTES % sizeof(int4) == 0, "Invalid alignment");
+    EP_HOST_ASSERT(num_nvl_bytes % NUM_BUFFER_ALIGNMENT_BYTES == 0
+                   and (num_nvl_bytes <= std::numeric_limits<int>::max() or num_rdma_bytes == 0));
+    EP_HOST_ASSERT(num_rdma_bytes % NUM_BUFFER_ALIGNMENT_BYTES == 0
+                   and (low_latency_mode or num_rdma_bytes <= std::numeric_limits<int>::max()));
+    EP_HOST_ASSERT(num_nvl_bytes / sizeof(int4) < std::numeric_limits<int>::max());
+    EP_HOST_ASSERT(num_rdma_bytes / sizeof(int4) < std::numeric_limits<int>::max());
+    EP_HOST_ASSERT(0 <= rank and rank < num_ranks
+                   and (num_ranks <= NUM_MAX_NVL_PEERS * NUM_MAX_RDMA_PEERS or low_latency_mode));
+    EP_HOST_ASSERT(num_ranks < NUM_MAX_NVL_PEERS or num_ranks % NUM_MAX_NVL_PEERS == 0);
+    if (num_rdma_bytes > 0) {
+        EP_HOST_ASSERT(num_ranks > NUM_MAX_NVL_PEERS or low_latency_mode);
+    }
+
+    // Get ranks
+    CUDA_CHECK(cudaGetDevice(&device_id));
+    rdma_rank = rank / NUM_MAX_NVL_PEERS, nvl_rank = rank % NUM_MAX_NVL_PEERS;
+    num_rdma_ranks = std::max(1, num_ranks / NUM_MAX_NVL_PEERS), num_nvl_ranks = std::min(num_ranks, NUM_MAX_NVL_PEERS);
+
+    // Get device info
+    cudaDeviceProp device_prop = {};
+    CUDA_CHECK(cudaGetDeviceProperties(&device_prop, device_id));
+    num_device_sms = device_prop.multiProcessorCount;
+
+    // Number of per-channel bytes cannot be large
+    EP_HOST_ASSERT(ceil_div<int64_t>(num_nvl_bytes, num_device_sms / 2) < std::numeric_limits<int>::max());
+    EP_HOST_ASSERT(ceil_div<int64_t>(num_rdma_bytes, num_device_sms / 2) < std::numeric_limits<int>::max());
+
+    auto comm_stream = turbomind::core::Context::stream().handle();
+
+    // Create 32 MiB workspace
+    CUDA_CHECK(cudaMalloc(&workspace, NUM_WORKSPACE_BYTES));
+    CUDA_CHECK(cudaMemsetAsync(workspace, 0, NUM_WORKSPACE_BYTES, comm_stream));
+
+    // MoE counter
+    CUDA_CHECK(cudaMallocHost(&moe_recv_counter, sizeof(int64_t), cudaHostAllocMapped));
+    CUDA_CHECK(cudaHostGetDevicePointer(&moe_recv_counter_mapped, const_cast<int*>(moe_recv_counter), 0));
+    *moe_recv_counter = -1;
+
+    // MoE expert-level counter
+    CUDA_CHECK(cudaMallocHost(&moe_recv_expert_counter, sizeof(int) * NUM_MAX_LOCAL_EXPERTS, cudaHostAllocMapped));
+    CUDA_CHECK(cudaHostGetDevicePointer(&moe_recv_expert_counter_mapped, const_cast<int*>(moe_recv_expert_counter), 0));
+    for (int i = 0; i < NUM_MAX_LOCAL_EXPERTS; ++i)
+        moe_recv_expert_counter[i] = -1;
+
+    // MoE RDMA-level counter
+    if (num_rdma_ranks > 0) {
+        CUDA_CHECK(cudaMallocHost(&moe_recv_rdma_counter, sizeof(int), cudaHostAllocMapped));
+        CUDA_CHECK(cudaHostGetDevicePointer(&moe_recv_rdma_counter_mapped, const_cast<int*>(moe_recv_rdma_counter), 0));
+        *moe_recv_rdma_counter = -1;
+    }
+
+    // NVLink
+    if (num_nvl_bytes > 0) {
+        allocate_sync_nvl_buffer();
+    }
+
+    // RDMA
+    if (num_rdma_bytes || num_ll_rdma_bytes) {
+        allocate_rdma_buffer();
+    }
+
+    turbomind::core::Context::stream().Sync();
+    h_comm->Sync();
+
+    // Ready to use
+    available = true;
+}
+
+void Buffer::allocate_sync_nvl_buffer()
+{
+    // Metadata memory
+    int64_t barrier_signal_bytes     = NUM_MAX_NVL_PEERS * sizeof(int);
+    int64_t buffer_ptr_bytes         = NUM_MAX_NVL_PEERS * sizeof(void*);
+    int64_t barrier_signal_ptr_bytes = NUM_MAX_NVL_PEERS * sizeof(int*);
+
+    auto stream = turbomind::core::Context::stream().handle();
+
+    HostComm h_nvl_comm = h_comm->Split(rdma_rank, 0);
+
+    ipc_comm = CreateDeviceCommunicator("cuda-ipc", h_nvl_comm->n_ranks(), nvl_rank, h_nvl_comm);
+
+    buffer_ptrs[nvl_rank] =
+        ipc_comm->Allocate(num_nvl_bytes + barrier_signal_bytes + buffer_ptr_bytes + barrier_signal_ptr_bytes);
+
+    buffer_ptrs_gpu =
+        reinterpret_cast<void**>(static_cast<uint8_t*>(buffer_ptrs[nvl_rank]) + num_nvl_bytes + barrier_signal_bytes);
+
+    // Set barrier signals
+    barrier_signal_ptrs[nvl_rank] =
+        reinterpret_cast<int*>(static_cast<uint8_t*>(buffer_ptrs[nvl_rank]) + num_nvl_bytes);
+    barrier_signal_ptrs_gpu = reinterpret_cast<int**>(static_cast<uint8_t*>(buffer_ptrs[nvl_rank]) + num_nvl_bytes
+                                                      + barrier_signal_bytes + buffer_ptr_bytes);
+
+    // No need to synchronize, will do a full device sync during `sync`
+    CUDA_CHECK(cudaMemsetAsync(barrier_signal_ptrs[nvl_rank], 0, barrier_signal_bytes, stream));
+
+    AllGather(h_nvl_comm, buffer_ptrs, 1);
+
+    for (int i = 0; i < num_nvl_ranks; ++i) {
+        if (i != nvl_rank) {
+            barrier_signal_ptrs[i] = reinterpret_cast<int*>(static_cast<uint8_t*>(buffer_ptrs[i]) + num_nvl_bytes);
+        }
+    }
+
+    // Copy all buffer and barrier signal pointers to GPU
+    CUDA_CHECK(cudaMemcpyAsync(
+        buffer_ptrs_gpu, buffer_ptrs, sizeof(void*) * NUM_MAX_NVL_PEERS, cudaMemcpyHostToDevice, stream));
+    CUDA_CHECK(cudaMemcpyAsync(barrier_signal_ptrs_gpu,
+                               barrier_signal_ptrs,
+                               sizeof(int*) * NUM_MAX_NVL_PEERS,
+                               cudaMemcpyHostToDevice,
+                               stream));
+}
+
+void Buffer::allocate_rdma_buffer()
+{
+    TM_CHECK_EQ(comm, nullptr);
+    if ((not low_latency_mode) and (num_rdma_ranks == 1)) {
+        return;
+    }
+
+    std::vector<uint8_t> unique_ids;
+    if (rank == 0) {
+        unique_ids = deep_ep::internode::get_unique_id();
+    }
+    Broadcast(h_comm, unique_ids, 0);
+
+    comm = std::make_shared<internode::NCCLGINBackend>();
+    comm->init(unique_ids, rank, num_ranks, low_latency_mode, qps_per_rank);
+    internode::barrier(comm.get());
+
+    auto stream = turbomind::core::Context::stream().handle();
+
+    if (num_rdma_bytes) {
+        // Allocate High-Throughput RDMA buffer
+        rdma_buffer_ptr = internode::alloc(num_rdma_bytes, NUM_BUFFER_ALIGNMENT_BYTES, comm.get());
+        // Register memory with NCCL communicators (sets up windows for RDMA)
+        internode::register_memory(rdma_buffer_ptr, num_rdma_bytes, comm.get());
+    }
+
+    if (num_ll_rdma_bytes) {
+        // Allocate Low-Latency RDMA buffer
+        rdma_ll_buffer_ptr = internode::alloc(num_ll_rdma_bytes, NUM_BUFFER_ALIGNMENT_BYTES, comm.get());
+        // Register memory with NCCL communicators (sets up windows for RDMA)
+        internode::register_memory(rdma_ll_buffer_ptr, num_ll_rdma_bytes, comm.get());
+
+        // Clean buffer (mainly for low-latency mode)
+        CUDA_CHECK(cudaMemsetAsync(rdma_ll_buffer_ptr, 0, num_ll_rdma_bytes, stream));
+
+        internode_ll::set_p2p_disabled_flag(comm->is_p2p_disabled());
+    }
+
+    // Allocate and clean shrink buffer
+    if (enable_shrink) {
+        int num_mask_buffer_bytes = num_ranks * sizeof(int);
+        int num_sync_buffer_bytes = num_ranks * sizeof(int);
+        mask_buffer_ptr =
+            reinterpret_cast<int*>(internode::alloc(num_mask_buffer_bytes, NUM_BUFFER_ALIGNMENT_BYTES, comm.get()));
+        sync_buffer_ptr =
+            reinterpret_cast<int*>(internode::alloc(num_sync_buffer_bytes, NUM_BUFFER_ALIGNMENT_BYTES, comm.get()));
+        CUDA_CHECK(cudaMemsetAsync(mask_buffer_ptr, 0, num_mask_buffer_bytes, stream));
+        CUDA_CHECK(cudaMemset(sync_buffer_ptr, 0, num_sync_buffer_bytes));
+    }
+
+    // Barrier
+    internode::barrier(comm.get());
+}
+
+bool Buffer::is_available() const
+{
+    return available;
+}
+
+bool Buffer::is_internode_available() const
+{
+    return is_available() and num_ranks > NUM_MAX_NVL_PEERS;
+}
+
+int Buffer::get_num_rdma_ranks() const
+{
+    return num_rdma_ranks;
+}
+
+int Buffer::get_rdma_rank() const
+{
+    return rdma_rank;
+}
+
+int Buffer::get_root_rdma_rank(bool global) const
+{
+    return global ? nvl_rank : 0;
+}
+
+int Buffer::get_local_device_id() const
+{
+    return device_id;
+}
+
+void Buffer::destroy()
+{
+    TM_LOG_DEBUG("[NCCLEP][%d] Destroying buffer", rank);
+    EP_HOST_ASSERT(not destroyed);
+
+    // Synchronize
+    auto comm_stream = turbomind::core::Context::stream().handle();
+
+    if (num_nvl_bytes > 0 && ipc_comm) {
+        turbomind::core::Context::stream().Sync();
+        ipc_comm->Free(buffer_ptrs[nvl_rank]);
+        ipc_comm = {};
+    }
+
+    // Free NVSHMEM
+    if (is_available()) {
+        turbomind::core::Context::stream().Sync();
+        if (num_rdma_bytes > 0) {
+            internode::free(rdma_buffer_ptr, comm.get());
+        }
+        if (num_ll_rdma_bytes > 0) {
+            internode::free(rdma_ll_buffer_ptr, comm.get());
+        }
+        if (enable_shrink) {
+            internode::free(mask_buffer_ptr, comm.get());
+            internode::free(sync_buffer_ptr, comm.get());
+        }
+        internode::finalize(comm.get());
+    }
+
+    // Free workspace and MoE counter
+    CUDA_CHECK(cudaFree(workspace));
+    CUDA_CHECK(cudaFreeHost(const_cast<int*>(moe_recv_counter)));
+
+    // Free chunked mode staffs
+    CUDA_CHECK(cudaFreeHost(const_cast<int*>(moe_recv_expert_counter)));
+
+    destroyed = true;
+    available = false;
+}
+
+std::tuple<Tensor, std::optional<Tensor>, Tensor, Tensor>  //
+Buffer::get_dispatch_layout(const Tensor& topk_idx, int num_experts)
+{
+
+    auto num_tokens               = static_cast<int>(topk_idx.shape(0));
+    auto num_topk                 = static_cast<int>(topk_idx.shape(1));
+    auto num_tokens_per_rank      = Tensor_<int>{{num_ranks}, turbomind::kDEVICE};
+    auto num_tokens_per_rdma_rank = std::optional<Tensor>();
+    auto num_tokens_per_expert    = Tensor_<int>{{num_experts}, turbomind::kDEVICE};
+    auto is_token_in_rank         = Tensor_<bool>{{num_tokens, num_ranks}, turbomind::kDEVICE};
+    if (is_internode_available()) {
+        num_tokens_per_rdma_rank = Buffer_<int>{num_rdma_ranks, turbomind::kDEVICE};
+    }
+    static_assert(sizeof(topk_idx_t) == sizeof(int64_t), "topk_idx_t must be int64_t");
+
+    auto stream = turbomind::core::Context::stream().handle();
+    layout::get_dispatch_layout(topk_idx.data<topk_idx_t>(),
+                                num_tokens_per_rank.data(),
+                                num_tokens_per_rdma_rank.has_value() ? num_tokens_per_rdma_rank.value().data<int>() :
+                                                                       nullptr,
+                                num_tokens_per_expert.data(),
+                                is_token_in_rank.data_or((bool*)nullptr),  // num_tokens may be zero
+                                num_tokens,
+                                num_topk,
+                                num_ranks,
+                                num_experts,
+                                stream);
+
+    return {num_tokens_per_rank, num_tokens_per_rdma_rank, num_tokens_per_expert, is_token_in_rank};
+}
+
+std::tuple<Tensor,
+           std::optional<Tensor>,
+           std::optional<Tensor>,
+           std::optional<Tensor>,
+           std::vector<int>,
+           Tensor,
+           Tensor,
+           Tensor,
+           Tensor,
+           Tensor,
+           Tensor>
+Buffer::intranode_dispatch(const Tensor&                x,
+                           const std::optional<Tensor>& x_scales,
+                           const std::optional<Tensor>& topk_idx,
+                           const std::optional<Tensor>& topk_weights,
+                           const std::optional<Tensor>& num_tokens_per_rank,
+                           const Tensor&                is_token_in_rank,
+                           const std::optional<Tensor>& num_tokens_per_expert,
+                           int                          cached_num_recv_tokens,
+                           const std::optional<Tensor>& cached_rank_prefix_matrix,
+                           const std::optional<Tensor>& cached_channel_prefix_matrix,
+                           int                          expert_alignment,
+                           int                          num_worst_tokens,
+                           const Config&                config)
+{
+    bool cached_mode = cached_rank_prefix_matrix.has_value();
+
+    // One channel use two blocks, even-numbered blocks for sending, odd-numbered blocks for receiving.
+    EP_HOST_ASSERT(config.num_sms % 2 == 0);
+    int num_channels = config.num_sms / 2;
+    if (cached_mode) {
+        EP_HOST_ASSERT(cached_rank_prefix_matrix.has_value());
+        EP_HOST_ASSERT(cached_channel_prefix_matrix.has_value());
+    }
+    else {
+        EP_HOST_ASSERT(num_tokens_per_rank.has_value());
+        EP_HOST_ASSERT(num_tokens_per_expert.has_value());
+    }
+    // Type checks
+    EP_HOST_ASSERT(is_token_in_rank.dtype() == turbomind::kBool);
+    if (cached_mode) {
+        EP_HOST_ASSERT(cached_rank_prefix_matrix->dtype() == turbomind::kInt32);
+        EP_HOST_ASSERT(cached_channel_prefix_matrix->dtype() == turbomind::kInt32);
+    }
+    else {
+        EP_HOST_ASSERT(num_tokens_per_expert->dtype() == turbomind::kInt32);
+        EP_HOST_ASSERT(num_tokens_per_rank->dtype() == turbomind::kInt32);
+    }
+
+    // Shape and contiguous checks
+    EP_HOST_ASSERT(x.ndim() == 2 and x.is_contiguous());
+    EP_HOST_ASSERT((x.shape(1) * byte_size(x.dtype())) % sizeof(int4) == 0);
+    EP_HOST_ASSERT(is_token_in_rank.ndim() == 2 and is_token_in_rank.is_contiguous());
+    EP_HOST_ASSERT(is_token_in_rank.shape(0) == x.shape(0) and is_token_in_rank.shape(1) == num_ranks);
+    if (cached_mode) {
+        EP_HOST_ASSERT(cached_rank_prefix_matrix->ndim() == 2 and cached_rank_prefix_matrix->is_contiguous());
+        EP_HOST_ASSERT(cached_rank_prefix_matrix->shape(0) == num_ranks
+                       and cached_rank_prefix_matrix->shape(1) == num_ranks);
+        EP_HOST_ASSERT(cached_channel_prefix_matrix->ndim() == 2 and cached_channel_prefix_matrix->is_contiguous());
+        EP_HOST_ASSERT(cached_channel_prefix_matrix->shape(0) == num_ranks
+                       and cached_channel_prefix_matrix->shape(1) == num_channels);
+    }
+    else {
+        EP_HOST_ASSERT(num_tokens_per_expert->ndim() == 1 and num_tokens_per_expert->is_contiguous());
+        EP_HOST_ASSERT(num_tokens_per_expert->shape(0) % num_ranks == 0);
+        EP_HOST_ASSERT(num_tokens_per_expert->shape(0) / num_ranks <= NUM_MAX_LOCAL_EXPERTS);
+        EP_HOST_ASSERT(num_tokens_per_rank->ndim() == 1 and num_tokens_per_rank->is_contiguous());
+        EP_HOST_ASSERT(num_tokens_per_rank->shape(0) == num_ranks);
+    }
+
+    auto num_tokens        = static_cast<int>(x.shape(0));
+    auto hidden            = static_cast<int>(x.shape(1));
+    auto num_experts       = cached_mode ? 0 : static_cast<int>(num_tokens_per_expert->shape(0));
+    auto num_local_experts = num_experts / num_ranks;
+
+    // Top-k checks
+    int               num_topk         = 0;
+    const topk_idx_t* topk_idx_ptr     = nullptr;
+    const float*      topk_weights_ptr = nullptr;
+    EP_HOST_ASSERT(topk_idx.has_value() == topk_weights.has_value());
+    if (topk_idx.has_value()) {
+        num_topk = static_cast<int>(topk_idx->shape(1));
+        EP_HOST_ASSERT(num_experts > 0);
+        EP_HOST_ASSERT(topk_idx->ndim() == 2 and topk_idx->is_contiguous());
+        EP_HOST_ASSERT(topk_weights->ndim() == 2 and topk_weights->is_contiguous());
+        EP_HOST_ASSERT(num_tokens == topk_idx->shape(0) and num_tokens == topk_weights->shape(0));
+        EP_HOST_ASSERT(num_topk == topk_weights->shape(1));
+        EP_HOST_ASSERT(topk_weights->dtype() == turbomind::kFloat32);
+        topk_idx_ptr     = topk_idx->data_or((topk_idx_t*)nullptr);
+        topk_weights_ptr = topk_weights->data_or((float*)nullptr);
+    }
+
+    // FP8 scales checks
+    const float* x_scales_ptr = nullptr;
+    int          num_scales = 0, scale_token_stride = 0, scale_hidden_stride = 0;
+    if (x_scales.has_value()) {
+        EP_HOST_ASSERT(byte_size(x.dtype()) == 1);
+        EP_HOST_ASSERT(x_scales->dtype() == turbomind::kFloat32 or x_scales->dtype() == turbomind::kInt32);
+        EP_HOST_ASSERT(x_scales->ndim() == 2);
+        EP_HOST_ASSERT(x_scales->shape(0) == num_tokens);
+        num_scales          = x_scales->ndim() == 1 ? 1 : static_cast<int>(x_scales->shape(1));
+        x_scales_ptr        = x_scales->data_or((float*)nullptr);
+        scale_token_stride  = static_cast<int>(x_scales->stride(0));
+        scale_hidden_stride = static_cast<int>(x_scales->stride(1));
+    }
+
+    // Create handles (only return for non-cached mode)
+    int              num_recv_tokens       = -1;
+    auto             rank_prefix_matrix    = Tensor();
+    auto             channel_prefix_matrix = Tensor();
+    std::vector<int> num_recv_tokens_per_expert_list;
+
+    // used to compute offsets in MoeFfnLayer
+    auto moe_recv_expert_counter_ten = Tensor({num_local_experts}, turbomind::kInt32, turbomind::kDEVICE);
+
+    // Barrier or send sizes
+    // To clean: channel start/end offset, head and tail
+    int num_memset_int = num_channels * num_ranks * 4;
+    if (cached_mode) {
+        EP_HOST_ASSERT(0);
+        // num_recv_tokens       = cached_num_recv_tokens;
+        // rank_prefix_matrix    = cached_rank_prefix_matrix.value();
+        // channel_prefix_matrix = cached_channel_prefix_matrix.value();
+
+        // // Copy rank prefix matrix and clean flags
+        // intranode::cached_notify_dispatch(rank_prefix_matrix.data_ptr<int>(),
+        //                                   num_memset_int,
+        //                                   buffer_ptrs_gpu,
+        //                                   barrier_signal_ptrs_gpu,
+        //                                   rank,
+        //                                   num_ranks,
+        //                                   comm_stream);
+    }
+    else {
+        rank_prefix_matrix    = Tensor({num_ranks, num_ranks}, turbomind::kInt32, turbomind::kDEVICE);
+        channel_prefix_matrix = Tensor({num_ranks, num_channels}, turbomind::kInt32, turbomind::kDEVICE);
+
+        // Send sizes
+        // Meta information:
+        //  - Size prefix by ranks, shaped as `[num_ranks, num_ranks]`
+        //  - Size prefix by experts (not used later), shaped as `[num_ranks, num_local_experts]`
+        // NOTES: no more token dropping in this version
+        *moe_recv_counter = -1;
+        for (int i = 0; i < num_local_experts; ++i)
+            moe_recv_expert_counter[i] = -1;
+        EP_HOST_ASSERT(num_ranks * (num_ranks + num_local_experts) * sizeof(int) <= num_nvl_bytes);
+        intranode::notify_dispatch(num_tokens_per_rank->data<int>(),
+                                   moe_recv_counter_mapped,
+                                   num_ranks,
+                                   num_tokens_per_expert->data<int>(),
+                                   moe_recv_expert_counter_mapped,
+                                   moe_recv_expert_counter_ten.data<int>(),
+                                   num_experts,
+                                   num_tokens,
+                                   is_token_in_rank.data_or((bool*)nullptr),  // num_tokens may be zero
+                                   channel_prefix_matrix.data<int>(),
+                                   rank_prefix_matrix.data<int>(),
+                                   num_memset_int,
+                                   expert_alignment,
+                                   buffer_ptrs_gpu,
+                                   barrier_signal_ptrs_gpu,
+                                   rank,
+                                   turbomind::core::Context::stream().handle(),
+                                   num_channels);
+
+        if (num_worst_tokens > 0) {
+            // No CPU sync, just allocate the worst case
+            num_recv_tokens = num_worst_tokens;
+
+            // Must be forward with top-k stuffs
+            EP_HOST_ASSERT(topk_idx.has_value());
+            EP_HOST_ASSERT(topk_weights.has_value());
+        }
+        else {
+            // Synchronize total received tokens and tokens per expert
+            auto start_time = std::chrono::high_resolution_clock::now();
+            while (true) {
+                // Read total count
+                num_recv_tokens = static_cast<int>(*moe_recv_counter);
+
+                // Read per-expert count
+                bool ready = (num_recv_tokens >= 0);
+                for (int i = 0; i < num_local_experts and ready; ++i)
+                    ready &= moe_recv_expert_counter[i] >= 0;
+
+                if (ready)
+                    break;
+
+                // Timeout check
+                if (std::chrono::duration_cast<std::chrono::seconds>(std::chrono::high_resolution_clock::now()
+                                                                     - start_time)
+                        .count()
+                    > NUM_CPU_TIMEOUT_SECS)
+                    throw std::runtime_error("DeepEP error: CPU recv timeout");
+            }
+            num_recv_tokens_per_expert_list =
+                std::vector<int>(moe_recv_expert_counter, moe_recv_expert_counter + num_local_experts);
+        }
+    }
+
+    // Allocate new tensors
+    auto recv_x                     = Tensor({num_recv_tokens, hidden}, x.dtype(), turbomind::kDEVICE);
+    auto recv_src_idx               = Tensor({num_recv_tokens}, turbomind::kInt32, turbomind::kDEVICE);
+    auto recv_topk_idx              = std::optional<Tensor>();
+    auto recv_topk_weights          = std::optional<Tensor>();
+    auto recv_x_scales              = std::optional<Tensor>();
+    auto recv_channel_prefix_matrix = Tensor({num_ranks, num_channels}, turbomind::kInt32, turbomind::kDEVICE);
+    auto send_head                  = Tensor({num_tokens, num_ranks}, turbomind::kInt32, turbomind::kDEVICE);
+
+    // Assign pointers
+    topk_idx_t* recv_topk_idx_ptr     = nullptr;
+    float*      recv_topk_weights_ptr = nullptr;
+    float*      recv_x_scales_ptr     = nullptr;
+    if (topk_idx.has_value()) {
+        recv_topk_idx         = Tensor({num_recv_tokens, num_topk}, topk_idx->dtype(), topk_idx->device());
+        recv_topk_weights     = Tensor({num_recv_tokens, num_topk}, topk_weights->dtype(), topk_weights->device());
+        recv_topk_idx_ptr     = recv_topk_idx->data_or((topk_idx_t*)nullptr);
+        recv_topk_weights_ptr = recv_topk_weights->data_or((float*)nullptr);
+    }
+    if (x_scales.has_value()) {
+        recv_x_scales     = x_scales->ndim() == 1 ?
+                                Tensor({num_recv_tokens}, x_scales->dtype(), x_scales->device()) :
+                                Tensor({num_recv_tokens, num_scales}, x_scales->dtype(), x_scales->device());
+        recv_x_scales_ptr = recv_x_scales->data_or((float*)nullptr);
+    }
+
+    // Dispatch
+    EP_HOST_ASSERT(
+        num_ranks * num_ranks * sizeof(int) +             // Size prefix matrix
+            num_channels * num_ranks * sizeof(int) +      // Channel start offset
+            num_channels * num_ranks * sizeof(int) +      // Channel end offset
+            num_channels * num_ranks * sizeof(int) * 2 +  // Queue head and tail
+            num_channels * num_ranks * config.num_max_nvl_chunked_recv_tokens * hidden * byte_size(recv_x.dtype())
+            +                                                                                  // Data buffer
+            num_channels * num_ranks * config.num_max_nvl_chunked_recv_tokens * sizeof(int) +  // Source index buffer
+            num_channels * num_ranks * config.num_max_nvl_chunked_recv_tokens * num_topk * sizeof(topk_idx_t)
+            +  // Top-k index buffer
+            num_channels * num_ranks * config.num_max_nvl_chunked_recv_tokens * num_topk * sizeof(float)
+            +  // Top-k weight buffer
+            num_channels * num_ranks * config.num_max_nvl_chunked_recv_tokens * sizeof(float)
+                * num_scales  // FP8 scale buffer
+        <= num_nvl_bytes);
+
+    intranode::dispatch(recv_x.data_or((void*)nullptr),
+                        recv_x_scales_ptr,
+                        recv_src_idx.data_or((int*)nullptr),
+                        recv_topk_idx_ptr,
+                        recv_topk_weights_ptr,
+                        recv_channel_prefix_matrix.data<int>(),
+                        send_head.data_or((int*)nullptr),
+                        x.data_or((void*)nullptr),
+                        x_scales_ptr,
+                        topk_idx_ptr,
+                        topk_weights_ptr,
+                        is_token_in_rank.data_or((bool*)nullptr),
+                        channel_prefix_matrix.data<int>(),
+                        num_tokens,
+                        num_worst_tokens,
+                        static_cast<int>(hidden * byte_size(recv_x.dtype()) / sizeof(int4)),
+                        num_topk,
+                        num_experts,
+                        num_scales,
+                        scale_token_stride,
+                        scale_hidden_stride,
+                        buffer_ptrs_gpu,
+                        rank,
+                        num_ranks,
+                        turbomind::core::Context::stream().handle(),
+                        config.num_sms,
+                        config.num_max_nvl_chunked_send_tokens,
+                        config.num_max_nvl_chunked_recv_tokens);
+
+    // Return values
+    return {recv_x,
+            recv_x_scales,
+            recv_topk_idx,
+            recv_topk_weights,
+            num_recv_tokens_per_expert_list,
+            moe_recv_expert_counter_ten,
+            rank_prefix_matrix,
+            channel_prefix_matrix,
+            recv_channel_prefix_matrix,
+            recv_src_idx,
+            send_head};
+}
+
+std::tuple<Tensor,  //
+           std::optional<Tensor>>
+Buffer::intranode_combine(const Tensor&                x,
+                          const std::optional<Tensor>& topk_weights,
+                          const std::optional<Tensor>& bias_0,
+                          const std::optional<Tensor>& bias_1,
+                          const Tensor&                src_idx,
+                          const Tensor&                rank_prefix_matrix,
+                          const Tensor&                channel_prefix_matrix,
+                          Tensor&                      send_head,
+                          const Config&                config)
+{
+    EP_HOST_ASSERT(x.ndim() == 2 and x.is_contiguous());
+    EP_HOST_ASSERT(src_idx.ndim() == 1 and src_idx.is_contiguous() and src_idx.dtype() == turbomind::kInt32);
+    EP_HOST_ASSERT(send_head.ndim() == 2 and send_head.is_contiguous() and send_head.dtype() == turbomind::kInt32);
+    EP_HOST_ASSERT(rank_prefix_matrix.ndim() == 2 and rank_prefix_matrix.is_contiguous()
+                   and rank_prefix_matrix.dtype() == turbomind::kInt32);
+    EP_HOST_ASSERT(channel_prefix_matrix.ndim() == 2 and channel_prefix_matrix.is_contiguous()
+                   and channel_prefix_matrix.dtype() == turbomind::kInt32);
+
+    // One channel use two blocks, even-numbered blocks for sending, odd-numbered blocks for receiving.
+    EP_HOST_ASSERT(config.num_sms % 2 == 0);
+    int num_channels = config.num_sms / 2;
+
+    auto num_tokens = static_cast<int>(x.shape(0)), hidden = static_cast<int>(x.shape(1));
+    auto num_recv_tokens = static_cast<int>(send_head.shape(0));
+    EP_HOST_ASSERT(src_idx.shape(0) == num_tokens);
+    EP_HOST_ASSERT(send_head.shape(1) == num_ranks);
+    EP_HOST_ASSERT(rank_prefix_matrix.shape(0) == num_ranks and rank_prefix_matrix.shape(1) == num_ranks);
+    EP_HOST_ASSERT(channel_prefix_matrix.shape(0) == num_ranks and channel_prefix_matrix.shape(1) == num_channels);
+    EP_HOST_ASSERT((hidden * byte_size(x.dtype())) % sizeof(int4) == 0);
+
+    int          num_topk              = 0;
+    auto         recv_topk_weights     = std::optional<Tensor>();
+    const float* topk_weights_ptr      = nullptr;
+    float*       recv_topk_weights_ptr = nullptr;
+    if (topk_weights.has_value()) {
+        EP_HOST_ASSERT(topk_weights->ndim() == 2 and topk_weights->is_contiguous());
+        EP_HOST_ASSERT(topk_weights->shape(0) == num_tokens);
+        EP_HOST_ASSERT(topk_weights->dtype() == turbomind::kFloat32);
+        num_topk              = static_cast<int>(topk_weights->shape(1));
+        topk_weights_ptr      = topk_weights->data_or((float*)nullptr);
+        recv_topk_weights     = Tensor({num_recv_tokens, num_topk}, turbomind::kFloat32, turbomind::kDEVICE);
+        recv_topk_weights_ptr = recv_topk_weights->data_or((float*)nullptr);
+    }
+
+    // Launch barrier and reset queue head and tail
+    EP_HOST_ASSERT(num_channels * num_ranks * sizeof(int) * 2 <= num_nvl_bytes);
+    intranode::cached_notify_combine(buffer_ptrs_gpu,
+                                     send_head.data_or((int*)nullptr),
+                                     num_channels,
+                                     num_recv_tokens,
+                                     num_channels * num_ranks * 2,
+                                     barrier_signal_ptrs_gpu,
+                                     rank,
+                                     num_ranks,
+                                     turbomind::core::Context::stream().handle());
+
+    // Assign bias pointers
+    auto  bias_opts    = std::vector<std::optional<Tensor>>({bias_0, bias_1});
+    void* bias_ptrs[2] = {nullptr, nullptr};
+    for (int i = 0; i < 2; ++i)
+        if (bias_opts[i].has_value()) {
+            auto bias = bias_opts[i].value();
+            EP_HOST_ASSERT(bias.ndim() == 2 and bias.is_contiguous());
+            EP_HOST_ASSERT(bias.dtype() == x.dtype());
+            EP_HOST_ASSERT(bias.shape(0) == num_recv_tokens and bias.shape(1) == hidden);
+            bias_ptrs[i] = bias.data_or((void*)nullptr);
+        }
+
+    // Combine data
+    auto recv_x = Tensor({num_recv_tokens, hidden}, x.dtype(), turbomind::kDEVICE);
+    EP_HOST_ASSERT(num_channels * num_ranks * sizeof(int) * 2 +  // Queue head and tail
+                       num_channels * num_ranks * config.num_max_nvl_chunked_recv_tokens * hidden * byte_size(x.dtype())
+                       +  // Data buffer
+                       num_channels * num_ranks * config.num_max_nvl_chunked_recv_tokens * sizeof(int)
+                       +  // Source index buffer
+                       num_channels * num_ranks * config.num_max_nvl_chunked_recv_tokens * num_topk
+                           * sizeof(float)  // Top-k weight buffer
+                   <= num_nvl_bytes);
+    intranode::combine(CUDA_R_16BF,
+                       recv_x.data_or((void*)nullptr),
+                       recv_topk_weights_ptr,
+                       x.data_or((void*)nullptr),
+                       topk_weights_ptr,
+                       bias_ptrs[0],
+                       bias_ptrs[1],
+                       src_idx.data_or((int*)nullptr),
+                       rank_prefix_matrix.data<int>(),
+                       channel_prefix_matrix.data<int>(),
+                       send_head.data_or((int*)nullptr),
+                       num_tokens,
+                       num_recv_tokens,
+                       hidden,
+                       num_topk,
+                       buffer_ptrs_gpu,
+                       rank,
+                       num_ranks,
+                       turbomind::core::Context::stream().handle(),
+                       config.num_sms,
+                       config.num_max_nvl_chunked_send_tokens,
+                       config.num_max_nvl_chunked_recv_tokens);
+
+    return {recv_x, std::nullopt};
+}
+
+std::tuple<Tensor,  //
+           std::optional<Tensor>,
+           Tensor,
+           Tensor,
+           Tensor>
+Buffer::low_latency_dispatch(const Tensor&                x,
+                             const Tensor&                topk_idx,
+                             const std::optional<Tensor>& cumulative_local_expert_recv_stats,
+                             const std::optional<Tensor>& dispatch_wait_recv_cost_stats,
+                             int                          num_max_dispatch_tokens_per_rank,
+                             int                          num_experts,
+                             bool                         use_fp8,
+                             bool                         round_scale,
+                             bool                         use_ue8m0)
+{
+    // Tensor checks
+    // By default using `ptp128c` FP8 cast
+    EP_HOST_ASSERT(x.ndim() == 2 and x.is_contiguous() and x.dtype() == turbomind::kBfloat16);
+    EP_HOST_ASSERT(x.shape(1) % sizeof(int4) == 0 and x.shape(1) % 128 == 0);
+    EP_HOST_ASSERT(topk_idx.ndim() == 2 and topk_idx.is_contiguous());
+    EP_HOST_ASSERT(x.shape(0) == topk_idx.shape(0) and x.shape(0) <= num_max_dispatch_tokens_per_rank);
+    EP_HOST_ASSERT(topk_idx.dtype() == turbomind::kInt64);
+    EP_HOST_ASSERT(num_experts % num_ranks == 0);
+
+    // Diagnosis tensors
+    EP_HOST_ASSERT(not cumulative_local_expert_recv_stats.has_value());
+    EP_HOST_ASSERT(not dispatch_wait_recv_cost_stats.has_value());
+    // if (cumulative_local_expert_recv_stats.has_value()) {
+    //     EP_HOST_ASSERT(cumulative_local_expert_recv_stats->dtype() == turbomind::kInt32);
+    //     EP_HOST_ASSERT(cumulative_local_expert_recv_stats->ndim() == 1
+    //                    and cumulative_local_expert_recv_stats->is_contiguous());
+    //     EP_HOST_ASSERT(cumulative_local_expert_recv_stats->shape(0) == num_experts / num_ranks);
+    // }
+    // if (dispatch_wait_recv_cost_stats.has_value()) {
+    //     EP_HOST_ASSERT(dispatch_wait_recv_cost_stats->dtype() == turbomind::kInt64);
+    //     EP_HOST_ASSERT(dispatch_wait_recv_cost_stats->ndim() == 1 and
+    //     dispatch_wait_recv_cost_stats->is_contiguous()); EP_HOST_ASSERT(dispatch_wait_recv_cost_stats->shape(0) ==
+    //     num_ranks);
+    // }
+
+    auto num_tokens        = static_cast<int>(x.shape(0));
+    auto hidden            = static_cast<int>(x.shape(1));
+    auto num_topk          = static_cast<int>(topk_idx.shape(1));
+    auto num_local_experts = num_experts / num_ranks;
+
+    // Buffer control
+    LowLatencyLayout layout(rdma_ll_buffer_ptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts);
+    EP_HOST_ASSERT(layout.total_bytes <= num_ll_rdma_bytes);
+    auto buffer      = layout.buffers[low_latency_buffer_idx];
+    auto next_buffer = layout.buffers[low_latency_buffer_idx ^= 1];
+
+    // Allocate packed tensors
+    auto packed_recv_x = Tensor(
+        {num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank, hidden}, x.dtype(), turbomind::kDEVICE);
+    auto packed_recv_src_info = Tensor(
+        {num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank}, turbomind::kInt32, turbomind::kDEVICE);
+    auto packed_recv_layout_range = Tensor({num_local_experts, num_ranks}, turbomind::kInt64, turbomind::kDEVICE);
+    auto packed_recv_count        = Tensor({num_local_experts}, turbomind::kInt32, turbomind::kDEVICE);
+
+    // Allocate column-majored scales
+    auto  packed_recv_x_scales     = std::optional<Tensor>();
+    void* packed_recv_x_scales_ptr = nullptr;
+    EP_HOST_ASSERT((num_ranks * num_max_dispatch_tokens_per_rank) % 4 == 0
+                   and "TMA requires the number of tokens to be multiple of 4");
+
+    if (use_fp8) {
+        // TODO: support unaligned cases
+        EP_HOST_ASSERT(hidden % 512 == 0);
+        if (not use_ue8m0) {
+            packed_recv_x_scales =
+                Tensor({num_local_experts, hidden / 128, num_ranks * num_max_dispatch_tokens_per_rank},
+                       turbomind::kFloat32,
+                       turbomind::kDEVICE);
+        }
+        else {
+            EP_HOST_ASSERT(round_scale);
+            packed_recv_x_scales =
+                Tensor({num_local_experts, hidden / 512, num_ranks * num_max_dispatch_tokens_per_rank},
+                       turbomind::kInt32,
+                       turbomind::kDEVICE);
+        }
+        packed_recv_x_scales     = packed_recv_x_scales->transpose(1, 2);
+        packed_recv_x_scales_ptr = packed_recv_x_scales->data_or((float*)nullptr);
+    }
+
+    // Kernel launch
+    auto      next_clean_meta = next_buffer.clean_meta();
+    const int phases          = LOW_LATENCY_SEND_PHASE | LOW_LATENCY_RECV_PHASE;
+    auto      dev_comm        = comm->get_device_communicator(true);
+    auto      nccl_win        = comm->get_device_nccl_window(rdma_ll_buffer_ptr);
+    auto      signals_base    = comm->get_signals_base(low_latency_buffer_idx, true);
+
+    internode_ll::dispatch(
+        packed_recv_x.raw_data(),
+        packed_recv_x_scales_ptr,
+        packed_recv_src_info.data<int>(),
+        packed_recv_layout_range.data<int64_t>(),
+        packed_recv_count.data<int>(),
+        mask_buffer_ptr,
+        nullptr,
+        nullptr,
+        buffer.dispatch_rdma_recv_data_buffer,
+        buffer.dispatch_rdma_recv_count_buffer,
+        buffer.dispatch_rdma_send_buffer,
+        reinterpret_cast<size_t>(buffer.dispatch_rdma_recv_data_buffer) - reinterpret_cast<size_t>(rdma_ll_buffer_ptr),
+        reinterpret_cast<size_t>(buffer.dispatch_rdma_recv_count_buffer) - reinterpret_cast<size_t>(rdma_ll_buffer_ptr),
+        reinterpret_cast<size_t>(buffer.dispatch_rdma_send_buffer) - reinterpret_cast<size_t>(rdma_ll_buffer_ptr),
+        x.raw_data(),
+        topk_idx.data<topk_idx_t>(),
+        next_clean_meta.first,
+        next_clean_meta.second,
+        num_tokens,
+        hidden,
+        num_max_dispatch_tokens_per_rank,
+        num_topk,
+        num_experts,
+        rank,
+        num_ranks,
+        use_fp8,
+        round_scale,
+        use_ue8m0,
+        workspace,
+        num_device_sms,
+        nccl_win,
+        dev_comm,
+        signals_base,
+        turbomind::core::Context::stream().handle(),
+        phases);
+
+    return {packed_recv_x, packed_recv_x_scales, packed_recv_count, packed_recv_src_info, packed_recv_layout_range};
+}
+
+std::tuple<Tensor>  //
+Buffer::low_latency_combine(const Tensor&                x,
+                            const Tensor&                topk_idx,
+                            const Tensor&                topk_weights,
+                            const Tensor&                src_info,
+                            const Tensor&                layout_range,
+                            const std::optional<Tensor>& combine_wait_recv_cost_stats,
+                            int                          num_max_dispatch_tokens_per_rank,
+                            int                          num_experts,
+                            bool                         use_logfmt,
+                            bool                         zero_copy,
+                            const std::optional<Tensor>& out)
+{
+    EP_HOST_ASSERT(low_latency_mode);
+
+    // Tensor checks
+    EP_HOST_ASSERT(x.ndim() == 3 and x.is_contiguous() and x.dtype() == turbomind::kBfloat16);
+    EP_HOST_ASSERT(x.shape(0) == num_experts / num_ranks);
+    EP_HOST_ASSERT(x.shape(1) == num_ranks * num_max_dispatch_tokens_per_rank);
+    EP_HOST_ASSERT(x.shape(2) % sizeof(int4) == 0 and x.shape(2) % 128 == 0);
+    EP_HOST_ASSERT(topk_idx.ndim() == 2 and topk_idx.is_contiguous());
+    EP_HOST_ASSERT(topk_idx.shape(0) == topk_weights.shape(0) and topk_idx.shape(1) == topk_weights.shape(1));
+    EP_HOST_ASSERT(topk_idx.dtype() == turbomind::kInt64);
+    EP_HOST_ASSERT(topk_weights.ndim() == 2 and topk_weights.is_contiguous());
+    EP_HOST_ASSERT(topk_weights.shape(0) <= num_max_dispatch_tokens_per_rank);
+    EP_HOST_ASSERT(topk_weights.dtype() == turbomind::kFloat32);
+    EP_HOST_ASSERT(src_info.ndim() == 2 and src_info.is_contiguous());
+    EP_HOST_ASSERT(src_info.dtype() == turbomind::kInt32 and x.shape(0) == src_info.shape(0));
+    EP_HOST_ASSERT(layout_range.ndim() == 2 and layout_range.is_contiguous());
+    EP_HOST_ASSERT(layout_range.dtype() == turbomind::kInt64);
+    EP_HOST_ASSERT(layout_range.shape(0) == num_experts / num_ranks and layout_range.shape(1) == num_ranks);
+
+    EP_HOST_ASSERT(not combine_wait_recv_cost_stats.has_value());
+    // if (combine_wait_recv_cost_stats.has_value()) {
+    //     EP_HOST_ASSERT(combine_wait_recv_cost_stats->dtype() == turbomind::kInt64);
+    //     EP_HOST_ASSERT(combine_wait_recv_cost_stats->ndim() == 1 and combine_wait_recv_cost_stats->is_contiguous());
+    //     EP_HOST_ASSERT(combine_wait_recv_cost_stats->shape(0) == num_ranks);
+    // }
+
+    auto hidden              = static_cast<int>(x.shape(2));
+    auto num_topk            = static_cast<int>(topk_weights.shape(1));
+    auto num_combined_tokens = static_cast<int>(topk_weights.shape(0));
+
+    // Buffer control
+    LowLatencyLayout layout(rdma_ll_buffer_ptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts);
+    EP_HOST_ASSERT(layout.total_bytes <= num_ll_rdma_bytes);
+    auto buffer      = layout.buffers[low_latency_buffer_idx];
+    auto next_buffer = layout.buffers[low_latency_buffer_idx ^= 1];
+
+    // Allocate output tensor
+    Tensor combined_x;
+    if (out.has_value()) {
+        EP_HOST_ASSERT(out->ndim() == 2 and out->is_contiguous());
+        EP_HOST_ASSERT(out->shape(0) == num_combined_tokens and out->shape(1) == hidden);
+        EP_HOST_ASSERT(out->dtype() == x.dtype());
+        combined_x = out.value();
+    }
+    else {
+        combined_x = Tensor({num_combined_tokens, hidden}, x.dtype(), turbomind::kDEVICE);
+    }
+
+    // Kernel launch
+    auto      next_clean_meta = next_buffer.clean_meta();
+    const int phases          = LOW_LATENCY_SEND_PHASE | LOW_LATENCY_RECV_PHASE;
+    auto      dev_comm        = comm->get_device_communicator(true);
+    auto      nccl_win        = comm->get_device_nccl_window(rdma_ll_buffer_ptr);
+    auto      signals_base    = comm->get_signals_base(low_latency_buffer_idx, true);
+
+    internode_ll::combine(
+        combined_x.data_or((void*)nullptr),
+        buffer.combine_rdma_recv_data_buffer,
+        buffer.combine_rdma_recv_flag_buffer,
+        buffer.combine_rdma_send_buffer,
+        reinterpret_cast<size_t>(buffer.combine_rdma_recv_data_buffer) - reinterpret_cast<size_t>(rdma_ll_buffer_ptr),
+        reinterpret_cast<size_t>(buffer.combine_rdma_recv_flag_buffer) - reinterpret_cast<size_t>(rdma_ll_buffer_ptr),
+        reinterpret_cast<size_t>(buffer.combine_rdma_send_buffer) - reinterpret_cast<size_t>(rdma_ll_buffer_ptr),
+        x.raw_data(),
+        topk_idx.data_or((topk_idx_t*)nullptr),
+        topk_weights.data_or((float*)nullptr),
+        src_info.data<int>(),
+        layout_range.data<int64_t>(),
+        mask_buffer_ptr,
+        nullptr,
+        next_clean_meta.first,
+        next_clean_meta.second,
+        num_combined_tokens,
+        hidden,
+        num_max_dispatch_tokens_per_rank,
+        num_topk,
+        num_experts,
+        rank,
+        num_ranks,
+        use_logfmt,
+        workspace,
+        num_device_sms,
+        nccl_win,
+        dev_comm,
+        signals_base,
+        turbomind::core::Context::stream().handle(),
+        phases,
+        zero_copy);
+
+    return {combined_x};
+}
+
+Config Buffer::get_dispatch_config()
+{
+    static std::unordered_map<int, Config> config_map = {
+        {2, Config(num_sms, 24, 256, 6, 128)},
+        {4, Config(num_sms, 6, 256, 6, 128)},
+        {8, Config(num_sms, 6, 256, 6, 128)},
+        {16, Config(num_sms, 36, 288, 20, 128)},
+        {24, Config(num_sms, 32, 288, 8, 128)},
+        {32, Config(num_sms, 32, 288, 8, 128)},
+        {48, Config(num_sms, 32, 288, 8, 128)},
+        {64, Config(num_sms, 32, 288, 8, 128)},
+        {96, Config(num_sms, 20, 480, 12, 128)},
+        {128, Config(num_sms, 20, 560, 12, 128)},
+        {144, Config(num_sms, 32, 720, 12, 128)},
+        {160, Config(num_sms, 28, 720, 12, 128)},
+    };
+    const auto it = config_map.find(num_ranks);
+    TM_CHECK(it != config_map.end());
+    return it->second;
+}
+
+Config Buffer::get_combine_config()
+{
+    static std::unordered_map<int, Config> config_map = {
+        {2, Config(num_sms, 10, 256, 6, 128)},
+        {4, Config(num_sms, 9, 256, 6, 128)},
+        {8, Config(num_sms, 4, 256, 6, 128)},
+        {16, Config(num_sms, 4, 288, 12, 128)},
+        {24, Config(num_sms, 1, 288, 8, 128)},
+        {32, Config(num_sms, 1, 288, 8, 128)},
+        {48, Config(num_sms, 1, 288, 8, 128)},
+        {64, Config(num_sms, 1, 288, 8, 128)},
+        {96, Config(num_sms, 1, 480, 8, 128)},
+        {128, Config(num_sms, 1, 560, 8, 128)},
+        {144, Config(num_sms, 2, 720, 8, 128)},
+        {160, Config(num_sms, 2, 720, 8, 128)},
+    };
+    const auto it = config_map.find(num_ranks);
+    TM_CHECK(it != config_map.end());
+    return it->second;
+}
+
+};  // namespace deep_ep
diff --git a/src/turbomind/comm/nccl/deep_ep/deep_ep.hpp b/src/turbomind/comm/nccl/deep_ep/deep_ep.hpp
new file mode 100644
index 0000000000..2015030336
--- /dev/null
+++ b/src/turbomind/comm/nccl/deep_ep/deep_ep.hpp
@@ -0,0 +1,225 @@
+#pragma once
+
+#include "config.hpp"
+
+#include "gin_backend.h"
+#include "kernels/configs.cuh"
+#include "kernels/exception.cuh"
+#include "src/turbomind/comm/device_comm.h"
+#include "src/turbomind/comm/host_comm.h"
+#include "src/turbomind/core/tensor.h"
+
+#include <cuda.h>
+
+#include <cstdint>
+#include <tuple>
+#include <vector>
+
+using turbomind::comm::HostComm;
+using turbomind::comm::DeviceComm;
+using turbomind::core::Tensor;
+using turbomind::core::Tensor_;
+using turbomind::core::Buffer_;
+
+namespace shared_memory {
+
+union MemHandleInner {
+    cudaIpcMemHandle_t cuda_ipc_mem_handle;
+    CUmemFabricHandle  cu_mem_fabric_handle;
+};
+
+struct MemHandle {
+    MemHandleInner inner;
+    size_t         size;
+};
+
+constexpr size_t HANDLE_SIZE = sizeof(MemHandle);
+
+class SharedMemoryAllocator {
+public:
+    SharedMemoryAllocator(bool use_fabric);
+    void malloc(void** ptr, size_t size);
+    void free(void* ptr);
+    void get_mem_handle(MemHandle* mem_handle, void* ptr);
+    void open_mem_handle(void** ptr, MemHandle* mem_handle);
+    void close_mem_handle(void* ptr);
+
+private:
+    bool use_fabric;
+};
+}  // namespace shared_memory
+
+namespace deep_ep {
+
+class Buffer {
+    EP_STATIC_ASSERT(NUM_MAX_NVL_PEERS == 8, "The number of maximum NVLink peers must be 8");
+
+public:
+    HostComm   h_comm;
+    DeviceComm ipc_comm;
+    int        num_sms{24};
+
+    std::shared_ptr<internode::NCCLGINBackend> comm;
+
+    // Low-latency mode buffer
+    int  low_latency_buffer_idx = 0;
+    bool low_latency_mode       = false;
+
+    // NVLink Buffer
+    int64_t num_nvl_bytes;
+    void*   buffer_ptrs[NUM_MAX_NVL_PEERS] = {nullptr};
+    void**  buffer_ptrs_gpu                = nullptr;
+
+    // NVSHMEM Buffer
+    int64_t num_rdma_bytes;
+    int64_t num_ll_rdma_bytes;
+    void*   rdma_buffer_ptr    = nullptr;
+    void*   rdma_ll_buffer_ptr = nullptr;
+
+    // Shrink mode buffer
+    bool enable_shrink   = false;
+    int* mask_buffer_ptr = nullptr;
+    int* sync_buffer_ptr = nullptr;
+
+    // Device info and communication
+    int                      device_id;
+    int                      num_device_sms;
+    int                      rank, rdma_rank, nvl_rank;
+    int                      num_ranks, num_rdma_ranks, num_nvl_ranks;
+    int                      qps_per_rank;
+    shared_memory::MemHandle ipc_handles[NUM_MAX_NVL_PEERS];
+
+    // After IPC/NVSHMEM synchronization, this flag will be true
+    bool available = false;
+
+    // After `destroy()` be called, this flag will be true
+    bool destroyed = false;
+
+    // Barrier signals
+    int*  barrier_signal_ptrs[NUM_MAX_NVL_PEERS] = {nullptr};
+    int** barrier_signal_ptrs_gpu                = nullptr;
+
+    // Workspace
+    void* workspace = nullptr;
+
+    // Host-side MoE info
+    volatile int* moe_recv_counter        = nullptr;
+    int*          moe_recv_counter_mapped = nullptr;
+
+    // Host-side expert-level MoE info
+    volatile int* moe_recv_expert_counter        = nullptr;
+    int*          moe_recv_expert_counter_mapped = nullptr;
+
+    // Host-side RDMA-level MoE info
+    volatile int* moe_recv_rdma_counter        = nullptr;
+    int*          moe_recv_rdma_counter_mapped = nullptr;
+
+    shared_memory::SharedMemoryAllocator shared_memory_allocator;
+
+    Buffer(int      rank,  //
+           int      num_ranks,
+           int64_t  num_nvl_bytes,
+           int64_t  num_rdma_bytes,
+           int64_t  num_ll_rdma_bytes,
+           bool     low_latency_mode,
+           bool     enable_shrink,
+           bool     use_fabric,
+           int      qps_per_rank,
+           HostComm h_comm);
+
+    Buffer(): shared_memory_allocator{false} {};
+
+    ~Buffer() = default;
+
+    void allocate_sync_nvl_buffer();
+
+    void allocate_rdma_buffer();
+
+    bool is_available() const;
+
+    bool is_internode_available() const;
+
+    int get_num_rdma_ranks() const;
+
+    int get_rdma_rank() const;
+
+    int get_root_rdma_rank(bool global) const;
+
+    int get_local_device_id() const;
+
+    void destroy();
+
+    std::tuple<Tensor, std::optional<Tensor>, Tensor, Tensor>  //
+    get_dispatch_layout(const Tensor& topk_idx, int num_experts);
+
+    std::tuple<Tensor,
+               std::optional<Tensor>,
+               std::optional<Tensor>,
+               std::optional<Tensor>,
+               std::vector<int>,
+               Tensor,
+               Tensor,
+               Tensor,
+               Tensor,
+               Tensor,
+               Tensor>
+    intranode_dispatch(const Tensor&                x,
+                       const std::optional<Tensor>& x_scales,
+                       const std::optional<Tensor>& topk_idx,
+                       const std::optional<Tensor>& topk_weights,
+                       const std::optional<Tensor>& num_tokens_per_rank,
+                       const Tensor&                is_token_in_rank,
+                       const std::optional<Tensor>& num_tokens_per_expert,
+                       int                          cached_num_recv_tokens,
+                       const std::optional<Tensor>& cached_rank_prefix_matrix,
+                       const std::optional<Tensor>& cached_channel_prefix_matrix,
+                       int                          expert_alignment,
+                       int                          num_worst_tokens,
+                       const Config&                config);
+
+    std::tuple<Tensor,  //
+               std::optional<Tensor>>
+    intranode_combine(const Tensor&                x,
+                      const std::optional<Tensor>& topk_weights,
+                      const std::optional<Tensor>& bias_0,
+                      const std::optional<Tensor>& bias_1,
+                      const Tensor&                src_idx,
+                      const Tensor&                rank_prefix_matrix,
+                      const Tensor&                channel_prefix_matrix,
+                      Tensor&                      send_head,
+                      const Config&                config);
+
+    std::tuple<Tensor,  //
+               std::optional<Tensor>,
+               Tensor,
+               Tensor,
+               Tensor>
+    low_latency_dispatch(const Tensor&                x,
+                         const Tensor&                topk_idx,
+                         const std::optional<Tensor>& cumulative_local_expert_recv_stats,
+                         const std::optional<Tensor>& dispatch_wait_recv_cost_stats,
+                         int                          num_max_dispatch_tokens_per_rank,
+                         int                          num_experts,
+                         bool                         use_fp8,
+                         bool                         round_scale,
+                         bool                         use_ue8m0);
+
+    std::tuple<Tensor>  //
+    low_latency_combine(const Tensor&                x,
+                        const Tensor&                topk_idx,
+                        const Tensor&                topk_weights,
+                        const Tensor&                src_info,
+                        const Tensor&                layout_range,
+                        const std::optional<Tensor>& combine_wait_recv_cost_stats,
+                        int                          num_max_dispatch_tokens_per_rank,
+                        int                          num_experts,
+                        bool                         use_logfmt,
+                        bool                         zero_copy,
+                        const std::optional<Tensor>& out = std::nullopt);
+
+    Config get_dispatch_config();
+
+    Config get_combine_config();
+};
+
+};  // namespace deep_ep
diff --git a/src/turbomind/comm/nccl/deep_ep/gin_backend.cu b/src/turbomind/comm/nccl/deep_ep/gin_backend.cu
new file mode 100644
index 0000000000..4d7834c5b0
--- /dev/null
+++ b/src/turbomind/comm/nccl/deep_ep/gin_backend.cu
@@ -0,0 +1,244 @@
+#include "src/turbomind/comm/nccl/deep_ep/gin_backend.h"
+
+#include "src/turbomind/comm/nccl/deep_ep/kernels/configs.cuh"
+#include "src/turbomind/comm/nccl/deep_ep/kernels/exception.cuh"
+#include "src/turbomind/core/check.h"
+#include "src/turbomind/core/context.h"
+#include "src/turbomind/utils/logger.h"
+
+#include <cstring>
+
+namespace deep_ep {
+namespace internode {
+
+NCCLGINBackend::~NCCLGINBackend()
+{
+    if (initialized_) {
+        finalize();
+    }
+}
+
+int NCCLGINBackend::init(
+    const std::vector<uint8_t>& root_unique_id_val, int rank, int num_ranks, bool low_latency_mode, int qps_per_rank)
+{
+    if (initialized_) {
+        return rank_;
+    }
+    TM_CHECK_EQ(low_latency_mode, true);  // compatible with low latency mode
+
+    // Check if P2P/NVLink is disabled via environment variable
+    const char* nccl_disable_p2p = std::getenv("NCCL_P2P_DISABLE");
+    p2p_disabled_                = (nccl_disable_p2p != nullptr && std::string(nccl_disable_p2p) == "1");
+
+    // Determine communication topology based on mode
+    const int gpus_per_server = NUM_MAX_NVL_PEERS;
+    int       comm_rank;        // Rank to use for NCCL initialization
+    int       comm_nranks;      // Number of ranks in communicator
+    int       color      = -1;  // Symmetric group ID (only for high throughput mode)
+    int       group_rank = -1;  // Rank within symmetric group
+
+    if (low_latency_mode) {
+        // LOW LATENCY MODE: Connect to all ranks
+        comm_rank   = rank;
+        comm_nranks = num_ranks;
+    }
+    else {
+        // HIGH THROUGHPUT MODE: Connect only to symmetric RDMA ranks
+        color       = rank % gpus_per_server;
+        group_rank  = rank / gpus_per_server;
+        comm_nranks = (num_ranks + gpus_per_server - 1) / gpus_per_server;
+        comm_rank   = group_rank;
+    }
+
+    size_t single_id_size = sizeof(ncclUniqueId);
+    size_t expected_ids   = gpus_per_server;
+    EP_HOST_ASSERT(root_unique_id_val.size() == expected_ids * single_id_size
+                   && "Number of unique IDs doesn't match NUM_MAX_NVL_PEERS * qps_per_rank");
+
+    if (rank == 0) {
+        // Print NCCL version from the actually loaded library
+        int nccl_version;
+        NCCL_CHECK(ncclGetVersion(&nccl_version));
+        TM_LOG_DEBUG("[NCCLEP] NCCL version: %d.%d.%d (loaded library)",
+                     nccl_version / 10000,
+                     (nccl_version % 10000) / 100,
+                     nccl_version % 100);
+    }
+
+    // All gpus form a group for low latency compatible,
+    // otherwise, gpus with the same index across different nodes form a group.
+    ncclUniqueId id;
+    const int    id_offset = (low_latency_mode) ? 0 : color * single_id_size;
+    std::memcpy(&id, root_unique_id_val.data() + id_offset, single_id_size);
+    NCCL_CHECK(ncclCommInitRank(&nccl_comm_, comm_nranks, id, comm_rank));
+
+    // The assumption is that kDecoupled is false when initializing SymBuffers in internode.cu
+    // IMPORTANT: Use global num_ranks, not comm_nranks, because kernels use global topology
+    const auto num_rdma_ranks            = std::max(num_ranks / NUM_MAX_NVL_PEERS, 1);
+    int        rdma_channel_head_signals = num_rdma_ranks * DEEP_EP_NCCL_MAX_NUM_CHANNELS;
+    int        rdma_channel_tail_signals = num_rdma_ranks * DEEP_EP_NCCL_MAX_NUM_CHANNELS;
+    //
+    num_ht_signals_ = rdma_channel_head_signals + rdma_channel_tail_signals;
+    num_ll_signals_ = qps_per_rank * comm_nranks * 2;
+
+    // Initialize Device Communicators
+    auto CreateDevComm = [&](ncclDevComm_t& comm, int signals) {
+        ncclDevCommRequirements reqs = NCCL_DEV_COMM_REQUIREMENTS_INITIALIZER;
+        reqs.barrierCount            = MAX_BARRIER_SESSIONS;
+        reqs.ginSignalCount          = signals + MAX_BARRIER_SESSIONS;
+        reqs.ginConnectionType       = NCCL_GIN_CONNECTION_FULL;
+        reqs.ginContextCount         = qps_per_rank;
+        NCCL_CHECK(ncclDevCommCreate(nccl_comm_, &reqs, &comm));
+    };
+    CreateDevComm(dev_ll_comm_, num_ll_signals_);  // low latency mode
+    CreateDevComm(dev_ht_comm_, num_ht_signals_);  // high throughput mode
+
+    // Allocate barrier dummy variable
+    CUDA_CHECK(cudaMalloc(reinterpret_cast<void**>(&d_barrier_var_), sizeof(int)));
+    CUDA_CHECK(cudaMemset(d_barrier_var_, 0, sizeof(int)));
+
+    // Store global rank and num_ranks (for external API)
+    rank_      = rank;
+    num_ranks_ = num_ranks;
+
+    // Store communicator-specific ranks for internal use
+    comm_rank_   = comm_rank;
+    comm_nranks_ = comm_nranks;
+
+    initialized_ = true;
+    TM_LOG_DEBUG(
+        "[NCCLEP] Initialized global rank %d/%d (comm rank %d/%d)", rank_, num_ranks_, comm_rank_, comm_nranks_);
+
+    return rank_;
+}
+
+void NCCLGINBackend::finalize()
+{
+    TM_LOG_DEBUG("[NCCLEP][%d] Finalizing", rank_);
+    if (!initialized_) {
+        return;
+    }
+
+    // Destroy device communicators
+    auto DestroyDevComm = [&](ncclDevComm_t& comm, std::string_view key) {
+        ncclResult_t res = ncclDevCommDestroy(nccl_comm_, &comm);
+        if (res != ncclSuccess) {
+            TM_LOG_ERROR("[NCCLEP][%d] Failed to destroy device communication %s: %s",
+                         rank_,
+                         key.data(),
+                         ncclGetErrorString(res));
+        }
+    };
+    DestroyDevComm(dev_ll_comm_, "low latency mode");
+    DestroyDevComm(dev_ht_comm_, "high throughput mode");
+
+    for (auto& [ptr, win] : wins_) {
+        TM_LOG_WARNING("[NCCLEP][%d] Memory %p is not deregistered", rank_, ptr);
+    }
+    for (auto& [ptr, size] : buffers_) {
+        TM_LOG_WARNING("[NCCLEP][%d] Allocation (%p, %lu) is not freed", rank_, ptr, size);
+    }
+
+    // Free barrier dummy variable
+    if (d_barrier_var_ != nullptr) {
+        cudaFree(d_barrier_var_);
+        d_barrier_var_ = nullptr;
+    }
+    // Destroy all communicators
+    ncclCommFinalize(nccl_comm_);
+    ncclCommDestroy(nccl_comm_);
+
+    TM_LOG_DEBUG("[NCCLEP][%d] Destroyed NCCL communicator", rank_);
+    initialized_ = false;
+}
+
+void NCCLGINBackend::barrier()
+{
+    TM_CHECK_EQ(initialized_, true);
+    TM_CHECK_NE(d_barrier_var_, nullptr);
+
+    cudaStream_t stream = turbomind::core::Context::stream().handle();
+    NCCL_CHECK(ncclGroupStart());
+    NCCL_CHECK(ncclAllReduce(d_barrier_var_, d_barrier_var_, 1, ncclInt, ncclSum, nccl_comm_, stream));
+    NCCL_CHECK(ncclGroupEnd());
+}
+
+void* NCCLGINBackend::alloc(size_t size, size_t /*alignment*/)
+{
+    TM_CHECK_EQ(initialized_, true);
+
+    void* ptr = nullptr;
+    // NCCL memory is already aligned to page size, so alignment parameter is ignored for now.
+    NCCL_CHECK(ncclMemAlloc(&ptr, size));
+    buffers_.emplace(ptr, size);
+    return ptr;
+}
+
+void NCCLGINBackend::register_memory(void* ptr, size_t size)
+{
+    TM_CHECK_EQ(initialized_, true);
+    TM_CHECK_EQ(buffers_.find(ptr) != buffers_.end(), true);
+    TM_CHECK_EQ(wins_.find(ptr) == wins_.end(), true);
+    ncclWindow_t win{};
+    NCCL_CHECK(ncclCommWindowRegister(nccl_comm_, ptr, size, &win, 0));
+    wins_.emplace(ptr, win);
+}
+
+void NCCLGINBackend::free(void* ptr)
+{
+    TM_CHECK_EQ(initialized_, true);
+    auto it = wins_.find(ptr);
+    TM_CHECK_EQ(it != wins_.end(), true);
+    NCCL_CHECK(ncclCommWindowDeregister(nccl_comm_, it->second));
+    NCCL_CHECK(ncclMemFree(ptr));
+    wins_.erase(it);
+    buffers_.erase(ptr);
+}
+
+int NCCLGINBackend::get_rank() const
+{
+    TM_CHECK_NE(rank_, -1);
+    return rank_;
+}
+
+int NCCLGINBackend::get_num_ranks() const
+{
+    TM_CHECK_NE(num_ranks_, -1);
+    return num_ranks_;
+}
+
+bool NCCLGINBackend::is_p2p_disabled() const
+{
+    return p2p_disabled_;
+}
+
+unsigned NCCLGINBackend::get_signals_base(int buffer_idx, bool low_latency_mode) const
+{
+    if (low_latency_mode) {
+        EP_HOST_ASSERT(buffer_idx == 0 || buffer_idx == 1);
+        TM_CHECK_NE(num_ll_signals_, 0);
+        return buffer_idx * num_ll_signals_ / 2;
+    }
+    else {
+        EP_HOST_ASSERT(buffer_idx == 0);
+        TM_CHECK_NE(num_ht_signals_, 0);
+        return 0;
+    }
+}
+
+ncclWindow_t NCCLGINBackend::get_device_nccl_window(void* ptr)
+{
+    TM_CHECK_EQ(initialized_, true);
+    auto it = wins_.find(ptr);
+    TM_CHECK_EQ(it != wins_.end(), true);
+    return it->second;
+}
+
+ncclDevComm NCCLGINBackend::get_device_communicator(bool low_latency_mode) const
+{
+    TM_CHECK_EQ(initialized_, true);
+    return low_latency_mode ? dev_ll_comm_ : dev_ht_comm_;
+}
+
+}  // namespace internode
+}  // namespace deep_ep
diff --git a/src/turbomind/comm/nccl/deep_ep/gin_backend.h b/src/turbomind/comm/nccl/deep_ep/gin_backend.h
new file mode 100644
index 0000000000..a10de528c3
--- /dev/null
+++ b/src/turbomind/comm/nccl/deep_ep/gin_backend.h
@@ -0,0 +1,82 @@
+#pragma once
+
+#include <cuda_runtime.h>
+#include <nccl.h>
+#include <nccl_device.h>
+
+#include <vector>
+
+#define DEEP_EP_GIN_MAX_CONTEXTS 32
+#define DEEP_EP_NCCL_GIN_CTXS_PER_COMM 4
+#define DEEP_EP_NCCL_MAX_NUM_CHANNELS 32  // Max number of local experts per GPU
+
+namespace deep_ep {
+namespace internode {
+
+struct NcclGinMemHandle {
+    void* ptr = nullptr;
+};
+
+class NCCLGINBackend {
+public:
+    NCCLGINBackend(): initialized_(false), rank_(-1), num_ranks_(-1) {}
+
+    ~NCCLGINBackend();
+
+    // Required interface methods
+    int init(const std::vector<uint8_t>& root_unique_id_val,
+             int                         rank,
+             int                         num_ranks,
+             bool                        low_latency_mode,
+             int                         qps_per_rank);
+
+    void finalize();
+    void barrier();
+
+    // Memory management interface methods
+    void* alloc(size_t size, size_t alignment);
+    void  register_memory(void* ptr, size_t size);  // NCCL-specific: register allocated memory with communicators
+    void  free(void* ptr);
+
+    int get_rank() const;
+    int get_num_ranks() const;
+
+    // NCCL-specific methods
+    bool is_p2p_disabled() const;
+
+    // NCCL specific methods
+    unsigned get_signals_base(int buffer_idx, bool low_latency_mode) const;
+
+    // Device arrays for kernels
+    ncclWindow_t get_device_nccl_window(void* ptr);
+    ncclDevComm  get_device_communicator(bool low_latency_mode) const;
+
+private:
+    bool initialized_  = false;
+    bool p2p_disabled_ = false;  // True if P2P/NVLink is disabled
+    int  rank_         = -1;     // Global rank (for external API)
+    int  num_ranks_    = -1;     // Global num_ranks (for external API)
+    int  comm_rank_    = -1;     // Rank within NCCL communicator
+    int  comm_nranks_  = -1;     // Number of ranks in NCCL communicator
+
+    ncclComm_t nccl_comm_;
+
+    ncclDevComm_t dev_ht_comm_{};
+    ncclDevComm_t dev_ll_comm_{};
+
+    std::unordered_map<void*, ncclWindow_t> wins_;
+    std::unordered_map<void*, size_t>       buffers_;
+
+    // GIN signal management
+    int num_ht_signals_ = 0;
+    int num_ll_signals_ = 0;
+
+    // GIN barriers -- assume 32 rdma ranks
+    const int MAX_BARRIER_SESSIONS = 32;
+
+    // Barrier variable
+    int* d_barrier_var_ = nullptr;
+};
+
+}  // namespace internode
+}  // namespace deep_ep
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/api.cuh b/src/turbomind/comm/nccl/deep_ep/kernels/api.cuh
new file mode 100644
index 0000000000..fe0d734a61
--- /dev/null
+++ b/src/turbomind/comm/nccl/deep_ep/kernels/api.cuh
@@ -0,0 +1,380 @@
+// clang-format off
+#pragma once
+
+#include <nccl.h>
+#include <nccl_device.h>
+
+#include <vector>
+
+#include "configs.cuh"
+
+namespace deep_ep {
+
+// Intranode runtime
+namespace intranode {
+
+void barrier(int** barrier_signal_ptrs, int rank, int num_ranks, cudaStream_t stream);
+
+}  // namespace intranode
+
+// Internode runtime
+namespace internode {
+
+class NCCLGINBackend;
+
+std::vector<uint8_t> get_unique_id();
+
+int init(const std::vector<uint8_t>& root_unique_id_val,
+         int                         rank,
+         int                         num_ranks,
+         bool                        low_latency_mode,
+         int                         qps_per_rank,
+         NCCLGINBackend*             comm);
+
+void* alloc(size_t size, size_t alignment, NCCLGINBackend* comm);
+
+void register_memory(void* ptr, size_t size, NCCLGINBackend* comm);
+
+void free(void* ptr, NCCLGINBackend* comm);
+
+void barrier(NCCLGINBackend* comm);
+
+void finalize(NCCLGINBackend* comm);
+
+}  // namespace internode
+
+// Layout kernels
+namespace layout {
+
+void get_dispatch_layout(const topk_idx_t* topk_idx,
+                         int*              num_tokens_per_rank,
+                         int*              num_tokens_per_rdma_rank,
+                         int*              num_tokens_per_expert,
+                         bool*             is_token_in_rank,
+                         int               num_tokens,
+                         int               num_topk,
+                         int               num_ranks,
+                         int               num_experts,
+                         cudaStream_t      stream);
+
+}  // namespace layout
+
+// Intranode kernels
+namespace intranode {
+
+void notify_dispatch(const int*   num_tokens_per_rank,
+                     int*         moe_recv_counter_mapped,
+                     int          num_ranks,
+                     const int*   num_tokens_per_expert,
+                     int*         moe_recv_expert_counter_mapped,
+                     int*         moe_recv_expert_counter_ten,
+                     int          num_experts,
+                     int          num_tokens,
+                     const bool*  is_token_in_rank,
+                     int*         channel_prefix_matrix,
+                     int*         rank_prefix_matrix_copy,
+                     int          num_memset_int,
+                     int          expert_alignment,
+                     void**       buffer_ptrs,
+                     int**        barrier_signal_ptrs,
+                     int          rank,
+                     cudaStream_t stream,
+                     int          num_sms);
+
+void cached_notify_dispatch(const int*   rank_prefix_matrix,
+                            int          num_memset_int,
+                            void**       buffer_ptrs,
+                            int**        barrier_signal_ptrs,
+                            int          rank,
+                            int          num_ranks,
+                            cudaStream_t stream);
+
+void dispatch(void*             recv_x,
+              float*            recv_x_scales,
+              int*              recv_src_idx,
+              topk_idx_t*       recv_topk_idx,
+              float*            recv_topk_weights,
+              int*              recv_channel_offset,
+              int*              send_head,
+              const void*       x,
+              const float*      x_scales,
+              const topk_idx_t* topk_idx,
+              const float*      topk_weights,
+              const bool*       is_token_in_rank,
+              const int*        channel_prefix_matrix,
+              int               num_tokens,
+              int               num_worst_tokens,
+              int               hidden_int4,
+              int               num_topk,
+              int               num_experts,
+              int               num_scales,
+              int               scale_token_stride,
+              int               scale_hidden_stride,
+              void**            buffer_ptrs,
+              int               rank,
+              int               num_ranks,
+              cudaStream_t      stream,
+              int               num_sms,
+              int               num_max_send_tokens,
+              int               num_recv_buffer_tokens);
+
+void cached_notify_combine(void**       buffer_ptrs,
+                           int*         send_head,
+                           int          num_channels,
+                           int          num_recv_tokens,
+                           int          num_memset_int,
+                           int**        barrier_signal_ptrs,
+                           int          rank,
+                           int          num_ranks,
+                           cudaStream_t stream);
+
+void combine(cudaDataType_t type,
+             void*          recv_x,
+             float*         recv_topk_weights,
+             const void*    x,
+             const float*   topk_weights,
+             const void*    bias_0,
+             const void*    bias_1,
+             const int*     src_idx,
+             const int*     rank_prefix_matrix,
+             const int*     channel_prefix_matrix,
+             int*           send_head,
+             int            num_tokens,
+             int            num_recv_tokens,
+             int            hidden,
+             int            num_topk,
+             void**         buffer_ptrs,
+             int            rank,
+             int            num_ranks,
+             cudaStream_t   stream,
+             int            num_sms,
+             int            num_max_send_tokens,
+             int            num_recv_buffer_tokens);
+
+}  // namespace intranode
+
+// Internode kernels
+namespace internode {
+
+int get_source_meta_bytes();
+
+void notify_dispatch(const int*   num_tokens_per_rank,
+                     int*         moe_recv_counter_mapped,
+                     int          num_ranks,
+                     const int*   num_tokens_per_rdma_rank,
+                     int*         moe_recv_rdma_counter_mapped,
+                     const int*   num_tokens_per_expert,
+                     int*         moe_recv_expert_counter_mapped,
+                     int          num_experts,
+                     const bool*  is_token_in_rank,
+                     int          num_tokens,
+                     int          num_worst_tokens,
+                     int          num_channels,
+                     int          hidden_int4,
+                     int          num_scales,
+                     int          num_topk,
+                     int          expert_alignment,
+                     int*         rdma_channel_prefix_matrix,
+                     int*         recv_rdma_rank_prefix_sum,
+                     int*         gbl_channel_prefix_matrix,
+                     int*         recv_gbl_rank_prefix_sum,
+                     void*        rdma_buffer_ptr,
+                     int          num_max_rdma_chunked_recv_tokens,
+                     void**       buffer_ptrs,
+                     int          num_max_nvl_chunked_recv_tokens,
+                     int**        barrier_signal_ptrs,
+                     int          rank,
+                     cudaStream_t stream,
+                     int64_t      num_rdma_bytes,
+                     int64_t      num_nvl_bytes,
+                     bool         low_latency_mode);
+
+void dispatch(void*             recv_x,
+              float*            recv_x_scales,
+              topk_idx_t*       recv_topk_idx,
+              float*            recv_topk_weights,
+              void*             recv_src_meta,
+              const void*       x,
+              const float*      x_scales,
+              const topk_idx_t* topk_idx,
+              const float*      topk_weights,
+              int*              send_rdma_head,
+              int*              send_nvl_head,
+              int*              recv_rdma_channel_prefix_matrix,
+              int*              recv_gbl_channel_prefix_matrix,
+              const int*        rdma_channel_prefix_matrix,
+              const int*        recv_rdma_rank_prefix_sum,
+              const int*        gbl_channel_prefix_matrix,
+              const int*        recv_gbl_rank_prefix_sum,
+              const bool*       is_token_in_rank,
+              int               num_tokens,
+              int               num_worst_tokens,
+              int               hidden_int4,
+              int               num_scales,
+              int               num_topk,
+              int               num_experts,
+              int               scale_token_stride,
+              int               scale_hidden_stride,
+              void*             rdma_buffer_ptr,
+              int               num_max_rdma_chunked_send_tokens,
+              int               num_max_rdma_chunked_recv_tokens,
+              void**            buffer_ptrs,
+              int               num_max_nvl_chunked_send_tokens,
+              int               num_max_nvl_chunked_recv_tokens,
+              int               rank,
+              int               num_ranks,
+              bool              is_cached_dispatch,
+              cudaStream_t      stream,
+              int               num_channels,
+              bool              low_latency_mode);
+
+void cached_notify(int          hidden_int4,
+                   int          num_scales,
+                   int          num_topk_idx,
+                   int          num_topk_weights,
+                   int          num_ranks,
+                   int          num_channels,
+                   int          num_combined_tokens,
+                   int*         combined_rdma_head,
+                   const int*   rdma_channel_prefix_matrix,
+                   const int*   rdma_rank_prefix_sum,
+                   int*         combined_nvl_head,
+                   void*        rdma_buffer_ptr,
+                   int          num_max_rdma_chunked_recv_tokens,
+                   void**       buffer_ptrs,
+                   int          num_max_nvl_chunked_recv_tokens,
+                   int**        barrier_signal_ptrs,
+                   int          rank,
+                   cudaStream_t stream,
+                   int64_t      num_rdma_bytes,
+                   int64_t      num_nvl_bytes,
+                   bool         is_cached_dispatch,
+                   bool         low_latency_mode);
+
+void combine(cudaDataType_t type,
+             void*          combined_x,
+             float*         combined_topk_weights,
+             const bool*    is_combined_token_in_rank,
+             const void*    x,
+             const float*   topk_weights,
+             const void*    bias_0,
+             const void*    bias_1,
+             const int*     combined_rdma_head,
+             const int*     combined_nvl_head,
+             const void*    src_meta,
+             const int*     rdma_channel_prefix_matrix,
+             const int*     rdma_rank_prefix_sum,
+             const int*     gbl_channel_prefix_matrix,
+             int            num_tokens,
+             int            num_combined_tokens,
+             int            hidden,
+             int            num_topk,
+             void*          rdma_buffer_ptr,
+             int            num_max_rdma_chunked_send_tokens,
+             int            num_max_rdma_chunked_recv_tokens,
+             void**         buffer_ptrs,
+             int            num_max_nvl_chunked_send_tokens,
+             int            num_max_nvl_chunked_recv_tokens,
+             int            rank,
+             int            num_ranks,
+             cudaStream_t   stream,
+             int            num_channels,
+             bool           low_latency_mode);
+
+}  // namespace internode
+
+// Internode low-latency kernels
+namespace internode_ll {
+
+void clean_low_latency_buffer(int*         clean_0,
+                              int          num_clean_int_0,
+                              int*         clean_1,
+                              int          num_clean_int_1,
+                              int          rank,
+                              int          num_ranks,
+                              int*         mask_buffer,
+                              int*         sync_buffer,
+                              cudaStream_t stream);
+
+void dispatch(void*             packed_recv_x,
+              void*             packed_recv_x_scales,
+              int*              packed_recv_src_info,
+              int64_t*          packed_recv_layout_range,
+              int*              packed_recv_count,
+              int*              mask_buffer,
+              int*              cumulative_local_expert_recv_stats,
+              int64_t*          dispatch_wait_recv_cost_stats,
+              void*             rdma_recv_x,
+              int*              rdma_recv_count,
+              void*             rdma_x,
+              size_t            rdma_recv_x_offset,
+              size_t            rdma_recv_count_offset,
+              size_t            rdma_x_offset,
+              const void*       x,
+              const topk_idx_t* topk_idx,
+              int*              next_clean,
+              int               num_next_clean_int,
+              int               num_tokens,
+              int               hidden,
+              int               num_max_dispatch_tokens_per_rank,
+              int               num_topk,
+              int               num_experts,
+              int               rank,
+              int               num_ranks,
+              bool              use_fp8,
+              bool              round_scale,
+              bool              use_ue8m0,
+              void*             workspace,
+              int               num_device_sms,
+              ncclWindow_t      nccl_win,
+              ncclDevComm       dev_comm,
+              unsigned          signals_base,
+              cudaStream_t      stream,
+              int               phases);
+
+void combine(void*             combined_x,
+             void*             rdma_recv_x,
+             int*              rdma_recv_flag,
+             void*             rdma_send_x,
+             size_t            rdma_recv_x_offset,
+             size_t            rdma_recv_flag_offset,
+             size_t            rdma_send_x_offset,
+             const void*       x,
+             const topk_idx_t* topk_idx,
+             const float*      topk_weights,
+             const int*        src_info,
+             const int64_t*    layout_range,
+             int*              mask_buffer,
+             int64_t*          combine_wait_recv_cost_stats,
+             int*              next_clean,
+             int               num_next_clean_int,
+             int               num_combined_tokens,
+             int               hidden,
+             int               num_max_dispatch_tokens_per_rank,
+             int               num_topk,
+             int               num_experts,
+             int               rank,
+             int               num_ranks,
+             bool              use_logfmt,
+             void*             workspace,
+             int               num_device_sms,
+             ncclWindow_t      nccl_win,
+             ncclDevComm       dev_comm,
+             unsigned          signals_base,
+             cudaStream_t      stream,
+             int               phases,
+             bool              zero_copy);
+
+void query_mask_buffer(int* mask_buffer_ptr, int num_ranks, int* output_mask_tensor, cudaStream_t stream);
+
+void update_mask_buffer(int* mask_buffer_ptr, int rank_to_mask, bool mask, cudaStream_t stream);
+
+void clean_mask_buffer(int* mask_buffer_ptr, int num_ranks, cudaStream_t stream);
+
+void set_p2p_disabled_flag(bool disabled);
+
+}  // namespace internode_ll
+
+}  // namespace deep_ep
+
+// clang-format on
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/buffer.cuh b/src/turbomind/comm/nccl/deep_ep/kernels/buffer.cuh
new file mode 100644
index 0000000000..673fc86ae4
--- /dev/null
+++ b/src/turbomind/comm/nccl/deep_ep/kernels/buffer.cuh
@@ -0,0 +1,134 @@
+// clang-format off
+#pragma once
+
+#include "configs.cuh"
+#include "exception.cuh"
+
+namespace deep_ep {
+
+template <typename dtype_t>
+struct Buffer {
+private:
+    uint8_t* ptr;
+
+public:
+    int64_t total_bytes;
+
+    __device__ __forceinline__ Buffer() : ptr(nullptr), total_bytes(0) {}
+
+    __device__ __forceinline__ Buffer(void*& gbl_ptr, int num_elems, int offset = 0) {
+        total_bytes = num_elems * sizeof(dtype_t);
+        ptr = static_cast<uint8_t*>(gbl_ptr) + offset * sizeof(dtype_t);
+        gbl_ptr = static_cast<uint8_t*>(gbl_ptr) + total_bytes;
+    }
+
+    __device__ __forceinline__ Buffer advance_also(void*& gbl_ptr) {
+        gbl_ptr = static_cast<uint8_t*>(gbl_ptr) + total_bytes;
+        return *this;
+    }
+
+    __device__ __forceinline__ dtype_t* buffer() { return reinterpret_cast<dtype_t*>(ptr); }
+
+    __device__ __forceinline__ dtype_t& operator[](int idx) { return buffer()[idx]; }
+};
+
+template <typename dtype_t, int kNumRanks = 1>
+struct AsymBuffer {
+private:
+    uint8_t* ptrs[kNumRanks];
+    int64_t num_bytes;
+
+public:
+    int64_t total_bytes;
+
+    __device__ __forceinline__ AsymBuffer(void*& gbl_ptr, int num_elems, int num_ranks, int sm_id = 0, int num_sms = 1, int offset = 0) {
+        EP_STATIC_ASSERT(kNumRanks == 1, "");
+        num_bytes = num_elems * sizeof(dtype_t);
+
+        int64_t per_channel_bytes = num_bytes * num_ranks;
+        total_bytes = per_channel_bytes * num_sms;
+        ptrs[0] = static_cast<uint8_t*>(gbl_ptr) + per_channel_bytes * sm_id + num_bytes * offset;
+        gbl_ptr = static_cast<uint8_t*>(gbl_ptr) + total_bytes;
+    }
+
+    __device__ __forceinline__ AsymBuffer(void** gbl_ptrs, int num_elems, int num_ranks, int sm_id = 0, int num_sms = 1, int offset = 0) {
+        EP_STATIC_ASSERT(kNumRanks > 1, "");
+        num_bytes = num_elems * sizeof(dtype_t);
+
+        int64_t per_channel_bytes = num_bytes * num_ranks;
+        total_bytes = per_channel_bytes * num_sms;
+        for (int i = 0; i < kNumRanks; ++i) {
+            ptrs[i] = static_cast<uint8_t*>(gbl_ptrs[i]) + per_channel_bytes * sm_id + num_bytes * offset;
+            gbl_ptrs[i] = static_cast<uint8_t*>(gbl_ptrs[i]) + total_bytes;
+        }
+    }
+
+    __device__ __forceinline__ void advance(int shift) {
+        #pragma unroll
+        for (int i = 0; i < kNumRanks; ++i)
+            ptrs[i] = ptrs[i] + shift * sizeof(dtype_t);
+    }
+
+    __device__ __forceinline__ AsymBuffer advance_also(void*& gbl_ptr) {
+        gbl_ptr = static_cast<uint8_t*>(gbl_ptr) + total_bytes;
+        return *this;
+    }
+
+    template <int kNumAlsoRanks>
+    __device__ __forceinline__ AsymBuffer advance_also(void** gbl_ptrs) {
+        for (int i = 0; i < kNumAlsoRanks; ++i)
+            gbl_ptrs[i] = static_cast<uint8_t*>(gbl_ptrs[i]) + total_bytes;
+        return *this;
+    }
+
+    __device__ __forceinline__ dtype_t* buffer(int idx = 0) {
+        EP_STATIC_ASSERT(kNumRanks == 1, "`buffer` is only available for single rank case");
+        return reinterpret_cast<dtype_t*>(ptrs[0] + num_bytes * idx);
+    }
+
+    __device__ __forceinline__ dtype_t* buffer_by(int rank_idx, int idx = 0) {
+        EP_STATIC_ASSERT(kNumRanks > 1, "`buffer` is only available for single rank case");
+        return reinterpret_cast<dtype_t*>(ptrs[rank_idx] + num_bytes * idx);
+    }
+};
+
+template <typename dtype_t, bool kDecoupled = true>
+struct SymBuffer {
+private:
+    // NOTES: for non-decoupled case, `recv_ptr` is not used
+    uint8_t* send_ptr;
+    uint8_t* recv_ptr;
+    int64_t num_bytes;
+
+public:
+    int64_t total_bytes;
+
+    __device__ __forceinline__ SymBuffer(void*& gbl_ptr, int num_elems, int num_ranks, int sm_id = 0, int num_sms = 1) {
+        num_bytes = num_elems * sizeof(dtype_t);
+
+        int64_t per_channel_bytes = num_bytes * num_ranks;
+        total_bytes = per_channel_bytes * num_sms * (static_cast<int>(kDecoupled) + 1);
+        send_ptr = static_cast<uint8_t*>(gbl_ptr) + per_channel_bytes * sm_id;
+        recv_ptr = static_cast<uint8_t*>(gbl_ptr) + per_channel_bytes * (sm_id + num_sms);
+        gbl_ptr = static_cast<uint8_t*>(gbl_ptr) + total_bytes;
+    }
+
+    __device__ __forceinline__ dtype_t* send_buffer(int idx = 0) {
+        EP_STATIC_ASSERT(kDecoupled, "`send_buffer` is only available for non-decoupled case");
+        return reinterpret_cast<dtype_t*>(send_ptr + num_bytes * idx);
+    }
+
+    __device__ __forceinline__ dtype_t* recv_buffer(int idx = 0) {
+        EP_STATIC_ASSERT(kDecoupled, "`recv_buffer` is only available for non-decoupled case");
+        return reinterpret_cast<dtype_t*>(recv_ptr + num_bytes * idx);
+    }
+
+    __device__ __forceinline__ dtype_t* buffer(int idx = 0) {
+        EP_STATIC_ASSERT(not kDecoupled, "`buffer` is only available for decoupled case");
+        return reinterpret_cast<dtype_t*>(send_ptr + num_bytes * idx);
+    }
+};
+
+}  // namespace deep_ep
+
+// clang-format on
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/configs.cuh b/src/turbomind/comm/nccl/deep_ep/kernels/configs.cuh
new file mode 100644
index 0000000000..9669120dcf
--- /dev/null
+++ b/src/turbomind/comm/nccl/deep_ep/kernels/configs.cuh
@@ -0,0 +1,81 @@
+#pragma once
+
+#define NUM_MAX_NVL_PEERS 8
+#define NUM_MAX_RDMA_PEERS 20
+#define NUM_WORKSPACE_BYTES (32 * 1024 * 1024)
+#define NUM_MAX_LOCAL_EXPERTS 1024
+#define NUM_BUFFER_ALIGNMENT_BYTES 128
+
+#define FINISHED_SUM_TAG 1024
+#define NUM_WAIT_NANOSECONDS 500
+
+#ifndef ENABLE_FAST_DEBUG
+#define NUM_CPU_TIMEOUT_SECS 100
+#define NUM_TIMEOUT_CYCLES 200000000000ull  // 200G cycles ~= 100s
+#else
+#define NUM_CPU_TIMEOUT_SECS 10
+#define NUM_TIMEOUT_CYCLES 20000000000ull  // 20G cycles ~= 10s
+#endif
+
+#define LOW_LATENCY_SEND_PHASE 1
+#define LOW_LATENCY_RECV_PHASE 2
+
+// Make CLion CUDA indexing work
+#ifdef __CLION_IDE__
+#define __CUDA_ARCH__ 900  // NOLINT(*-reserved-identifier)
+#define __CUDACC_RDC__     // NOLINT(*-reserved-identifier)
+#endif
+
+// Define __CUDACC_RDC__ to ensure proper extern declarations for NVSHMEM device symbols
+#ifndef DISABLE_NVSHMEM
+#ifndef __CUDACC_RDC__
+#define __CUDACC_RDC__  // NOLINT(*-reserved-identifier)
+#endif
+#endif
+
+// Remove Torch restrictions
+#ifdef __CUDA_NO_HALF_CONVERSIONS__
+#undef __CUDA_NO_HALF_CONVERSIONS__
+#endif
+#ifdef __CUDA_NO_HALF_OPERATORS__
+#undef __CUDA_NO_HALF_OPERATORS__
+#endif
+#ifdef __CUDA_NO_HALF2_OPERATORS__
+#undef __CUDA_NO_HALF2_OPERATORS__
+#endif
+#ifdef __CUDA_NO_BFLOAT16_CONVERSIONS__
+#undef __CUDA_NO_BFLOAT16_CONVERSIONS__
+#endif
+#ifdef __CUDA_NO_BFLOAT162_OPERATORS__
+#undef __CUDA_NO_BFLOAT162_OPERATORS__
+#endif
+
+#include <cuda_bf16.h>
+#include <cuda_runtime.h>
+
+#include <cstdint>
+
+#ifndef DISABLE_SM90_FEATURES
+#include <cuda_fp8.h>
+#else
+// Ampere does not support FP8 features
+#define __NV_E4M3 0
+#define __NV_E5M2 1
+typedef int     __nv_fp8_interpretation_t;
+typedef int     __nv_fp8x4_e4m3;
+typedef uint8_t __nv_fp8_storage_t;
+#endif
+
+namespace deep_ep {
+
+#ifndef TOPK_IDX_BITS
+#define TOPK_IDX_BITS 64
+#endif
+
+#define INT_BITS_T2(bits) int##bits##_t
+#define INT_BITS_T(bits) INT_BITS_T2(bits)
+typedef INT_BITS_T(TOPK_IDX_BITS) topk_idx_t;  // int32_t or int64_t
+#undef INT_BITS_T
+#undef INT_BITS_T2
+
+}  // namespace deep_ep
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/exception.cuh b/src/turbomind/comm/nccl/deep_ep/kernels/exception.cuh
new file mode 100644
index 0000000000..d6086f4343
--- /dev/null
+++ b/src/turbomind/comm/nccl/deep_ep/kernels/exception.cuh
@@ -0,0 +1,76 @@
+// clang-format off
+#pragma once
+
+#include <exception>
+#include <string>
+
+#include "configs.cuh"
+
+#ifndef EP_STATIC_ASSERT
+#define EP_STATIC_ASSERT(cond, reason) static_assert(cond, reason)
+#endif
+
+class EPException : public std::exception {
+private:
+    std::string message = {};
+
+public:
+    explicit EPException(const char* name, const char* file, const int line, const std::string& error) {
+        message = std::string("Failed: ") + name + " error " + file + ":" + std::to_string(line) + " '" + error + "'";
+    }
+
+    const char* what() const noexcept override { return message.c_str(); }
+};
+
+#ifndef CUDA_CHECK
+#define CUDA_CHECK(cmd)                                                           \
+    do {                                                                          \
+        cudaError_t e = (cmd);                                                    \
+        if (e != cudaSuccess) {                                                   \
+            throw EPException("CUDA", __FILE__, __LINE__, cudaGetErrorString(e)); \
+        }                                                                         \
+    } while (0)
+#endif
+
+#ifndef CU_CHECK
+#define CU_CHECK(cmd)                                                            \
+    do {                                                                         \
+        CUresult e = (cmd);                                                      \
+        if (e != CUDA_SUCCESS) {                                                 \
+            const char* error_str = NULL;                                        \
+            cuGetErrorString(e, &error_str);                                     \
+            throw EPException("CU", __FILE__, __LINE__, std::string(error_str)); \
+        }                                                                        \
+    } while (0)
+#endif
+
+#ifndef EP_HOST_ASSERT
+#define EP_HOST_ASSERT(cond)                                           \
+    do {                                                               \
+        if (not(cond)) {                                               \
+            throw EPException("Assertion", __FILE__, __LINE__, #cond); \
+        }                                                              \
+    } while (0)
+#endif
+
+#ifndef EP_DEVICE_ASSERT
+#define EP_DEVICE_ASSERT(cond)                                                             \
+    do {                                                                                   \
+        if (not(cond)) {                                                                   \
+            printf("Assertion failed: %s:%d, condition: %s\n", __FILE__, __LINE__, #cond); \
+            asm("trap;");                                                                  \
+        }                                                                                  \
+    } while (0)
+#endif
+
+#ifndef NCCL_CHECK
+#define NCCL_CHECK(cmd)                                                                                                \
+    do {                                                                                                               \
+        ncclResult_t e = (cmd);                                                                                        \
+        if (e != ncclSuccess) {                                                                                        \
+            throw EPException("NCCL", __FILE__, __LINE__, ncclGetErrorString(e));                                      \
+        }                                                                                                              \
+    } while (0)
+#endif
+
+// clang-format on
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/internode_ll.cu b/src/turbomind/comm/nccl/deep_ep/kernels/internode_ll.cu
new file mode 100644
index 0000000000..7bae1073e9
--- /dev/null
+++ b/src/turbomind/comm/nccl/deep_ep/kernels/internode_ll.cu
@@ -0,0 +1,1348 @@
+// clang-format off
+#include "configs.cuh"
+#include "exception.cuh"
+#include "launch.cuh"
+#include "utils.cuh"
+
+#include <nccl_device/gin/gin_device_api.h>
+#include <cooperative_groups.h>
+#include <nccl.h>
+#include <nccl_device.h>
+
+using namespace cooperative_groups;
+namespace cg = cooperative_groups;
+#define ENABLE_NCCL 1
+
+namespace deep_ep {
+
+namespace internode_ll {
+
+template <bool use_warp_sync = false>
+__forceinline__ __device__ bool is_rank_masked(int* mask_buffer_ptr, int rank) {
+    if (mask_buffer_ptr == nullptr) {
+        return false;
+    }
+    if constexpr (use_warp_sync) {
+        return __shfl_sync(0xffffffff, ld_acquire_global(mask_buffer_ptr + rank), 0) != 0;
+    } else {
+        return ld_acquire_global(mask_buffer_ptr + rank) != 0;
+    }
+}
+
+// Device constant for P2P/NVLink disabled flag
+// Set to true to force RDMA path, false to allow P2P when available
+// Default is false (P2P enabled), updated from host via CLI option
+__device__ __constant__ bool d_p2p_disabled = false;
+
+// Get peer-to-peer pointer for NCCL
+// Returns dst_ptr if NVLink is available, 0 otherwise
+// offset parameter allows callers to pass a pre-calculated offset for the destination
+__device__ __forceinline__ uint64_t nccl_get_p2p_ptr(const uint64_t&     dst_ptr,
+                                                     const size_t&       offset,
+                                                     const int&          rank,
+                                                     const int&          dst_rank,
+                                                     const ncclWindow_t  dev_win,
+                                                     ncclDevComm         dev_comm)
+{
+    // Local rank, no need for peer mapping
+    if (rank == dst_rank)
+        return dst_ptr;
+
+    // If P2P is globally disabled, always use RDMA path
+    if (d_p2p_disabled)
+        return 0;
+
+    // P2P/NVLink only works between ranks on the same node (LSA team)
+    // Use NCCL team APIs to check if dst_rank is in the same LSA team
+    ncclTeam lsa     = ncclTeamLsa(dev_comm);
+    ncclTeam world   = ncclTeamWorld(dev_comm);
+    if (!ncclTeamRankIsMember(lsa, world, dst_rank)) {
+        return 0;  // Different nodes (not in same LSA team), must use RDMA
+
+    }
+
+    auto const p2p_ptr = reinterpret_cast<uint64_t>(ncclGetPeerPointer(dev_win, offset, dst_rank));
+    return p2p_ptr ? p2p_ptr : 0;
+}
+
+
+template <bool kUseFP8, bool kUseUE8M0, int kHidden>
+__global__ __launch_bounds__(1024, 1) void dispatch(void* packed_recv_x,
+                                                    void* packed_recv_x_scales,
+                                                    int* packed_recv_src_info,
+                                                    int64_t* packed_recv_layout_range,
+                                                    int* packed_recv_count,
+                                                    int* mask_buffer_ptr,
+                                                    int* cumulative_local_expert_recv_stats,
+                                                    int64_t* dispatch_wait_recv_cost_stats,
+                                                    void* rdma_recv_x,
+                                                    int* rdma_recv_count,
+                                                    void* rdma_x,
+                                                    size_t rdma_recv_x_offset,   /* nccl backend*/
+                                                    size_t rdma_recv_count_offset,
+                                                    size_t rdma_x_offset,
+                                                    const void* x,
+                                                    const topk_idx_t* topk_idx,
+                                                    int* atomic_counter_per_expert,
+                                                    int* atomic_finish_counter_per_expert,
+                                                    int* next_clean,
+                                                    int num_next_clean_int,
+                                                    int num_tokens,
+                                                    int num_max_dispatch_tokens_per_rank,
+                                                    int num_topk,
+                                                    int num_experts,
+                                                    int rank,
+                                                    int num_ranks,
+                                                    int num_warp_groups,
+                                                    int num_warps_per_group,
+                                                    bool round_scale,
+                                                    int phases,
+                                                    ncclDevComm dev_comm,
+                                                    const ncclWindow_t nccl_win,
+                                                    unsigned signals_base
+) {
+    const auto sm_id = static_cast<int>(blockIdx.x);
+    const auto thread_id = static_cast<int>(threadIdx.x);
+    const auto warp_id = thread_id / 32, lane_id = get_lane_id();
+    const auto num_sms = static_cast<int>(gridDim.x);
+    const auto num_warps = num_warp_groups * num_warps_per_group;
+    const auto num_local_experts = num_experts / num_ranks;
+    const auto warp_group_id = warp_id / num_warps_per_group;
+    const auto sub_warp_id = warp_id % num_warps_per_group;
+    const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
+
+    // May extract UE8M0 from the scales
+    using scale_t = std::conditional_t<kUseUE8M0, uint8_t, float>;
+    using packed_t = std::conditional_t<kUseUE8M0, uint32_t, float>;
+    EP_STATIC_ASSERT(sizeof(packed_t) % sizeof(scale_t) == 0, "Invalid vector length");
+
+    // FP8 staffs
+    constexpr int kNumPerChannels = 128;
+    const int num_scales = kHidden / kNumPerChannels;
+    const size_t hidden_bytes = kHidden * (kUseFP8 ? sizeof(__nv_fp8_storage_t) : sizeof(nv_bfloat16));
+    const size_t hidden_int4 = hidden_bytes / sizeof(int4);
+
+    // Message package: index at source (int), 3 reserved int fields, hidden data, FP8 scales
+    // NOTES: currently we have 3 reserved int fields for future use
+    using vec_t = std::conditional_t<kUseFP8, int2, int4>;
+    const size_t num_bytes_per_msg = sizeof(int4) + (kUseFP8 ? (kHidden + num_scales * sizeof(float)) : (kHidden * sizeof(nv_bfloat16)));
+    const size_t num_int4_per_msg = num_bytes_per_msg / sizeof(int4);
+    EP_DEVICE_ASSERT(num_bytes_per_msg % sizeof(int4) == 0);
+
+    // Expert counts
+    constexpr int kNumMaxWarpGroups = 32;
+    __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
+
+    // Sending phase
+    if ((phases & LOW_LATENCY_SEND_PHASE) == 0)
+        goto LOW_LATENCY_DISPATCH_RECV;
+
+    // There are 2 kinds of warps in this part:
+    // 1. The first-kind warps for FP8 cast and sending top-k tokens
+    // 2. The last warp for reading `topk_idx` and count for per-expert information
+    if (warp_id < num_warps - 1) {
+        constexpr int kNumElemsPerRead = sizeof(int4) / sizeof(nv_bfloat16);
+        EP_STATIC_ASSERT(kHidden % (32 * kNumElemsPerRead) == 0, "Invalid hidden");
+        EP_STATIC_ASSERT(kNumElemsPerRead * 32 % kNumPerChannels == 0, "Invalid vectorization");
+        const auto num_threads = (num_warps - 1) * 32;
+        const size_t hidden_bf16_int4 = kHidden / kNumElemsPerRead;
+
+        for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
+            const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
+            const auto rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * num_bytes_per_msg);
+            const auto rdma_x_vec = reinterpret_cast<vec_t*>(reinterpret_cast<uint8_t*>(rdma_x_src_idx) + sizeof(int4));
+            const auto rdma_x_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + hidden_bytes);
+
+            // Overlap top-k index read and source token index writes
+            auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;
+            thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
+
+            // FP8 cast
+            EP_STATIC_ASSERT(hidden_bf16_int4 % 32 == 0, "Must use the full warp to reduce");
+            #pragma unroll
+            for (int i = thread_id; i < hidden_bf16_int4; i += num_threads) {
+                // Read
+                auto int4_value = __ldg(x_int4 + i);
+
+                if constexpr (kUseFP8) {
+                    // Calculate local amax
+                    auto bf16_values = reinterpret_cast<nv_bfloat16*>(&int4_value);
+                    float fp32_values[kNumElemsPerRead];
+                    float amax = kFP8Margin, scale, scale_inv;
+                    #pragma unroll
+                    for (int j = 0; j < kNumElemsPerRead; ++j) {
+                        fp32_values[j] = static_cast<float>(bf16_values[j]);
+                        amax = fmaxf(amax, fabsf(fp32_values[j]));
+                    }
+
+                    // Reduce amax and scale
+                    EP_STATIC_ASSERT(kNumElemsPerRead * 32 / kNumPerChannels == 2, "Invalid vectorization");
+                    amax = warp_reduce_max<16>(amax);
+                    calculate_fp8_scales(amax, scale, scale_inv, round_scale);
+                    if (lane_id == 0 or lane_id == 16)
+                        rdma_x_scales[i * kNumElemsPerRead / 128] = scale_inv;
+
+                    // Cast into send buffer
+                    vec_t int2_value;
+                    auto fp8x2_values = reinterpret_cast<__nv_fp8x2_storage_t*>(&int2_value);
+                    #pragma unroll
+                    for (int j = 0; j < kNumElemsPerRead; j += 2) {
+                        float2 fp32x2 = {fp32_values[j] * scale, fp32_values[j + 1] * scale};
+                        fp8x2_values[j / 2] = __nv_cvt_float2_to_fp8x2(fp32x2, __NV_SATFINITE, __NV_E4M3);
+                    }
+                    rdma_x_vec[i] = int2_value;
+                } else {
+                    // Reinterpret-cast is for C++14 compatibility
+                    rdma_x_vec[i] = *reinterpret_cast<vec_t*>(&int4_value);
+                }
+            }
+            asm volatile("bar.sync 1, %0;" ::"r"(num_threads));
+
+            // Issue IBGDA sends
+            if (dst_expert_idx >= 0) {
+                int slot_idx = lane_id == 0 ? atomicAdd(atomic_counter_per_expert + dst_expert_idx, 1) : 0;
+                slot_idx = __shfl_sync(0xffffffff, slot_idx, 0);
+                const auto dst_rank = dst_expert_idx / num_local_experts;
+                const auto dst_expert_local_idx = dst_expert_idx % num_local_experts;
+                const auto src_ptr = reinterpret_cast<uint64_t>(rdma_x_src_idx);
+                const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
+                    dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_msg +
+                    rank * num_max_dispatch_tokens_per_rank * num_bytes_per_msg + slot_idx * num_bytes_per_msg;
+
+                size_t expected_dst_offset = rdma_recv_x_offset +
+                    dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_msg +
+                    rank * num_max_dispatch_tokens_per_rank * num_bytes_per_msg + slot_idx * num_bytes_per_msg;
+                const auto dst_p2p_ptr =
+                    nccl_get_p2p_ptr(dst_ptr, expected_dst_offset, rank, dst_rank, nccl_win, dev_comm);
+
+                if (not is_rank_masked<true>(mask_buffer_ptr, dst_rank)) {
+                    if (dst_p2p_ptr == 0) {
+                        size_t expected_src_offset = rdma_x_offset + token_idx * num_bytes_per_msg;
+                        ncclGin net(dev_comm, dst_expert_local_idx);
+                        ncclTeam world = ncclTeamWorld(dev_comm);
+                        net.put(world,
+                                dst_rank,
+                                nccl_win,
+                                expected_dst_offset,
+                                nccl_win,
+                                expected_src_offset,
+                                num_bytes_per_msg,
+                                ncclGin_None{},  // no signal
+                                ncclGin_None{},  // no counter
+                                ncclCoopWarp());
+                    } else {
+                        // NOTES: only 2 load iterations for 7K hidden with 8 unrolls
+                        const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
+                        const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
+                        UNROLLED_WARP_COPY(8, lane_id, num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
+                    }
+                }
+
+                // Increase counter after finishing
+                __syncwarp();
+                lane_id == 0 ? atomic_add_release_global(atomic_finish_counter_per_expert + dst_expert_idx, 1) : 0;
+            }
+        }
+    } else if (warp_id == num_warps - 1) {
+        EP_DEVICE_ASSERT(num_sms > 1);
+        if (sm_id == 0) {
+            // The first SM is also responsible for cleaning the next buffer
+            #pragma unroll
+            for (int i = lane_id; i < num_next_clean_int; i += 32)
+                next_clean[i] = 0;
+            // Notify before executing `int_p`
+            __syncwarp();
+            #pragma unroll
+            for (int i = lane_id; i < num_experts; i += 32)
+                atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG);
+        }
+
+        // This SM should be responsible for some destination experts, read `topk_idx` for them
+        int expert_count[kNumMaxWarpGroups] = {0};
+        const auto expert_begin_idx = sm_id * num_warp_groups;
+        const auto expert_end_idx = min(expert_begin_idx + num_warp_groups, num_experts);
+
+        // Per lane count
+        #pragma unroll 8
+        for (int i = lane_id; i < num_tokens * num_topk; i += 32) {
+            auto idx = static_cast<int>(__ldg(topk_idx + i));
+            if (idx >= expert_begin_idx and idx < expert_end_idx)
+                expert_count[idx - expert_begin_idx]++;
+        }
+
+        // Warp reduce
+        #pragma unroll
+        for (int i = expert_begin_idx; i < expert_end_idx; ++i) {
+            auto sum = warp_reduce_sum(expert_count[i - expert_begin_idx]);
+            if (lane_id == 0) {
+                shared_num_tokens_sent_per_expert[i - expert_begin_idx] = sum;
+                atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG - sum);
+            }
+        }
+    }
+    __syncthreads();
+
+    // Issue count sends
+    if (responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
+        const auto dst_rank = responsible_expert_idx / num_local_experts;
+        const auto dst_expert_local_idx = responsible_expert_idx % num_local_experts;
+        const auto num_tokens_sent = shared_num_tokens_sent_per_expert[responsible_expert_idx - sm_id * num_warp_groups];
+
+        // Wait local sends issued and send expert counts
+        while (ld_acquire_global(atomic_finish_counter_per_expert + responsible_expert_idx) != FINISHED_SUM_TAG * 2)
+            ;
+        auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_count + dst_expert_local_idx * num_ranks + rank);
+
+        size_t dst_offset = rdma_recv_count_offset + (dst_expert_local_idx * num_ranks + rank) * sizeof(int);
+        const auto dst_p2p_ptr = nccl_get_p2p_ptr(dst_ptr, dst_offset, rank, dst_rank, nccl_win, dev_comm);
+
+        if (not is_rank_masked(mask_buffer_ptr, dst_rank)) {
+            if (dst_p2p_ptr == 0) {  // if (rank != dst_rank) {
+                auto signal_id = signals_base + dst_expert_local_idx * num_ranks + rank;
+                ncclGin net(dev_comm, dst_expert_local_idx);
+                ncclTeam world = ncclTeamWorld(dev_comm);
+                // NOTE: net.signal() is semantically cleaner but adds latency to Dispatch-Send
+                //       and Combine-Send compared to net.put() with 0 bytes
+                // net.signal(world,
+                //            dst_rank,
+                //            ncclGin_SignalAdd{signal_id, (uint64_t)num_tokens_sent + 1},
+                //            ncclCoopThread(),
+                //            ncclGin_None(),
+                //            cuda::thread_scope_system);
+                net.put(world,
+                        dst_rank,
+                        nccl_win,
+                        dst_offset,
+                        nccl_win,
+                        0,
+                        0,               // 0 bytes transfer
+                        ncclGin_SignalAdd{signal_id, (uint64_t)num_tokens_sent + 1},
+                        ncclGin_None{},  // no counter
+                        ncclCoopThread());
+            } else {
+                st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -num_tokens_sent - 1);
+            }
+        }
+
+        // Clean workspace for next use
+        atomic_counter_per_expert[responsible_expert_idx] = 0;
+        atomic_finish_counter_per_expert[responsible_expert_idx] = 0;
+
+        // Clean `packed_recv_count`
+        if (dst_rank == 0)
+            packed_recv_count[dst_expert_local_idx] = 0;
+    }
+    __syncwarp();
+
+// Receiving phase
+LOW_LATENCY_DISPATCH_RECV:
+    if ((phases & LOW_LATENCY_RECV_PHASE) == 0)
+        return;
+
+    // For send-and-recv kernels, we need a grid sync for making `packed_recv_count` visible
+    if (phases & LOW_LATENCY_SEND_PHASE)
+        cg::this_grid().sync();
+
+    // Receiving and packing
+    if (responsible_expert_idx < num_experts) {
+        const auto src_rank = responsible_expert_idx / num_local_experts;
+        const auto local_expert_idx = responsible_expert_idx % num_local_experts;
+        const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
+            local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_msg +
+            src_rank * num_max_dispatch_tokens_per_rank * num_bytes_per_msg;
+        const auto recv_x_int4 =
+            static_cast<int4*>(packed_recv_x) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * hidden_int4;
+        const auto recv_src_info = packed_recv_src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
+        const auto recv_range = packed_recv_layout_range + local_expert_idx * num_ranks;
+        const auto num_aligned_scales = align_up<int>(num_scales, sizeof(float) / sizeof(scale_t));
+        const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) +
+            local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
+
+        // Shared between sub-warps in warp groups
+        __shared__ int shared_num_recv_tokens[kNumMaxWarpGroups], shared_recv_token_begin_idx[kNumMaxWarpGroups];
+
+        // Wait tokens to arrive
+        // NOTES: using sub-warp 1 to overlap with sub-warp 0
+        int num_recv_tokens = 0, recv_token_begin_idx;
+        EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 15);
+        if (sub_warp_id == 1 and lane_id == 0) {
+            auto start_time = clock64();
+            uint64_t wait_recv_cost = 0;
+            if (not is_rank_masked(mask_buffer_ptr, src_rank)) {
+                size_t src_offset = rdma_recv_count_offset + (local_expert_idx * num_ranks + src_rank) * sizeof(int);
+                auto src_p2p_ptr = nccl_get_p2p_ptr(0x01, src_offset, rank, src_rank, nccl_win, dev_comm);
+                if (src_p2p_ptr == 0) {
+                    ncclGin net(dev_comm, local_expert_idx);
+                    uint64_t cur_value;
+                    do {
+                        cur_value = net.readSignal(signals_base + local_expert_idx * num_ranks + src_rank);
+                    } while (cur_value < 1                                                       // data not arrived
+                             && (wait_recv_cost = clock64() - start_time) <= NUM_TIMEOUT_CYCLES  // not timeout
+                    );
+                    net.resetSignal(signals_base + local_expert_idx * num_ranks + src_rank);
+                    num_recv_tokens = -(int)cur_value;
+                } else {
+                    while ((num_recv_tokens = ld_acquire_sys_global((rdma_recv_count + local_expert_idx * num_ranks + src_rank))) ==
+                               0                                                               // data not arrived
+                           && (wait_recv_cost = clock64() - start_time) <= NUM_TIMEOUT_CYCLES  // not timeout
+                    );
+                }
+            }
+            // Do not receive tokens if rank timeout or masked
+            if (num_recv_tokens == 0)
+                num_recv_tokens = -1;
+            // Mask rank if timeout
+            if (wait_recv_cost > NUM_TIMEOUT_CYCLES) {
+                printf("Warning: DeepEP timeout for dispatch receive, rank %d, local_expert_idx %d, src_rank %d\n",
+                       rank,
+                       local_expert_idx,
+                       src_rank);
+                if (mask_buffer_ptr == nullptr)
+                    trap();
+                atomicExch(mask_buffer_ptr + src_rank, 1);
+            }
+
+            num_recv_tokens = -num_recv_tokens - 1;
+            recv_token_begin_idx = atomicAdd(packed_recv_count + local_expert_idx, num_recv_tokens);
+            shared_num_recv_tokens[warp_group_id] = num_recv_tokens;
+            shared_recv_token_begin_idx[warp_group_id] = recv_token_begin_idx;
+            recv_range[src_rank] = pack2<int, int64_t>(num_recv_tokens, recv_token_begin_idx);
+
+            // Add stats for diagnosis
+            if (cumulative_local_expert_recv_stats != nullptr)
+                atomicAdd(cumulative_local_expert_recv_stats + local_expert_idx, num_recv_tokens);
+            if (dispatch_wait_recv_cost_stats != nullptr)
+                atomicAdd(reinterpret_cast<unsigned long long*>(dispatch_wait_recv_cost_stats + src_rank), wait_recv_cost);
+        }
+        asm volatile("bar.sync %0, %1;" ::"r"(warp_group_id + 2), "r"(num_warps_per_group * 32));
+        num_recv_tokens = shared_num_recv_tokens[warp_group_id];
+        recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
+
+        // Copy tokens
+        EP_DEVICE_ASSERT(num_scales <= 64);
+        for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
+            // Copy source info
+            const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * num_bytes_per_msg);
+            if (lane_id == 0)
+                recv_src_info[recv_token_begin_idx + i] = ld_nc_global(src_src_idx);
+            __syncwarp();
+
+            // Copy data
+            // NOTES: only 2 load iterations for 7K hidden with 7 unrolls
+            const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
+            const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * hidden_int4;
+            UNROLLED_WARP_COPY(7, lane_id, hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
+
+            // Copy scales
+            if constexpr (kUseFP8) {
+                // Equivalent CuTe layout:
+                //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
+                const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + hidden_bytes);
+                const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
+                const auto token_idx = recv_token_begin_idx + i;
+                const auto token_stride = num_elems_per_pack;
+                const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
+                if (lane_id < num_scales) {
+                    const auto pack_idx = lane_id / num_elems_per_pack;
+                    const auto elem_idx = lane_id % num_elems_per_pack;
+                    auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id));
+                    recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+                }
+                if (lane_id + 32 < num_scales) {
+                    const auto pack_idx = (lane_id + 32) / num_elems_per_pack;
+                    const auto elem_idx = (lane_id + 32) % num_elems_per_pack;
+                    auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id + 32));
+                    recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+                }
+            }
+        }
+    }
+}
+
+void dispatch(void*             packed_recv_x,
+              void*             packed_recv_x_scales,
+              int*              packed_recv_src_info,
+              int64_t*          packed_recv_layout_range,
+              int*              packed_recv_count,
+              int*              mask_buffer_ptr,
+              int*              cumulative_local_expert_recv_stats,
+              int64_t*          dispatch_wait_recv_cost_stats,
+              void*             rdma_recv_x,
+              int*              rdma_recv_count,
+              void*             rdma_x,
+              size_t            rdma_recv_x_offset,
+              size_t            rdma_recv_count_offset,
+              size_t            rdma_x_offset,
+              const void*       x,
+              const topk_idx_t* topk_idx,
+              int*              next_clean,
+              int               num_next_clean_int,
+              int               num_tokens,
+              int               hidden,
+              int               num_max_dispatch_tokens_per_rank,
+              int               num_topk,
+              int               num_experts,
+              int               rank,
+              int               num_ranks,
+              bool              use_fp8,
+              bool              round_scale,
+              bool              use_ue8m0,
+              void*             workspace,
+              int               num_device_sms,
+              ncclWindow_t      nccl_win,
+              ncclDevComm       dev_comm,
+              unsigned          signals_base,
+              cudaStream_t      stream,
+              int               phases)
+{
+    constexpr int kNumMaxTopK         = 11;
+    const int     num_warp_groups     = ceil_div(num_experts, num_device_sms);
+    const int     num_warps_per_group = 32 / num_warp_groups;
+    EP_HOST_ASSERT(num_warp_groups > 0 and num_warps_per_group > 0);
+    EP_HOST_ASSERT(kNumMaxTopK + 1 <= num_warp_groups * num_warps_per_group);
+
+    const auto num_warps = num_warp_groups * num_warps_per_group;
+    const auto num_sms   = ceil_div(num_experts, num_warp_groups);
+    EP_HOST_ASSERT(num_topk <= kNumMaxTopK);
+
+    // Workspace checks
+    auto atomic_counter_per_expert        = static_cast<int*>(workspace);
+    auto atomic_finish_counter_per_expert = atomic_counter_per_expert + num_experts;
+    EP_HOST_ASSERT(num_experts * sizeof(int) * 2 <= NUM_WORKSPACE_BYTES);
+
+    // FP8 checks
+    if (use_ue8m0)
+        EP_HOST_ASSERT(round_scale and "UE8M0 SF requires `round_scale=True`");
+
+#define DISPATCH_LAUNCH_CASE(hidden)                                                                                   \
+    {                                                                                                                  \
+        auto dispatch_func = dispatch<false, false, hidden>;                                                           \
+        if (use_fp8 and not use_ue8m0)                                                                                 \
+            dispatch_func = dispatch<true, false, hidden>;                                                             \
+        if (use_fp8 and use_ue8m0)                                                                                     \
+            dispatch_func = dispatch<true, true, hidden>;                                                              \
+        LAUNCH_KERNEL(&cfg,                                                                                            \
+                      dispatch_func,                                                                                   \
+                      packed_recv_x,                                                                                   \
+                      packed_recv_x_scales,                                                                            \
+                      packed_recv_src_info,                                                                            \
+                      packed_recv_layout_range,                                                                        \
+                      packed_recv_count,                                                                               \
+                      mask_buffer_ptr,                                                                                 \
+                      cumulative_local_expert_recv_stats,                                                              \
+                      dispatch_wait_recv_cost_stats,                                                                   \
+                      rdma_recv_x,                                                                                     \
+                      rdma_recv_count,                                                                                 \
+                      rdma_x,                                                                                          \
+                      rdma_recv_x_offset,                                                                              \
+                      rdma_recv_count_offset,                                                                          \
+                      rdma_x_offset,                                                                                   \
+                      x,                                                                                               \
+                      topk_idx,                                                                                        \
+                      atomic_counter_per_expert,                                                                       \
+                      atomic_finish_counter_per_expert,                                                                \
+                      next_clean,                                                                                      \
+                      num_next_clean_int,                                                                              \
+                      num_tokens,                                                                                      \
+                      num_max_dispatch_tokens_per_rank,                                                                \
+                      num_topk,                                                                                        \
+                      num_experts,                                                                                     \
+                      rank,                                                                                            \
+                      num_ranks,                                                                                       \
+                      num_warp_groups,                                                                                 \
+                      num_warps_per_group,                                                                             \
+                      round_scale,                                                                                     \
+                      phases,                                                                                          \
+                      dev_comm,                                                                                        \
+                      nccl_win,                                                                                        \
+                      signals_base);                                                                                   \
+    }                                                                                                                  \
+    break
+
+    SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
+    SWITCH_HIDDEN(DISPATCH_LAUNCH_CASE);
+#undef DISPATCH_LAUNCH_CASE
+}
+
+template <int kNumSendUnrolls>
+__forceinline__ __device__ int logfmt_encode(void* buffer, nv_bfloat162* shared_amaxmin, const int& lane_id) {
+    constexpr int kNumElemsPerInt4 = sizeof(int4) / sizeof(nv_bfloat16);
+    constexpr float kLogThreshold = 0;
+    constexpr float kMinClip = 32;  // `== log_2(2 ^ (2 ^ 5))`
+    constexpr int kNumBits = 10;
+    constexpr int kNumValues = 1 << (kNumBits - 1);
+
+    int4 int4_values[kNumSendUnrolls];
+    const auto& uint32_values = reinterpret_cast<uint32_t*>(int4_values);
+    const auto& bf162_values = reinterpret_cast<nv_bfloat162*>(int4_values);
+
+    // Calculate lane offset
+    const auto& ld_buffer = reinterpret_cast<uint32_t*>(static_cast<uint8_t*>(buffer) + lane_id * (kNumSendUnrolls * sizeof(int4)));
+    const auto& st_buffer =
+        reinterpret_cast<uint32_t*>(static_cast<uint8_t*>(buffer) + lane_id * (kNumSendUnrolls * sizeof(int4) * 10 / 16));
+
+    // Local log amax
+    auto bf162_amax = __nv_bfloat162(CUDART_ZERO_BF16, CUDART_ZERO_BF16);
+    auto bf162_amin = __nv_bfloat162(CUDART_INF_BF16, CUDART_INF_BF16);
+    uint32_t local_signs = 0;
+    #pragma unroll
+    for (int k = 0; k < kNumSendUnrolls * kNumElemsPerInt4 / 2; ++k) {
+        // TODO: eliminate bank conflicts
+        uint32_values[k] = ld_buffer[k];
+        local_signs |= ((uint32_values[k] >> 15) & 1) << (k * 2);
+        local_signs |= ((uint32_values[k] >> 31) & 1) << (k * 2 + 1);
+        uint32_values[k] &= 0x7fff7fff;
+
+        bf162_amax = __hmax2(bf162_amax, bf162_values[k]);
+        bf162_amin = __hmin2(bf162_amin, bf162_values[k]);
+    }
+
+    // Reduce per 128 channels
+    // TODO: figure out how hardware do 2-byte min/max
+    auto amax = std::max(static_cast<float>(bf162_amax.x), static_cast<float>(bf162_amax.y));
+    auto amin = std::min(static_cast<float>(bf162_amin.x), static_cast<float>(bf162_amin.y));
+    constexpr static int kNumLanesToReduce = 128 * sizeof(nv_bfloat16) / (kNumSendUnrolls * sizeof(int4));
+    amax = warp_reduce_max<kNumLanesToReduce>(amax);
+    amin = warp_reduce_min<kNumLanesToReduce>(amin);
+
+    // Write min/max into the shared memory
+    if (shared_amaxmin != nullptr)
+        *shared_amaxmin = __nv_bfloat162(amax, amin);
+    __syncwarp();
+
+    // Calculate log amin/amax float
+    const auto& log_amax = log2f_approx(amax);
+    const auto& log_amin = fmaxf(log2f_approx(amin), log_amax - kMinClip);
+    const bool& enable_cast = warp_reduce_and<kNumLanesToReduce, true>(log_amax < kLogThreshold and log_amin < log_amax);
+
+    // Case into LogFMT-10 if satisfied
+    if (enable_cast) {
+        const auto step = (log_amax - log_amin) / static_cast<float>(kNumValues - 2);
+        const auto step_inv = 1.0f / step;
+        const auto rounding = 2.0f - log2f_approx((1.0f + exp2f_approx(step)) * 0.5f) * step_inv;
+        const auto fused_rounding = rounding - log_amin * step_inv;
+
+        // Pack every 256 bits into 160 bits
+        EP_STATIC_ASSERT(kNumSendUnrolls == 2 or kNumSendUnrolls == 4, "kNumSendUnrolls == 2 or 4 only");
+        uint32_t encoded[kNumElemsPerInt4 * 2];
+        #pragma unroll 1
+        for (int i = 0; i < kNumSendUnrolls / 2; ++i) {
+            #pragma unroll
+            for (int k = 0; k < kNumElemsPerInt4; ++k) {
+                const auto& [x, y] = __bfloat1622float2(bf162_values[i * kNumElemsPerInt4 + k]);
+                encoded[k * 2 + 0] = __float2uint_rd(fmaxf(log2f_approx(x) * step_inv + fused_rounding, 0));
+                encoded[k * 2 + 1] = __float2uint_rd(fmaxf(log2f_approx(y) * step_inv + fused_rounding, 0));
+            }
+            st_buffer[i * 5 + 0] = (encoded[0] >> 0) | (encoded[1] << 9) | (encoded[2] << 18) | (encoded[3] << 27);
+            st_buffer[i * 5 + 1] = (encoded[3] >> 5) | (encoded[4] << 4) | (encoded[5] << 13) | (encoded[6] << 22) | (encoded[7] << 31);
+            st_buffer[i * 5 + 2] = (encoded[7] >> 1) | (encoded[8] << 8) | (encoded[9] << 17) | (encoded[10] << 26);
+            st_buffer[i * 5 + 3] =
+                (encoded[10] >> 6) | (encoded[11] << 3) | (encoded[12] << 12) | (encoded[13] << 21) | (encoded[14] << 30);
+            st_buffer[i * 5 + 4] = (encoded[14] >> 2) | (encoded[15] << 7) | ((i == 0) ? (local_signs << 16) : (local_signs & 0xffff0000u));
+        }
+        tma_store_fence();
+        __syncwarp();
+    }
+
+    // Return TMA copy bytes
+    return enable_cast ? (32 * (kNumSendUnrolls * sizeof(int4) * 8 * 10 / 16 / 8)) : (32 * (kNumSendUnrolls * sizeof(int4)));
+}
+
+template <int kNumLanes, int kNumSendUnrolls, int kNumRecvUnrolls>
+__forceinline__ __device__ void logfmt_check_amaxmin(
+    uint8_t* meta_buffer, float2* shared_log_amax, float2* shared_log_amin, int* shared_cast_info, const int lane_id) {
+    constexpr float kLogThreshold = 0;
+    constexpr float kMinClip = 32;  // `== log_2(2 ^ (2 ^ 5))`
+
+    bool enable_cast = true;
+    if (lane_id < kNumLanes) {
+        // Calculate log amin/amax float
+        auto amaxmin2 = reinterpret_cast<uint64_t*>(meta_buffer)[lane_id];
+        const auto& bf162_amaxmin = reinterpret_cast<__nv_bfloat162*>(&amaxmin2);
+        float log_amax[2], log_amin[2];
+        #pragma unroll
+        for (int i = 0; i < 2; ++i) {
+            auto amax = static_cast<float>(bf162_amaxmin[i].x);
+            auto amin = static_cast<float>(bf162_amaxmin[i].y);
+            log_amax[i] = log2f_approx(amax);
+            log_amin[i] = amin == 0 ? log_amax[i] - kMinClip : fmaxf(log2f_approx(amin), log_amax[i] - kMinClip);
+            enable_cast = enable_cast and log_amax[i] < kLogThreshold and log_amin[i] < log_amax[i];
+        }
+        shared_log_amax[lane_id] = make_float2(log_amax[0], log_amax[1]);
+        shared_log_amin[lane_id] = make_float2(log_amin[0], log_amin[1]);
+    }
+
+    const auto& casted = warp_reduce_and<kNumSendUnrolls>(enable_cast) ? 1u << (lane_id / kNumRecvUnrolls) : 0u;
+    const auto& num_casted_prefix = __popc(warp_reduce_or<kNumRecvUnrolls, true>(casted) & ((1u << (lane_id / kNumRecvUnrolls)) - 1));
+
+    if (lane_id < kNumLanes and lane_id % kNumRecvUnrolls == 0)
+        shared_cast_info[lane_id / kNumRecvUnrolls] = (num_casted_prefix << 1) | (casted ? 1u : 0u);
+    __syncwarp();
+}
+
+template <int kNumRecvUnrolls>
+__forceinline__ __device__ void decode_and_accumulate(
+    uint32_t* ld_buffer, float* accum, const float& log_amax, const float& log_amin, const bool& enable_cast, const float& weight) {
+    if (enable_cast) {
+        constexpr int kNumBits = 10;
+        constexpr int kNumValues = 1 << (kNumBits - 1);
+
+        const auto& step = (log_amax - log_amin) / static_cast<float>(kNumValues - 2);
+        auto decode = [=](const uint32_t& encoded, const uint32_t& sign) {
+            const auto decoded = encoded == 0 ? .0f : exp2f_approx((encoded - 1) * step + log_amin);
+            return sign ? -decoded : decoded;
+        };
+
+        EP_STATIC_ASSERT(kNumRecvUnrolls == 2 or kNumRecvUnrolls == 4, "kNumRecvUnrolls == 2 or 4 only");
+        #pragma unroll
+        for (int i = 0; i < kNumRecvUnrolls / 2; ++i) {
+            uint32_t concat[6];
+            concat[0] = ld_buffer[i * 5];
+            #pragma unroll
+            for (int k = 1; k < 5; ++k)
+                concat[k] = (ld_buffer[i * 5 + k - 1] >> (32 - k * 5)) | (ld_buffer[i * 5 + k] << (k * 5));
+            concat[5] = ld_buffer[i * 5 + 4] >> 7;
+
+            const uint32_t& local_signs = ld_buffer[i * 5 + 4] >> 16;
+            #pragma unroll
+            for (int k = 0; k < 5; ++k) {
+                accum[i * 16 + k * 3 + 0] += decode((concat[k] >> 0) & 0x1ff, (local_signs >> (k * 3 + 0)) & 1) * weight;
+                accum[i * 16 + k * 3 + 1] += decode((concat[k] >> 9) & 0x1ff, (local_signs >> (k * 3 + 1)) & 1) * weight;
+                accum[i * 16 + k * 3 + 2] += decode((concat[k] >> 18) & 0x1ff, (local_signs >> (k * 3 + 2)) & 1) * weight;
+            }
+            accum[i * 16 + 15] += decode(concat[5] & 0x1ff, (local_signs >> 15) & 1) * weight;
+        }
+    } else {
+        #pragma unroll
+        for (int k = 0; k < kNumRecvUnrolls * 4; ++k) {
+            auto bf16_pack = *reinterpret_cast<__nv_bfloat162*>(ld_buffer + k);
+            accum[k * 2 + 0] += static_cast<float>(bf16_pack.x) * weight;
+            accum[k * 2 + 1] += static_cast<float>(bf16_pack.y) * weight;
+        }
+    }
+}
+
+template <bool kUseLogFMT, int kHidden, int kNumMaxTopk, int kNumMaxUnrolls>
+__global__ __launch_bounds__(1024, 1) void combine(void* combined_x,
+                                                   void* rdma_recv_x,
+                                                   int* rdma_recv_flag,
+                                                   void* rdma_send_x,
+                                                   size_t rdma_recv_x_offset,
+                                                   size_t rdma_recv_flag_offset,
+                                                   size_t rdma_send_x_offset,
+                                                   const void* x,
+                                                   const topk_idx_t* topk_idx,
+                                                   const float* topk_weights,
+                                                   const int* src_info,
+                                                   const int64_t* layout_range,
+                                                   int* mask_buffer_ptr,
+                                                   int64_t* combine_wait_recv_cost_stats,
+                                                   int* next_clean,
+                                                   int num_next_clean_int,
+                                                   int* atomic_clean_flag,
+                                                   int num_combined_tokens,
+                                                   int hidden,
+                                                   int num_topk,
+                                                   int num_max_dispatch_tokens_per_rank,
+                                                   int num_experts,
+                                                   int rank,
+                                                   int num_ranks,
+                                                   int num_warp_groups,
+                                                   int num_warps_per_group,
+                                                   int phases,
+                                                   bool zero_copy,
+                                                   ncclDevComm dev_comm,
+                                                   const ncclWindow_t nccl_win,
+                                                   unsigned signals_base
+) {
+    const auto sm_id = __shfl_sync(0xffffffff, static_cast<int>(blockIdx.x), 0);
+    const auto num_sms = __shfl_sync(0xffffffff, static_cast<int>(gridDim.x), 0);
+    const auto thread_id = static_cast<int>(threadIdx.x);
+    const auto num_threads = __shfl_sync(0xffffffff, static_cast<int>(blockDim.x), 0);
+    const auto warp_id = __shfl_sync(0xffffffff, thread_id / 32, 0), lane_id = get_lane_id();
+    const auto num_local_experts = num_experts / num_ranks;
+    const auto warp_group_id = warp_id / num_warps_per_group;
+    const auto sub_warp_id = warp_id % num_warps_per_group;
+    const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
+
+    extern __shared__ __align__(1024) uint8_t smem_buffer[];
+
+    // Data type staffs
+    constexpr int kNumElemsPerInt4 = sizeof(int4) / sizeof(nv_bfloat16);
+    constexpr int64_t hidden_bf16_int4 = kHidden / kNumElemsPerInt4;
+
+    // Use different unroll factors for send and recv phases
+    constexpr int kNumSendUnrolls = kHidden % (32 * 4 * sizeof(int4) / sizeof(nv_bfloat16)) == 0 ? 4 : 2;
+    constexpr int kNumRecvUnrolls = 2;
+    constexpr int hidden_bf16_int4_pad = align_up(static_cast<int>(hidden_bf16_int4), 32 * kNumSendUnrolls);
+    EP_STATIC_ASSERT(kHidden % (32 * 2 * sizeof(int4) / sizeof(nv_bfloat16)) == 0, "Invalid hidden");
+    EP_STATIC_ASSERT(kNumSendUnrolls <= kNumMaxUnrolls and kNumRecvUnrolls <= kNumMaxUnrolls, "Invalid unrolls");
+    EP_STATIC_ASSERT(hidden_bf16_int4 % kNumSendUnrolls == 0, "Invalid hidden");
+    EP_STATIC_ASSERT(kNumSendUnrolls >= kNumRecvUnrolls, "Invalid unroll factors");
+
+    // Message package
+    EP_STATIC_ASSERT(kHidden % 128 == 0, "Invalid hidden");
+    constexpr int kNumDivisions = kHidden / 128;
+    constexpr int kNumMetaBytes = kNumDivisions * sizeof(nv_bfloat162);
+    constexpr size_t num_bytes_per_slot = kHidden * sizeof(nv_bfloat16) + kNumMetaBytes;
+    EP_STATIC_ASSERT(num_bytes_per_slot % sizeof(int4) == 0, "Invalid vectorization");
+
+    // Sending phase
+    if ((phases & LOW_LATENCY_SEND_PHASE) == 0)
+        goto LOW_LATENCY_COMBINE_RECV;
+
+    // Clean up next buffer
+    if (sm_id == 0 and warp_group_id == 0 and sub_warp_id == 0) {
+        #pragma unroll
+        for (int i = lane_id; i < num_next_clean_int; i += 32)
+            next_clean[i] = 0;
+
+        // Notify before executing `int_p`
+        __syncwarp();
+        if (lane_id == 0)
+            atomic_add_release_global(atomic_clean_flag, num_experts);
+    }
+
+    // Issue IBGDA sends
+    if (responsible_expert_idx < num_experts) {
+        const auto dst_rank = responsible_expert_idx / num_local_experts;
+        const auto local_expert_idx = responsible_expert_idx % num_local_experts;
+        const auto global_expert_idx = rank * num_local_experts + local_expert_idx;
+        const auto layout = __ldg(layout_range + local_expert_idx * num_ranks + dst_rank);
+        const auto local_x =
+            static_cast<const int4*>(x) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * hidden_bf16_int4;
+        const auto local_src_info = src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
+        const auto rdma_send_x_vec =
+            static_cast<uint8_t*>(rdma_send_x) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_slot;
+
+        // Unpack layout
+        int offset, num_tokens_to_send;
+        unpack2(layout, num_tokens_to_send, offset);
+
+        // TMA stuffs
+        constexpr int kNumTMABufferBytes = sizeof(int4) * 32 * kNumSendUnrolls;
+        constexpr int kNumStages = 3;
+        constexpr int kNumPrefetch = 1;
+        EP_STATIC_ASSERT(kNumStages == 3 and kNumPrefetch == 1, "Invalid stages");
+
+        auto smem_ptr = smem_buffer + warp_id * (kNumStages * (kNumTMABufferBytes + 16) + kNumMetaBytes);
+        uint32_t tma_phase = 0;
+        auto tma_buffers = PatternVisitor([=](const int& i) { return reinterpret_cast<int4*>(smem_ptr + i * (kNumTMABufferBytes + 16)); });
+        auto full_barriers = PatternVisitor(
+            [=](const int& i) { return reinterpret_cast<uint64_t*>(smem_ptr + i * (kNumTMABufferBytes + 16) + kNumTMABufferBytes); });
+        auto meta_buffers = kUseLogFMT ? reinterpret_cast<nv_bfloat162*>(smem_ptr + kNumStages * (kNumTMABufferBytes + 16)) : nullptr;
+        EP_STATIC_ASSERT(kNumSendUnrolls * kNumStages <= 12, "TMA buffer size exceed limit");
+
+        // Initialize m-barriers
+        if (lane_id < kNumStages) {
+            mbarrier_init(full_barriers[lane_id], 1);
+            fence_barrier_init();
+        }
+        __syncwarp();
+
+        constexpr int kNumIters = hidden_bf16_int4_pad / (32 * kNumSendUnrolls);
+        auto tma_load_and_arrive = [&](const int& stage_idx, const int4* gmem_ptr, const int& num_bytes) {
+            tma_load_1d(tma_buffers[stage_idx], gmem_ptr, full_barriers[stage_idx], num_bytes);
+            mbarrier_arrive_and_expect_tx(full_barriers[stage_idx], num_bytes);
+        };
+        auto get_num_tma_bytes = [&](const int& offset_int4) {
+            return min(kNumTMABufferBytes, static_cast<int>((hidden_bf16_int4 - offset_int4) * sizeof(int4)));
+        };
+
+        // Issue IBGDA send
+        if (not is_rank_masked<true>(mask_buffer_ptr, dst_rank)) {
+            for (int token_idx = offset + sub_warp_id; token_idx < offset + num_tokens_to_send; token_idx += num_warps_per_group) {
+                const auto x_int4 = local_x + token_idx * hidden_bf16_int4;
+                const auto rdma_send_type_row = reinterpret_cast<int*>(rdma_send_x_vec + token_idx * num_bytes_per_slot);
+                const auto rdma_send_x_vec_row = reinterpret_cast<uint8_t*>(rdma_send_type_row);
+
+                // Copy directly to local rank, or copy to buffer and issue RDMA
+                const auto src_idx = __shfl_sync(0xffffffff, __ldg(local_src_info + token_idx), 0);
+                const auto buf_ptr = reinterpret_cast<int64_t>(rdma_send_x_vec_row);
+                const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
+                    (global_expert_idx * num_max_dispatch_tokens_per_rank + src_idx) * num_bytes_per_slot;
+
+                const auto expected_dst_offset =
+                    rdma_recv_x_offset + (global_expert_idx * num_max_dispatch_tokens_per_rank + src_idx) * num_bytes_per_slot;
+                const auto dst_p2p_ptr =
+                    nccl_get_p2p_ptr(dst_ptr, expected_dst_offset, rank, dst_rank, nccl_win, dev_comm);
+
+                int num_send_bytes = hidden * sizeof(nv_bfloat16);
+
+                if (not zero_copy or dst_p2p_ptr != 0) {
+                    // Read from `cpy_src_int4_ptr` and copy into `cpy_dst_int4_ptr`
+                    const auto cpy_src_int4_ptr = zero_copy ? reinterpret_cast<int4*>(buf_ptr) : x_int4;
+                    const auto cpy_dst_int4_ptr =
+                        dst_p2p_ptr == 0 ? reinterpret_cast<int4*>(buf_ptr) : reinterpret_cast<int4*>(dst_p2p_ptr);
+
+                    // Prefetch
+                    if (elect_one_sync())
+                        tma_load_and_arrive(0, cpy_src_int4_ptr, get_num_tma_bytes(0));
+                    __syncwarp();
+
+                    int tma_offset_bytes = kNumMetaBytes;
+                    #pragma unroll
+                    for (int i = lane_id * kNumSendUnrolls, iter_idx = 0; i < hidden_bf16_int4_pad; i += 32 * kNumSendUnrolls, ++iter_idx) {
+                        // Load the next iteration
+                        const int& stage_idx = iter_idx % kNumStages;
+                        const int& next_stage_idx = (iter_idx + 1) % kNumStages;
+                        if (iter_idx + 1 < kNumIters and elect_one_sync()) {
+                            tma_store_wait<kNumStages - kNumPrefetch - 1>();
+                            const auto& offset_int4 = i + 32 * kNumSendUnrolls;
+                            tma_load_and_arrive(next_stage_idx, cpy_src_int4_ptr + offset_int4, get_num_tma_bytes(offset_int4));
+                        }
+                        __syncwarp();
+
+                        // Wait the current TMA arrival
+                        EP_STATIC_ASSERT(kNumStages < 32, "Too many stages");
+                        mbarrier_wait<true>(full_barriers[stage_idx], tma_phase, stage_idx);
+                        if constexpr (kUseLogFMT) {
+                            // Cast if possible
+                            constexpr int kNumInt4PerDivision = 128 / kNumElemsPerInt4;
+                            int num_tma_bytes = logfmt_encode<kNumSendUnrolls>(
+                                tma_buffers[stage_idx],
+                                // NOTES: only the leader lane will write the result
+                                (i % kNumInt4PerDivision == 0) ? meta_buffers + i / kNumInt4PerDivision : nullptr,
+                                lane_id);
+                            if (elect_one_sync())
+                                tma_store_1d(
+                                    tma_buffers[stage_idx], reinterpret_cast<uint8_t*>(cpy_dst_int4_ptr) + tma_offset_bytes, num_tma_bytes);
+                            tma_offset_bytes += num_tma_bytes;
+                        } else {
+                            // BF16 original values
+                            if (elect_one_sync())
+                                tma_store_1d(tma_buffers[stage_idx], cpy_dst_int4_ptr + i, get_num_tma_bytes(i));
+                        }
+                        __syncwarp();
+                    }
+
+                    // Store metadata (min/max values) for LogFMT
+                    if constexpr (kUseLogFMT) {
+                        num_send_bytes = tma_offset_bytes;
+                        if (elect_one_sync())
+                            tma_store_1d(meta_buffers, cpy_dst_int4_ptr, kNumMetaBytes);
+                    }
+
+                    // Flush all stores
+                    tma_store_wait<0>();
+                    __syncwarp();
+                }
+
+                // Issue RDMA
+                // NOTES: for zero-copy mode, we assume the data is already in the send buffer
+                if (dst_p2p_ptr == 0) {
+                    const auto expected_buf_offset = rdma_send_x_offset +
+                        (local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_slot) +
+                        token_idx * num_bytes_per_slot;
+
+                    ncclGin net(dev_comm, local_expert_idx);
+                    ncclTeam world = ncclTeamWorld(dev_comm);
+                    net.put(world,
+                            dst_rank,
+                            nccl_win,
+                            expected_dst_offset,
+                            nccl_win,
+                            expected_buf_offset,
+                            hidden * sizeof(nv_bfloat16),
+                            ncclGin_None{},  // no signal
+                            ncclGin_None{},  // no counter
+                            ncclCoopWarp());
+                }
+            }
+        }
+
+        // Put the finishing flag
+        EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 16);
+        asm volatile("bar.sync %0, %1;" ::"r"(warp_group_id + 1), "r"(num_warps_per_group * 32));
+        if (sub_warp_id == 1 and lane_id == 0) {
+            while (ld_acquire_global(atomic_clean_flag) == 0)
+                ;
+            auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_flag + global_expert_idx);
+
+            size_t dst_offset = rdma_recv_flag_offset + global_expert_idx * sizeof(int);
+            auto dst_p2p_ptr = nccl_get_p2p_ptr(
+                dst_ptr, dst_offset, rank, dst_rank, nccl_win, dev_comm);
+
+            if (not is_rank_masked(mask_buffer_ptr, dst_rank)) {
+                if (dst_p2p_ptr == 0) {
+                    auto signal_id = signals_base + global_expert_idx;
+                    auto local_expert_idx_flag = responsible_expert_idx % num_local_experts;
+                    ncclGin net(dev_comm, local_expert_idx_flag);
+                    ncclTeam world = ncclTeamWorld(dev_comm);
+                    // NOTE: net.signal() is semantically cleaner but currently slower
+                    //       for Dispatch-Send and Combine-Send compared to net.put() with 0 bytes
+                    // net.signal(world,
+                    //            dst_rank,
+                    //            ncclGin_SignalAdd{signal_id, 1},
+                    //            ncclCoopThread(),
+                    //            ncclGin_None(),
+                    //            cuda::thread_scope_system);
+                    net.put(world,
+                            dst_rank,
+                            nccl_win,
+                            dst_offset,
+                            nccl_win,
+                            0,
+                            0,  // 0 bytes transfer
+                            ncclGin_SignalAdd{signal_id, 1},
+                            ncclGin_None{},  // no counter
+                            ncclCoopThread());
+
+                } else {
+                    st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), 1);
+                }
+            }
+            atomic_add_release_global(atomic_clean_flag, -1);
+        }
+        __syncwarp();
+
+        // Destroy m-barriers
+        if (lane_id < kNumStages) {
+            mbarrier_inval(full_barriers[lane_id]);
+            fence_barrier_init();
+        }
+        __syncwarp();
+    }
+
+// Receiving phase
+LOW_LATENCY_COMBINE_RECV:
+    if ((phases & LOW_LATENCY_RECV_PHASE) == 0)
+        return;
+
+    // Wait all ranks to arrive
+    if (responsible_expert_idx < num_experts) {
+        EP_DEVICE_ASSERT(num_warps_per_group > 1);
+        if (sub_warp_id == 0 and lane_id == 0) {
+            const auto src_rank = responsible_expert_idx / num_local_experts;
+            auto start_time = clock64();
+            uint64_t wait_recv_cost = 0;
+
+            size_t src_offset = rdma_recv_flag_offset + responsible_expert_idx * sizeof(int);
+            auto src_p2p_ptr = nccl_get_p2p_ptr(
+                0x01, src_offset, rank, src_rank, nccl_win, dev_comm);
+            if (not is_rank_masked(mask_buffer_ptr, src_rank)) {
+                if (src_p2p_ptr == 0) {
+                    uint64_t cur_value;
+                    auto local_expert_idx_wait = responsible_expert_idx % num_local_experts;
+                    ncclGin net(dev_comm, local_expert_idx_wait);
+                    do {
+                        cur_value = net.readSignal(signals_base + responsible_expert_idx);
+                    } while (cur_value < 1                                                       // signal not arrived
+                             && (wait_recv_cost = clock64() - start_time) <= NUM_TIMEOUT_CYCLES  // not timeout
+                    );
+                    net.resetSignal(signals_base + responsible_expert_idx);
+
+                } else {
+                    while (ld_acquire_sys_global(rdma_recv_flag + responsible_expert_idx) == 0  // recv not ready
+                           && (wait_recv_cost = clock64() - start_time) <= NUM_TIMEOUT_CYCLES   // not timeout
+                    );
+                }
+            }
+            // Mask rank if timeout
+            if (wait_recv_cost > NUM_TIMEOUT_CYCLES) {
+                printf("Warning: DeepEP timeout for combine receive, rank %d, local_expert_idx %d, src_rank %d\n",
+                       rank,
+                       responsible_expert_idx % num_local_experts,
+                       src_rank);
+                if (mask_buffer_ptr == nullptr)
+                    trap();
+                atomicExch(mask_buffer_ptr + src_rank, 1);
+            }
+
+            if (combine_wait_recv_cost_stats != nullptr) {
+                atomicAdd(reinterpret_cast<unsigned long long*>(combine_wait_recv_cost_stats + src_rank), wait_recv_cost);
+            }
+        }
+    }
+    cg::this_grid().sync();
+
+    // Reassign warp groups
+    constexpr int kMaxNumGroups = 2;
+    const int num_decode_warps = hidden_bf16_int4_pad / (kNumRecvUnrolls * 32);
+    const int num_groups = min(kMaxNumGroups, (num_threads / 32) / (num_decode_warps + 1));
+    const int decode_warp_idx = __shfl_sync(0xffffffff, warp_id % (num_decode_warps + 1), 0);
+    const int group_idx = __shfl_sync(0xffffffff, warp_id / (num_decode_warps + 1), 0);
+    EP_STATIC_ASSERT(kHidden % (32 * kNumElemsPerInt4) == 0, "Invalid vectorization");
+    EP_DEVICE_ASSERT(num_topk <= 32);
+    EP_DEVICE_ASSERT(num_groups > 0);
+
+    if (group_idx < num_groups) {
+        constexpr int kNumStages = 3;
+        constexpr int kNumTMABufferBytes = 16 * 2 + kHidden * 2;
+        constexpr int kNumBF16PerWarpBytes = 32 * kNumRecvUnrolls * kNumElemsPerInt4 * 2;
+        constexpr int kNumLogFMTPerWarpBytes = kNumBF16PerWarpBytes / 16 * 10;
+        constexpr int kNumDivisionBytes = kNumDivisions * sizeof(uint32_t);
+        constexpr int kNumBytesPerGroup = kNumStages * kNumTMABufferBytes + kHidden * 2 + kNumStages * kNumDivisionBytes * 3;
+
+        // Reallocate shared memory
+        const auto smem_group_buffer = smem_buffer + kNumBytesPerGroup * group_idx;
+        auto full_barriers =
+            PatternVisitor([=](const int& i) { return reinterpret_cast<uint64_t*>(smem_group_buffer + i * kNumTMABufferBytes); });
+        auto empty_barriers =
+            PatternVisitor([=](const int& i) { return reinterpret_cast<uint64_t*>(smem_group_buffer + i * kNumTMABufferBytes + 8); });
+        auto tma_ld_buffers =
+            PatternVisitor([=](const int& i) { return reinterpret_cast<uint8_t*>(smem_group_buffer + i * kNumTMABufferBytes + 16); });
+        auto tma_st_buffers = PatternVisitor([=](const int& i) {
+            return reinterpret_cast<uint32_t*>(smem_group_buffer + kNumStages * kNumTMABufferBytes + i * kNumBF16PerWarpBytes);
+        });
+
+        // Redundant when logfmt is disabled
+        const auto smem_group_ptr = smem_group_buffer + kNumStages * kNumTMABufferBytes + kHidden * 2;
+        auto log_amax_buffers =
+            PatternVisitor([=](const int& i) { return reinterpret_cast<float*>(smem_group_ptr + i * kNumDivisionBytes); });
+        auto log_amin_buffers = PatternVisitor([=](const int& i) {
+            return reinterpret_cast<float*>(smem_group_ptr + kNumStages * kNumDivisionBytes + i * kNumDivisionBytes);
+        });
+        auto cast_info_buffers = PatternVisitor([=](const int& i) {
+            return reinterpret_cast<int*>(smem_group_ptr + kNumStages * kNumDivisionBytes * 2 + i * kNumDivisionBytes);
+        });
+
+        uint32_t tma_phase = 0;
+        EP_STATIC_ASSERT(kNumStages < 32, "Too many stages");
+        if (decode_warp_idx == num_decode_warps)
+            tma_phase = (1 << kNumStages) - 1;
+
+        // Initialize m-barriers
+        if (decode_warp_idx == num_decode_warps and lane_id < kNumStages) {
+            mbarrier_init(full_barriers[lane_id], 1);
+            mbarrier_init(empty_barriers[lane_id], num_decode_warps);
+        }
+        asm volatile("bar.sync %0, %1;" ::"r"(group_idx + 1), "r"((num_decode_warps + 1) * 32));
+
+        int stage_idx = 0, topk_idx_by_lane = 0;
+        EP_STATIC_ASSERT(kNumMaxTopk <= 32, "Invalid number of topks");
+        if (decode_warp_idx == num_decode_warps) {
+            // TMA load warp
+            for (int token_idx = sm_id + num_sms * group_idx; token_idx < num_combined_tokens; token_idx += num_sms * num_groups) {
+                if (lane_id < num_topk)
+                    topk_idx_by_lane = static_cast<int>(__ldg(topk_idx + token_idx * num_topk + lane_id));
+                for (int i = 0; i < num_topk; ++i) {
+                    int topk_idx_reg = __shfl_sync(0xffffffff, topk_idx_by_lane, i);
+                    if (topk_idx_reg < 0)
+                        continue;
+                    if (is_rank_masked(mask_buffer_ptr, topk_idx_reg / num_local_experts))
+                        continue;
+
+                    mbarrier_wait<true>(empty_barriers[stage_idx], tma_phase, stage_idx);
+                    auto buffer = static_cast<uint8_t*>(rdma_recv_x) +
+                        (topk_idx_reg * num_max_dispatch_tokens_per_rank + token_idx) * num_bytes_per_slot;
+                    if constexpr (kUseLogFMT) {
+                        logfmt_check_amaxmin<kNumDivisions / 2, kNumSendUnrolls, kNumRecvUnrolls>(
+                            buffer,
+                            reinterpret_cast<float2*>(log_amax_buffers[stage_idx]),
+                            reinterpret_cast<float2*>(log_amin_buffers[stage_idx]),
+                            cast_info_buffers[stage_idx],
+                            lane_id);
+                    }
+                    if (elect_one_sync()) {
+                        int num_casted = 0;
+                        if constexpr (kUseLogFMT) {
+                            const auto& info = cast_info_buffers[stage_idx][num_decode_warps - 1];
+                            num_casted = (info >> 1) + (info & 1);
+                        }
+                        int num_tma_bytes = num_casted * kNumLogFMTPerWarpBytes + (num_decode_warps - num_casted) * kNumBF16PerWarpBytes;
+                        tma_load_1d(
+                            tma_ld_buffers[stage_idx], buffer + (kUseLogFMT ? kNumMetaBytes : 0), full_barriers[stage_idx], num_tma_bytes);
+                        mbarrier_arrive_and_expect_tx(full_barriers[stage_idx], num_tma_bytes);
+                    }
+                    __syncwarp();
+                    stage_idx = (stage_idx + 1) % kNumStages;
+                }
+            }
+        } else {
+            // Reduction warps
+            float topk_weights_by_lane;
+            for (int token_idx = sm_id + num_sms * group_idx; token_idx < num_combined_tokens; token_idx += num_sms * num_groups) {
+                if (lane_id < num_topk) {
+                    topk_idx_by_lane = static_cast<int>(__ldg(topk_idx + token_idx * num_topk + lane_id));
+                    topk_weights_by_lane = __ldg(topk_weights + token_idx * num_topk + lane_id);
+                }
+                __syncwarp();
+
+                float combined_values[kNumElemsPerInt4 * kNumRecvUnrolls] = {0.0f};
+                for (int i = 0; i < num_topk; ++i) {
+                    int topk_idx_reg = __shfl_sync(0xffffffff, topk_idx_by_lane, i);
+                    if (topk_idx_reg < 0)
+                        continue;
+                    if (is_rank_masked(mask_buffer_ptr, topk_idx_reg / num_local_experts))
+                        continue;
+                    const auto& topk_weight = __shfl_sync(0xffffffff, topk_weights_by_lane, i);
+
+                    mbarrier_wait<true>(full_barriers[stage_idx], tma_phase, stage_idx);
+                    if constexpr (kUseLogFMT) {
+                        const auto& info = cast_info_buffers[stage_idx][decode_warp_idx];
+                        bool enable_cast = info & 1;
+                        int num_casted_prefix = info >> 1;
+                        int tma_offset =
+                            kNumLogFMTPerWarpBytes * num_casted_prefix + kNumBF16PerWarpBytes * (decode_warp_idx - num_casted_prefix);
+                        int division_idx = decode_warp_idx * (kNumRecvUnrolls * 2) + lane_id * kNumRecvUnrolls / 16;
+                        decode_and_accumulate<kNumRecvUnrolls>(
+                            reinterpret_cast<uint32_t*>(tma_ld_buffers[stage_idx] + tma_offset +
+                                                        (enable_cast ? kNumLogFMTPerWarpBytes : kNumBF16PerWarpBytes) / 32 * lane_id),
+                            combined_values,
+                            log_amax_buffers[stage_idx][division_idx],
+                            log_amin_buffers[stage_idx][division_idx],
+                            enable_cast,
+                            topk_weight);
+                    } else {
+                        int tma_offset = kNumBF16PerWarpBytes * decode_warp_idx;
+                        decode_and_accumulate<kNumRecvUnrolls>(
+                            reinterpret_cast<uint32_t*>(tma_ld_buffers[stage_idx] + tma_offset + kNumBF16PerWarpBytes / 32 * lane_id),
+                            combined_values,
+                            0,
+                            0,
+                            false,
+                            topk_weight);
+                    }
+
+                    if (elect_one_sync())
+                        mbarrier_arrive(empty_barriers[stage_idx]);
+                    stage_idx = (stage_idx + 1) % kNumStages;
+                }
+                tma_store_wait<0>();
+
+                #pragma unroll
+                for (int k = 0; k < kNumRecvUnrolls * 4; ++k) {
+                    auto combined_pack = __nv_bfloat162(combined_values[k * 2], combined_values[k * 2 + 1]);
+                    tma_st_buffers[decode_warp_idx][kNumRecvUnrolls * 4 * lane_id + k] = *reinterpret_cast<uint32_t*>(&combined_pack);
+                }
+                tma_store_fence();
+                if (elect_one_sync()) {
+                    tma_store_1d(tma_st_buffers[decode_warp_idx],
+                                 static_cast<int4*>(combined_x) + token_idx * hidden_bf16_int4 + decode_warp_idx * kNumRecvUnrolls * 32,
+                                 kNumBF16PerWarpBytes);
+                }
+                __syncwarp();
+            }
+        }
+    }
+}
+
+void combine(void*             combined_x,
+             void*             rdma_recv_x,
+             int*              rdma_recv_flag,
+             void*             rdma_send_x,
+             size_t            rdma_recv_x_offset,
+             size_t            rdma_recv_flag_offset,
+             size_t            rdma_send_x_offset,
+             const void*       x,
+             const topk_idx_t* topk_idx,
+             const float*      topk_weights,
+             const int*        src_info,
+             const int64_t*    layout_range,
+             int*              mask_buffer_ptr,
+             int64_t*          combine_wait_recv_cost_stats,
+             int*              next_clean,
+             int               num_next_clean_int,
+             int               num_combined_tokens,
+             int               hidden,
+             int               num_max_dispatch_tokens_per_rank,
+             int               num_topk,
+             int               num_experts,
+             int               rank,
+             int               num_ranks,
+             bool              use_logfmt,
+             void*             workspace,
+             int               num_device_sms,
+             ncclWindow_t      nccl_win,
+             ncclDevComm       dev_comm,
+             unsigned          signals_base,
+             cudaStream_t      stream,
+             int               phases,
+             bool              zero_copy)
+{
+    constexpr int kNumMaxTopk         = 11;
+    const int     num_warp_groups     = ceil_div(num_experts, num_device_sms);
+    const int     num_warps_per_group = 32 / num_warp_groups;
+    const int     num_recv_per_sm     = ceil_div(num_combined_tokens, num_device_sms);
+    EP_HOST_ASSERT(num_warp_groups > 0 and num_warps_per_group > 0 and num_recv_per_sm >= 0);
+
+    const auto num_warps = num_warp_groups * num_warps_per_group;
+    const auto num_sms   = max(ceil_div(num_experts, num_warp_groups),
+                             num_recv_per_sm == 0 ? 1 : ceil_div(num_combined_tokens, num_recv_per_sm));
+
+    // Check workspace
+    auto atomic_clean_flag = static_cast<int*>(workspace);
+    EP_HOST_ASSERT(sizeof(int) <= NUM_WORKSPACE_BYTES);
+    EP_HOST_ASSERT(num_topk <= kNumMaxTopk);
+
+    // Online cast cannot use zero-copy
+    EP_HOST_ASSERT(not(zero_copy and use_logfmt));
+
+    constexpr int kNumStages     = 3;
+    constexpr int kNumMaxUnrolls = 4;
+    constexpr int kMaxNumGroups  = 2;
+
+    // Send buffer size
+    const int num_meta_bytes     = hidden / 128 * 4;
+    const int num_send_tma_bytes = 32 * sizeof(int4) * kNumMaxUnrolls + 16;
+    const int smem_send_size     = num_warps * (kNumStages * num_send_tma_bytes + num_meta_bytes);
+
+    // Receive buffer size
+    const int num_recv_tma_bytes = 16 + hidden * 2;
+    const int smem_recv_size =
+        kMaxNumGroups * (kNumStages * num_recv_tma_bytes + hidden * 2 + kNumStages * num_meta_bytes * 3);
+
+    // Total requirement
+    const int smem_size = max(smem_send_size, smem_recv_size);
+
+#define COMBINE_LAUNCH_CASE(hidden)                                                                                    \
+    {                                                                                                                  \
+        auto combine_func = use_logfmt ? combine<true, hidden, kNumMaxTopk, kNumMaxUnrolls> :                          \
+                                         combine<false, hidden, kNumMaxTopk, kNumMaxUnrolls>;                          \
+        SET_SHARED_MEMORY_FOR_TMA(combine_func);                                                                       \
+        LAUNCH_KERNEL(&cfg,                                                                                            \
+                      combine_func,                                                                                    \
+                      combined_x,                                                                                      \
+                      rdma_recv_x,                                                                                     \
+                      rdma_recv_flag,                                                                                  \
+                      rdma_send_x,                                                                                     \
+                      rdma_recv_x_offset,                                                                              \
+                      rdma_recv_flag_offset,                                                                           \
+                      rdma_send_x_offset,                                                                              \
+                      x,                                                                                               \
+                      topk_idx,                                                                                        \
+                      topk_weights,                                                                                    \
+                      src_info,                                                                                        \
+                      layout_range,                                                                                    \
+                      mask_buffer_ptr,                                                                                 \
+                      combine_wait_recv_cost_stats,                                                                    \
+                      next_clean,                                                                                      \
+                      num_next_clean_int,                                                                              \
+                      atomic_clean_flag,                                                                               \
+                      num_combined_tokens,                                                                             \
+                      hidden,                                                                                          \
+                      num_topk,                                                                                        \
+                      num_max_dispatch_tokens_per_rank,                                                                \
+                      num_experts,                                                                                     \
+                      rank,                                                                                            \
+                      num_ranks,                                                                                       \
+                      num_warp_groups,                                                                                 \
+                      num_warps_per_group,                                                                             \
+                      phases,                                                                                          \
+                      zero_copy,                                                                                       \
+                      dev_comm,                                                                                        \
+                      nccl_win,                                                                                        \
+                      signals_base);                                                                                   \
+    }                                                                                                                  \
+    break
+
+    SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
+    SWITCH_HIDDEN(COMBINE_LAUNCH_CASE);
+#undef COMBINE_LAUNCH_CASE
+}
+
+// Set the device constant for P2P disabled flag
+void set_p2p_disabled_flag(bool disabled)
+{
+    cudaError_t err = cudaMemcpyToSymbol(d_p2p_disabled, &disabled, sizeof(bool), 0, cudaMemcpyHostToDevice);
+    if (err != cudaSuccess) {
+        throw std::runtime_error(std::string("Failed to set d_p2p_disabled: ") + cudaGetErrorString(err));
+    }
+}
+
+}  // namespace internode_ll
+
+}  // namespace deep_ep
+
+// clang-format on
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/intranode.cu b/src/turbomind/comm/nccl/deep_ep/kernels/intranode.cu
new file mode 100644
index 0000000000..3e226e36a9
--- /dev/null
+++ b/src/turbomind/comm/nccl/deep_ep/kernels/intranode.cu
@@ -0,0 +1,1110 @@
+// clang-format off
+#include "buffer.cuh"
+#include "configs.cuh"
+#include "exception.cuh"
+#include "launch.cuh"
+#include "utils.cuh"
+
+namespace deep_ep {
+
+namespace intranode {
+
+template <int kNumRanks>
+__global__ void notify_dispatch(const int* num_tokens_per_rank,
+                                int* moe_recv_counter_mapped,
+                                const int* num_tokens_per_expert,
+                                int* moe_recv_expert_counter_mapped,
+                                int* moe_recv_expert_counter_ten,
+                                int num_experts,
+                                int num_tokens,
+                                int num_channels,
+                                const bool* is_token_in_rank,
+                                int* channel_prefix_matrix,
+                                int* rank_prefix_matrix_copy,
+                                int num_memset_int,
+                                int expert_alignment,
+                                void** buffer_ptrs,
+                                int** barrier_signal_ptrs,
+                                int rank) {
+    auto sm_id = static_cast<int>(blockIdx.x);
+    auto thread_id = static_cast<int>(threadIdx.x), num_threads = static_cast<int>(blockDim.x);
+    auto lane_id = thread_id % 32, warp_id = thread_id / 32, num_warps = num_threads / 32;
+
+    if (sm_id == 0) {
+        // Barrier first
+        barrier_block<kNumRanks, true>(barrier_signal_ptrs, rank);
+
+        int *per_rank_buffer, *per_expert_buffer;
+        if (thread_id < kNumRanks) {
+            per_rank_buffer = static_cast<int*>(buffer_ptrs[thread_id]);
+            per_expert_buffer = per_rank_buffer + kNumRanks * kNumRanks;
+        }
+
+        // After this loop:
+        //  - `per_rank_buffer[rank][i, j]` means the number of tokens from rank i to rank j
+        //  - `per_expert_buffer[rank][i, j]` means the number of tokens from rank i to local expert j
+        int num_experts_per_rank = num_experts / kNumRanks;
+        if (thread_id < kNumRanks) {
+            per_rank_buffer[rank * kNumRanks + thread_id] = num_tokens_per_rank[thread_id];
+            #pragma unroll
+            for (int i = 0; i < num_experts_per_rank; ++i)
+                per_expert_buffer[rank * num_experts_per_rank + i] = num_tokens_per_expert[thread_id * num_experts_per_rank + i];
+        }
+
+        // Wait for all ranks to be finished
+        barrier_block<kNumRanks>(barrier_signal_ptrs, rank);
+
+        // Sum per-rank counts and return to CPU
+        // Also pre-compute the prefix sum for data sending
+        auto local_per_rank_buffer = static_cast<int*>(buffer_ptrs[rank]);
+        if (thread_id < kNumRanks) {
+            #pragma unroll
+            for (int i = 1; i < kNumRanks; ++i)
+                local_per_rank_buffer[i * kNumRanks + thread_id] += local_per_rank_buffer[(i - 1) * kNumRanks + thread_id];
+            if (thread_id == rank)
+                *moe_recv_counter_mapped = local_per_rank_buffer[(kNumRanks - 1) * kNumRanks + rank];
+        }
+
+        // Sum per-experts counts and return to CPU
+        auto local_per_expert_buffer = local_per_rank_buffer + kNumRanks * kNumRanks;
+        if (thread_id < num_experts_per_rank) {
+            int sum = 0;
+            #pragma unroll
+            for (int i = 0; i < kNumRanks; ++i)
+                sum += local_per_expert_buffer[i * num_experts_per_rank + thread_id];
+            sum = (sum + expert_alignment - 1) / expert_alignment * expert_alignment;
+            moe_recv_expert_counter_mapped[thread_id] = sum;
+            moe_recv_expert_counter_ten[thread_id] = sum;
+        }
+        __syncthreads();
+
+        // Copy rank size prefix matrix to another tensor
+        #pragma unroll
+        for (int i = thread_id; i < kNumRanks * kNumRanks; i += num_threads)
+            rank_prefix_matrix_copy[i] = local_per_rank_buffer[i];
+
+        // Extra memset for later communication queue
+        #pragma unroll
+        for (int i = thread_id; i < num_memset_int; i += num_threads)
+            local_per_expert_buffer[i] = 0;
+
+        // Barrier
+        barrier_block<kNumRanks>(barrier_signal_ptrs, rank);
+    } else {
+        int dst_rank = sm_id - 1;
+        for (int channel_id = warp_id; channel_id < num_channels; channel_id += num_warps) {
+            int token_start_idx, token_end_idx;
+            get_channel_task_range(num_tokens, num_channels, channel_id, token_start_idx, token_end_idx);
+
+            // Iterate over tokens
+            int count = 0;
+            for (int64_t i = token_start_idx + lane_id; i < token_end_idx; i += 32)
+                count += is_token_in_rank[i * kNumRanks + dst_rank];
+            count = warp_reduce_sum(count);
+            if (elect_one_sync())
+                channel_prefix_matrix[dst_rank * num_channels + channel_id] = count;
+        }
+        __syncthreads();
+
+        // Pre-compute prefix sum for all channels
+        if (thread_id == 0) {
+            #pragma unroll
+            for (int i = 1; i < num_channels; ++i)
+                channel_prefix_matrix[dst_rank * num_channels + i] += channel_prefix_matrix[dst_rank * num_channels + i - 1];
+        }
+    }
+}
+
+void notify_dispatch(const int* num_tokens_per_rank,
+                     int* moe_recv_counter_mapped,
+                     int num_ranks,
+                     const int* num_tokens_per_expert,
+                     int* moe_recv_expert_counter_mapped,
+                     int* moe_recv_expert_counter_ten,
+                     int num_experts,
+                     int num_tokens,
+                     const bool* is_token_in_rank,
+                     int* channel_prefix_matrix,
+                     int* rank_prefix_matrix_copy,
+                     int num_memset_int,
+                     int expert_alignment,
+                     void** buffer_ptrs,
+                     int** barrier_signal_ptrs,
+                     int rank,
+                     cudaStream_t stream,
+                     int num_channels) {
+#define NOTIFY_DISPATCH_LAUNCH_CASE(ranks)        \
+    LAUNCH_KERNEL(&cfg,                           \
+                  notify_dispatch<ranks>,         \
+                  num_tokens_per_rank,            \
+                  moe_recv_counter_mapped,        \
+                  num_tokens_per_expert,          \
+                  moe_recv_expert_counter_mapped, \
+                  moe_recv_expert_counter_ten,    \
+                  num_experts,                    \
+                  num_tokens,                     \
+                  num_channels,                   \
+                  is_token_in_rank,               \
+                  channel_prefix_matrix,          \
+                  rank_prefix_matrix_copy,        \
+                  num_memset_int,                 \
+                  expert_alignment,               \
+                  buffer_ptrs,                    \
+                  barrier_signal_ptrs,            \
+                  rank);                          \
+    break
+
+    constexpr int kNumThreads = 128;
+    EP_HOST_ASSERT(num_experts % num_ranks == 0);
+    EP_HOST_ASSERT(num_experts / num_ranks <= kNumThreads and num_ranks <= kNumThreads);
+
+    SETUP_LAUNCH_CONFIG(1 + num_ranks, kNumThreads, stream);
+    SWITCH_RANKS(NOTIFY_DISPATCH_LAUNCH_CASE);
+#undef NOTIFY_DISPATCH_LAUNCH_CASE
+}
+
+template <int kNumRanks>
+__global__ void cached_notify_dispatch(
+    const int* rank_prefix_matrix, int num_memset_int, void** buffer_ptrs, int** barrier_signal_ptrs, int rank) {
+    // A simplified version for cached handles
+    barrier_block<kNumRanks, true>(barrier_signal_ptrs, rank);
+
+    // Copy and clean
+    auto thread_id = static_cast<int>(threadIdx.x), num_threads = static_cast<int>(blockDim.x);
+    auto ptr = static_cast<int*>(buffer_ptrs[rank]);
+    #pragma unroll
+    for (int i = thread_id; i < kNumRanks * kNumRanks; i += num_threads)
+        ptr[i] = rank_prefix_matrix[i];
+    #pragma unroll
+    for (int i = thread_id; i < num_memset_int; i += num_threads)
+        ptr[kNumRanks * kNumRanks + i] = 0;
+
+    // Barrier after cleaning
+    barrier_block<kNumRanks>(barrier_signal_ptrs, rank);
+}
+
+void cached_notify_dispatch(const int* rank_prefix_matrix,
+                            int num_memset_int,
+                            void** buffer_ptrs,
+                            int** barrier_signal_ptrs,
+                            int rank,
+                            int num_ranks,
+                            cudaStream_t stream) {
+#define CACHED_NOTIFY_DISPATCH_LAUNCH_CASE(ranks)                                                                                   \
+    LAUNCH_KERNEL(&cfg, cached_notify_dispatch<ranks>, rank_prefix_matrix, num_memset_int, buffer_ptrs, barrier_signal_ptrs, rank); \
+    break
+
+    SETUP_LAUNCH_CONFIG(1, 128, stream);
+    SWITCH_RANKS(CACHED_NOTIFY_DISPATCH_LAUNCH_CASE);
+#undef CACHED_NOTIFY_DISPATCH_LAUNCH_CASE
+}
+
+template <int kNumRanks, int kNumThreads, int kNumTMABytesPerWarp>
+__global__ void __launch_bounds__(kNumThreads, 1) dispatch(int4* recv_x,
+                                                           float* recv_x_scales,
+                                                           int* recv_src_idx,
+                                                           topk_idx_t* recv_topk_idx,
+                                                           float* recv_topk_weights,
+                                                           int* recv_channel_offset,
+                                                           int* send_head,
+                                                           const int4* x,
+                                                           const float* x_scales,
+                                                           const topk_idx_t* topk_idx,
+                                                           const float* topk_weights,
+                                                           const bool* is_token_in_rank,
+                                                           const int* channel_prefix_matrix,
+                                                           int num_tokens,
+                                                           int num_worst_tokens,
+                                                           int hidden_int4,
+                                                           int num_topk,
+                                                           int num_experts,
+                                                           int num_scales,
+                                                           int scale_token_stride,
+                                                           int scale_hidden_stride,
+                                                           void** buffer_ptrs,
+                                                           int rank,
+                                                           int num_max_send_tokens,
+                                                           int num_recv_buffer_tokens) {
+    const auto num_sms = static_cast<int>(gridDim.x), sm_id = static_cast<int>(blockIdx.x);
+    const auto thread_id = static_cast<int>(threadIdx.x), lane_id = get_lane_id();
+    const bool is_sender = sm_id % 2 == 0;
+    EP_DEVICE_ASSERT(num_sms % 2 == 0);
+
+    // Several warps are response for a single rank
+    const auto num_threads_per_rank = kNumThreads / kNumRanks;
+    const auto num_channels = num_sms / 2;
+    const auto responsible_rank = (static_cast<int>(thread_id)) / num_threads_per_rank;
+    // Even-numbered blocks for sending, odd-numbered blocks for receiving.
+    const auto responsible_channel = sm_id / 2;
+
+    int num_experts_per_rank = num_experts / kNumRanks;
+    EP_DEVICE_ASSERT(num_experts_per_rank > 0 or num_topk == 0);
+    EP_DEVICE_ASSERT(num_topk <= 32);
+    EP_DEVICE_ASSERT((topk_idx == nullptr) == (topk_weights == nullptr));
+    EP_DEVICE_ASSERT((recv_topk_idx == nullptr) == (recv_topk_weights == nullptr));
+
+    // Calculate pointers by the specific layout
+    // `rank_prefix_matrix`: kNumRanks * kNumRanks * sizeof(int)
+    auto ptr = reinterpret_cast<void*>(static_cast<int8_t*>(buffer_ptrs[is_sender ? responsible_rank : rank]) +
+                                       kNumRanks * kNumRanks * sizeof(int));
+    int target_rank = is_sender ? rank : responsible_rank;
+    auto num_channels_total = num_channels * kNumRanks;
+    auto channel_rank_offset = responsible_channel * kNumRanks + target_rank;
+
+    // Channel buffer metadata
+    // Senders are responsible for tails, and receivers are responsible for heads
+    // Stored on the receiver side
+    // The retired signals are actually boolean flags, but to align with 16 bytes, we make it `int64_t`
+    // `start_offset`: kNumChannels * kNumRanks * sizeof(int)
+    // `end_offset`: kNumChannels * kNumRanks * sizeof(int)
+    // `head_idx`: kNumChannels * kNumRanks * sizeof(int)
+    // `tail_idx`: kNumChannels * kNumRanks * sizeof(int)
+    auto channel_start_offset = Buffer<int>(ptr, num_channels_total, channel_rank_offset);
+    auto channel_end_offset = Buffer<int>(ptr, num_channels_total, channel_rank_offset);
+    auto channel_head_idx = Buffer<int>(ptr, num_channels_total, channel_rank_offset);
+    auto channel_tail_idx = Buffer<int>(ptr, num_channels_total, channel_rank_offset);
+
+    // Channel data buffers, stored on the receiver side
+    // `x_buffers`: kNumChannels * kNumRanks * num_recv_buffer_tokens * hidden_int4 * sizeof(int4)
+    // `src_idx_buffers`: kNumChannels * kNumRanks * num_recv_buffer_tokens * sizeof(int)
+    // `topk_idx_buffers`: kNumChannels * kNumRanks * num_recv_buffer_tokens * num_topk * sizeof(topk_idx_t)
+    // `topk_weights_buffers`: kNumChannels * kNumRanks * num_recv_buffer_tokens * num_topk * sizeof(float)
+    // `x_scales_buffers`: kNumChannels * kNumRanks * num_recv_buffer_tokens * num_scales * sizeof(float)
+    auto channel_x_buffers = Buffer<int4>(
+        ptr, num_channels_total * num_recv_buffer_tokens * hidden_int4, channel_rank_offset * num_recv_buffer_tokens * hidden_int4);
+    auto channel_src_idx_buffers =
+        Buffer<int>(ptr, num_channels_total * num_recv_buffer_tokens, channel_rank_offset * num_recv_buffer_tokens);
+    auto channel_topk_idx_buffers = Buffer<topk_idx_t>(
+        ptr, num_channels_total * num_recv_buffer_tokens * num_topk, channel_rank_offset * num_recv_buffer_tokens * num_topk);
+    auto channel_topk_weights_buffers =
+        Buffer<float>(ptr, num_channels_total * num_recv_buffer_tokens * num_topk, channel_rank_offset * num_recv_buffer_tokens * num_topk);
+    auto channel_x_scales_buffers = Buffer<float>(
+        ptr, num_channels_total * num_recv_buffer_tokens * num_scales, channel_rank_offset * num_recv_buffer_tokens * num_scales);
+
+    // TMA stuffs
+#ifndef DISABLE_SM90_FEATURES
+    extern __shared__ __align__(1024) uint8_t smem_buffer[];
+    auto half_hidden_int4 = hidden_int4 / 2;
+    auto half_hidden_bytes = half_hidden_int4 * static_cast<int>(sizeof(int4));
+    auto tma_buffer = smem_buffer + (thread_id / 32) * kNumTMABytesPerWarp;
+    auto tma_mbarrier = reinterpret_cast<uint64_t*>(tma_buffer + half_hidden_bytes);
+    uint32_t tma_phase = 0;
+    if (elect_one_sync()) {
+        mbarrier_init(tma_mbarrier, 1);
+        fence_barrier_init();
+        EP_DEVICE_ASSERT(hidden_int4 % 2 == 0 and half_hidden_bytes + sizeof(uint64_t) <= kNumTMABytesPerWarp);
+    }
+    __syncwarp();
+#endif
+
+    if (is_sender) {
+        // Workers for sending
+        constexpr int num_send_warps = kNumThreads / 32;
+        constexpr int num_send_warps_per_rank = num_send_warps / kNumRanks;
+        const auto send_thread_id = thread_id;
+        const auto send_warp_id_in_rank = send_thread_id % num_threads_per_rank / 32;
+        EP_DEVICE_ASSERT(kNumRanks <= 32);
+        EP_DEVICE_ASSERT(num_send_warps % kNumRanks == 0);
+
+        // Send offset by `-value - 1`, e.g. 0 -> -1, 1 -> -2
+        // NOTES: this is for distinguishing zero tokens
+        if (send_warp_id_in_rank == 0 and elect_one_sync()) {
+            int value = responsible_channel > 0 ? channel_prefix_matrix[responsible_rank * num_channels + responsible_channel - 1] : 0;
+            st_relaxed_sys_global(channel_start_offset.buffer(), -value - 1);
+            value = channel_prefix_matrix[responsible_rank * num_channels + responsible_channel];
+            st_relaxed_sys_global(channel_end_offset.buffer(), -value - 1);
+        }
+        __syncwarp();
+
+        // Get tasks
+        int token_start_idx, token_end_idx;
+        get_channel_task_range(num_tokens, num_channels, responsible_channel, token_start_idx, token_end_idx);
+
+        // Iterate over all tokens and send by chunks
+        int cached_channel_tail_idx = 0;
+        for (int64_t token_idx = token_start_idx; token_idx < token_end_idx;) {
+            // Check destination queue emptiness, or wait a buffer to be released (rare cases)
+            // NOTES: the head index received by different warps may not be the same
+            auto start_time = clock64();
+            if (elect_one_sync()) {
+                while (true) {
+                    // NOTES: we only consider the worst case, because counting the real numbers are time-consuming
+                    int num_used_slots = cached_channel_tail_idx - ld_volatile_global(channel_head_idx.buffer());
+                    if (num_recv_buffer_tokens - num_used_slots >= num_max_send_tokens)
+                        break;
+
+                    // Rare cases to loop again
+                    if (clock64() - start_time > NUM_TIMEOUT_CYCLES) {
+                        printf("DeepEP timeout for dispatch senders, rank %d, responsible_channel = %d\n", rank, responsible_channel);
+                        trap();
+                    }
+                }
+            }
+            __syncwarp();
+
+            int chunk_token_idx = 0;
+            while (chunk_token_idx < num_max_send_tokens and token_idx < token_end_idx) {
+                // NOTES: for the same token, the warp assigned to save `send_head` may be different from the warp assigned to send the
+                // following data
+                if (token_idx % num_send_warps_per_rank == send_warp_id_in_rank and elect_one_sync())
+                    send_head[token_idx * kNumRanks + responsible_rank] =
+                        is_token_in_rank[token_idx * kNumRanks + responsible_rank] ? cached_channel_tail_idx : -1;
+
+                // Skip if not selected
+                if (not is_token_in_rank[token_idx * kNumRanks + responsible_rank]) {
+                    token_idx++;
+                    continue;
+                }
+
+                // Get an empty slot
+                int dst_slot_idx = (cached_channel_tail_idx++) % num_recv_buffer_tokens;
+                if (cached_channel_tail_idx % num_send_warps_per_rank == send_warp_id_in_rank) {
+                    // Copy data
+                    auto shifted_channel_x_buffers = channel_x_buffers.buffer() + dst_slot_idx * hidden_int4;
+                    auto shifted_x = x + token_idx * hidden_int4;
+                    UNROLLED_WARP_COPY(5, lane_id, hidden_int4, shifted_channel_x_buffers, shifted_x, __ldg, st_na_global);
+
+                    // Copy source index
+                    if (elect_one_sync())
+                        channel_src_idx_buffers[dst_slot_idx] = static_cast<int>(token_idx);
+
+                    // Copy `topk_idx` and `topk_weights` with transformed index
+                    if (lane_id < num_topk) {
+                        // Top-k index
+                        int recv_expert_begin = responsible_rank * num_experts_per_rank,
+                            recv_expert_end = (responsible_rank + 1) * num_experts_per_rank;
+                        auto idx_value = __ldg(topk_idx + token_idx * num_topk + lane_id);
+                        idx_value = (idx_value >= recv_expert_begin and idx_value < recv_expert_end) ? idx_value - recv_expert_begin : -1;
+                        channel_topk_idx_buffers[dst_slot_idx * num_topk + lane_id] = idx_value;
+
+                        // Top-k weights
+                        auto weight_value = __ldg(topk_weights + token_idx * num_topk + lane_id);
+                        weight_value = (idx_value >= 0) ? weight_value : 0.0f;
+                        channel_topk_weights_buffers[dst_slot_idx * num_topk + lane_id] = weight_value;
+                    }
+
+                    // Copy `x_scales`
+                    #pragma unroll
+                    for (int i = lane_id; i < num_scales; i += 32) {
+                        auto offset = token_idx * scale_token_stride + i * scale_hidden_stride;
+                        channel_x_scales_buffers[dst_slot_idx * num_scales + i] = __ldg(x_scales + offset);
+                    }
+                }
+
+                // Move token index
+                chunk_token_idx++, token_idx++;
+            }
+
+            // Move tail index
+            // NOTES: here all warps should share the same new tail
+            asm volatile("bar.sync %0, %1;" ::"r"(responsible_rank), "r"(num_threads_per_rank));
+            if (send_warp_id_in_rank == 0 and elect_one_sync())
+                st_release_sys_global(channel_tail_idx.buffer(), cached_channel_tail_idx);
+        }
+    } else {
+        // Workers for receiving and copying into buffer
+        constexpr int num_recv_warps = kNumThreads / 32;
+        constexpr int num_recv_warps_per_rank = num_recv_warps / kNumRanks;
+        const auto recv_thread_id = thread_id;
+        const auto recv_thread_id_in_rank = recv_thread_id % num_threads_per_rank;
+        const auto recv_warp_id_in_rank = recv_thread_id_in_rank / 32;
+        EP_DEVICE_ASSERT(kNumRanks <= 32);
+        EP_DEVICE_ASSERT(recv_thread_id >= 0 and num_recv_warps % kNumRanks == 0);
+
+        // Calculate offset first
+        auto rank_prefix_matrix = static_cast<int*>(buffer_ptrs[rank]);
+        int rank_offset = responsible_rank > 0 ? rank_prefix_matrix[(responsible_rank - 1) * kNumRanks + rank] : 0;
+
+        // Receive channel offset
+        int total_offset, num_tokens_to_recv;
+        if (elect_one_sync()) {
+            while ((total_offset = ld_volatile_global(channel_start_offset.buffer())) == 0)
+                ;
+            while ((num_tokens_to_recv = ld_volatile_global(channel_end_offset.buffer())) == 0)
+                ;
+            total_offset = -total_offset - 1, num_tokens_to_recv = -num_tokens_to_recv - 1;
+            if (recv_warp_id_in_rank == 0)
+                recv_channel_offset[responsible_rank * num_channels + responsible_channel] = total_offset;
+            num_tokens_to_recv -= total_offset;
+        }
+        total_offset = __shfl_sync(0xffffffff, total_offset, 0);
+        total_offset += rank_offset;
+        num_tokens_to_recv = __shfl_sync(0xffffffff, num_tokens_to_recv, 0);
+
+        // Shared tail indices for different warps
+        __shared__ volatile int shared_channel_tail_idx[kNumRanks];
+
+        auto start_time = clock64();
+        int cached_channel_head_idx = 0, cached_channel_tail_idx = 0;
+        while (num_tokens_to_recv > 0) {
+            // NOTES: unlike the sender, the receiver must ensure that the tail indices hold by different warps are the same
+            while (recv_thread_id_in_rank == 0) {
+                cached_channel_tail_idx = ld_acquire_sys_global(channel_tail_idx.buffer());
+
+                // Ready to copy
+                if (cached_channel_head_idx != cached_channel_tail_idx) {
+                    shared_channel_tail_idx[responsible_rank] = cached_channel_tail_idx;
+                    break;
+                }
+
+                // Timeout check
+                if (clock64() - start_time > NUM_TIMEOUT_CYCLES) {
+                    printf("DeepEP timeout for dispatch receivers, rank %d, responsible_channel = %d, tokens remained: %d\n",
+                           rank,
+                           responsible_channel,
+                           num_tokens_to_recv);
+                    trap();
+                }
+            }
+
+            // Synchronize queue tail
+            asm volatile("bar.sync %0, %1;" ::"r"(responsible_rank), "r"(num_threads_per_rank));
+            cached_channel_tail_idx = shared_channel_tail_idx[responsible_rank];
+
+            // Copy data
+            int num_recv_tokens = cached_channel_tail_idx - cached_channel_head_idx;
+            for (int chunk_idx = recv_warp_id_in_rank; chunk_idx < num_recv_tokens; chunk_idx += num_recv_warps_per_rank) {
+                int token_idx_in_buffer = (cached_channel_head_idx + chunk_idx) % num_recv_buffer_tokens;
+                auto shifted_buffer_x_int4 = channel_x_buffers.buffer() + token_idx_in_buffer * hidden_int4;
+                auto shifted_recv_x_int4 = recv_x + static_cast<int64_t>(total_offset + chunk_idx) * hidden_int4;
+#ifndef DISABLE_SM90_FEATURES
+                #pragma unroll
+                for (int i = 0; i < 2; ++i) {
+                    tma_store_wait<0>();
+                    if (elect_one_sync()) {
+                        tma_load_1d(tma_buffer, shifted_buffer_x_int4 + i * half_hidden_int4, tma_mbarrier, half_hidden_bytes);
+                        mbarrier_arrive_and_expect_tx(tma_mbarrier, half_hidden_bytes);
+                        mbarrier_wait(tma_mbarrier, tma_phase);
+                        tma_store_1d(tma_buffer, shifted_recv_x_int4 + i * half_hidden_int4, half_hidden_bytes, false);
+                    }
+                }
+                __syncwarp();
+#else
+                UNROLLED_WARP_COPY(5, lane_id, hidden_int4, shifted_recv_x_int4, shifted_buffer_x_int4, ld_nc_global, st_na_global);
+#endif
+            }
+
+            // Copy `src_idx`
+            #pragma unroll 4
+            for (int chunk_idx = cached_channel_head_idx + recv_thread_id_in_rank; chunk_idx < cached_channel_tail_idx;
+                 chunk_idx += 32 * num_recv_warps_per_rank)
+                recv_src_idx[total_offset + chunk_idx - cached_channel_head_idx] =
+                    ld_nc_global(channel_src_idx_buffers.buffer() + chunk_idx % num_recv_buffer_tokens);
+
+            // Copy `topk_idx` and `topk_weights`
+            #pragma unroll 4
+            for (int idx = recv_thread_id_in_rank; idx < num_recv_tokens * num_topk; idx += 32 * num_recv_warps_per_rank) {
+                int chunk_idx = idx / num_topk, token_topk_idx = idx % num_topk;
+                int token_idx_in_buffer = (cached_channel_head_idx + chunk_idx) % num_recv_buffer_tokens;
+                auto recv_idx = static_cast<int64_t>(total_offset + chunk_idx) * num_topk + token_topk_idx;
+                auto buffer_idx = token_idx_in_buffer * num_topk + token_topk_idx;
+                recv_topk_idx[recv_idx] = ld_nc_global(channel_topk_idx_buffers.buffer() + buffer_idx);
+                recv_topk_weights[recv_idx] = ld_nc_global(channel_topk_weights_buffers.buffer() + buffer_idx);
+            }
+
+            // Copy `x_scales`
+            #pragma unroll 4
+            for (int i = recv_thread_id_in_rank; i < num_recv_tokens * num_scales; i += 32 * num_recv_warps_per_rank) {
+                int chunk_idx = i / num_scales, scales_idx = i % num_scales;
+                int token_idx_in_buffer = (cached_channel_head_idx + chunk_idx) % num_recv_buffer_tokens;
+                recv_x_scales[static_cast<int64_t>(total_offset + chunk_idx) * num_scales + scales_idx] =
+                    ld_nc_global(channel_x_scales_buffers.buffer() + token_idx_in_buffer * num_scales + scales_idx);
+            }
+
+            // Move queue
+            cached_channel_head_idx += num_recv_tokens;
+            total_offset += num_recv_tokens;
+            asm volatile("bar.sync %0, %1;" ::"r"(responsible_rank), "r"(num_threads_per_rank));
+            if (recv_warp_id_in_rank == num_recv_warps_per_rank - 1 and elect_one_sync())
+                st_relaxed_sys_global(channel_head_idx.buffer(), cached_channel_head_idx);
+
+            // Exit
+            num_tokens_to_recv -= num_recv_tokens;
+        }
+    }
+
+    // Clean unused `recv_topk_idx` as -1
+    if (num_worst_tokens > 0) {
+        auto rank_prefix_matrix = static_cast<int*>(buffer_ptrs[rank]);
+        const auto num_recv_tokens = rank_prefix_matrix[(kNumRanks - 1) * kNumRanks + rank];
+        const auto clean_start = num_recv_tokens * num_topk + sm_id * kNumThreads;
+        const auto clean_end = num_worst_tokens * num_topk;
+        const auto clean_stride = num_sms * kNumThreads;
+        #pragma unroll
+        for (int i = clean_start + thread_id; i < clean_end; i += clean_stride)
+            recv_topk_idx[i] = -1;
+    }
+}
+
+void dispatch(void* recv_x,
+              float* recv_x_scales,
+              int* recv_src_idx,
+              topk_idx_t* recv_topk_idx,
+              float* recv_topk_weights,
+              int* recv_channel_offset,
+              int* send_head,
+              const void* x,
+              const float* x_scales,
+              const topk_idx_t* topk_idx,
+              const float* topk_weights,
+              const bool* is_token_in_rank,
+              const int* channel_prefix_matrix,
+              int num_tokens,
+              int num_worst_tokens,
+              int hidden_int4,
+              int num_topk,
+              int num_experts,
+              int num_scales,
+              int scale_token_stride,
+              int scale_hidden_stride,
+              void** buffer_ptrs,
+              int rank,
+              int num_ranks,
+              cudaStream_t stream,
+              int num_sms,
+              int num_max_send_tokens,
+              int num_recv_buffer_tokens) {
+    constexpr int kNumThreads = 768;
+    constexpr int kNumTMABytesPerWarp = 8192;
+#ifndef DISABLE_SM90_FEATURES
+    constexpr int smem_size = kNumTMABytesPerWarp * (kNumThreads / 32);
+#endif
+
+    // Make sure never OOB
+    EP_HOST_ASSERT(static_cast<int64_t>(num_scales) * scale_hidden_stride < std::numeric_limits<int>::max());
+
+#define DISPATCH_LAUNCH_CASE(ranks)                                      \
+    {                                                                    \
+        auto kernel = dispatch<ranks, kNumThreads, kNumTMABytesPerWarp>; \
+        SET_SHARED_MEMORY_FOR_TMA(kernel);                               \
+        LAUNCH_KERNEL(&cfg,                                              \
+                      kernel,                                            \
+                      reinterpret_cast<int4*>(recv_x),                   \
+                      recv_x_scales,                                     \
+                      recv_src_idx,                                      \
+                      recv_topk_idx,                                     \
+                      recv_topk_weights,                                 \
+                      recv_channel_offset,                               \
+                      send_head,                                         \
+                      reinterpret_cast<const int4*>(x),                  \
+                      x_scales,                                          \
+                      topk_idx,                                          \
+                      topk_weights,                                      \
+                      is_token_in_rank,                                  \
+                      channel_prefix_matrix,                             \
+                      num_tokens,                                        \
+                      num_worst_tokens,                                  \
+                      hidden_int4,                                       \
+                      num_topk,                                          \
+                      num_experts,                                       \
+                      num_scales,                                        \
+                      scale_token_stride,                                \
+                      scale_hidden_stride,                               \
+                      buffer_ptrs,                                       \
+                      rank,                                              \
+                      num_max_send_tokens,                               \
+                      num_recv_buffer_tokens);                           \
+    }                                                                    \
+    break
+
+    // Even-numbered blocks for sending, odd-numbered blocks for receiving.
+    EP_HOST_ASSERT(num_sms % 2 == 0);
+    SETUP_LAUNCH_CONFIG(num_sms, kNumThreads, stream);
+    SWITCH_RANKS(DISPATCH_LAUNCH_CASE);
+#undef DISPATCH_LAUNCH_CASE
+}
+
+template <int kNumRanks>
+__global__ void cached_notify_combine(
+    void** buffer_ptrs, int* send_head, int num_channels, int num_recv_tokens, int num_memset_int, int** barrier_signal_ptrs, int rank) {
+    const auto sm_id = static_cast<int>(blockIdx.x);
+    if (sm_id == 0) {
+        // Barrier before cleaning
+        barrier_block<kNumRanks, true>(barrier_signal_ptrs, rank);
+
+        // Clean
+        auto thread_id = static_cast<int>(threadIdx.x), num_threads = static_cast<int>(blockDim.x);
+        auto ptr = static_cast<int*>(buffer_ptrs[rank]);
+        #pragma unroll
+        for (int i = thread_id; i < num_memset_int; i += num_threads)
+            ptr[i] = 0;
+
+        // Barrier after cleaning
+        barrier_block<kNumRanks>(barrier_signal_ptrs, rank);
+    } else {
+        const auto channel_id = sm_id - 1;
+        const auto thread_id = static_cast<int>(threadIdx.x);
+        const auto rank_id = thread_id / 32;
+        const auto lane_id = thread_id % 32;
+        if (rank_id >= kNumRanks)
+            return;
+
+        int token_start_idx, token_end_idx;
+        get_channel_task_range(num_recv_tokens, num_channels, channel_id, token_start_idx, token_end_idx);
+
+        // NOTES: `1 << 25` is a heuristic large number
+        int last_head = 1 << 25;
+        #pragma unroll
+        for (int token_idx_tail = token_end_idx - 1; token_idx_tail >= token_start_idx; token_idx_tail -= 32) {
+            int token_idx = token_idx_tail - lane_id, expected_head = 0;
+            auto current_head = (token_idx >= token_start_idx) ? __ldg(send_head + token_idx * kNumRanks + rank_id) : -1;
+            for (int i = 0; i < min(32, token_idx_tail - token_start_idx + 1); ++i) {
+                const int head = __shfl_sync(0xffffffff, current_head, i);
+                if (head < 0) {
+                    if (lane_id == i)
+                        expected_head = -last_head - 1;
+                } else {
+                    last_head = head;
+                }
+            }
+            if (current_head < 0 and token_idx >= token_start_idx)
+                send_head[token_idx * kNumRanks + rank_id] = expected_head;
+        }
+    }
+}
+
+void cached_notify_combine(void** buffer_ptrs,
+                           int* send_head,
+                           int num_channels,
+                           int num_recv_tokens,
+                           int num_memset_int,
+                           int** barrier_signal_ptrs,
+                           int rank,
+                           int num_ranks,
+                           cudaStream_t stream) {
+#define CACHED_NOTIFY_COMBINE(ranks)            \
+    LAUNCH_KERNEL(&cfg,                         \
+                  cached_notify_combine<ranks>, \
+                  buffer_ptrs,                  \
+                  send_head,                    \
+                  num_channels,                 \
+                  num_recv_tokens,              \
+                  num_memset_int,               \
+                  barrier_signal_ptrs,          \
+                  rank);                        \
+    break
+
+    const int num_threads = std::max(128, 32 * num_ranks);
+    EP_HOST_ASSERT(num_ranks <= num_threads);
+    EP_HOST_ASSERT(num_threads <= 1024);
+    EP_HOST_ASSERT(1 + num_channels <= num_channels * 2);
+    SETUP_LAUNCH_CONFIG(1 + num_channels, num_threads, stream);
+    SWITCH_RANKS(CACHED_NOTIFY_COMBINE);
+#undef CACHED_NOTIFY_COMBINE
+}
+
+template <typename dtype_t, int kNumRanks, int kNumThreads, int kNumTMABytesPerWarp>
+__global__ void __launch_bounds__(kNumThreads, 1) combine(dtype_t* recv_x,
+                                                          float* recv_topk_weights,
+                                                          const dtype_t* x,
+                                                          const float* topk_weights,
+                                                          const dtype_t* bias_0,
+                                                          const dtype_t* bias_1,
+                                                          const int* src_idx,
+                                                          const int* rank_prefix_matrix,
+                                                          const int* channel_prefix_matrix,
+                                                          int* send_head,
+                                                          int num_tokens,
+                                                          int num_recv_tokens,
+                                                          int hidden,
+                                                          int num_topk,
+                                                          void** buffer_ptrs,
+                                                          int rank,
+                                                          int num_max_send_tokens,
+                                                          int num_recv_buffer_tokens) {
+    const auto num_sms = static_cast<int>(gridDim.x);
+    const auto thread_id = static_cast<int>(threadIdx.x);
+    const auto sm_id = static_cast<int>(blockIdx.x), lane_id = get_lane_id();
+    const auto num_channels = num_sms / 2;
+    const bool is_sender = sm_id % 2 == 0;
+    const int responsible_channel = sm_id / 2;
+    EP_DEVICE_ASSERT(num_topk <= 32);
+
+    constexpr int kDtypePerInt4 = sizeof(int4) / sizeof(dtype_t);
+    int hidden_int4 = hidden * sizeof(dtype_t) / sizeof(int4);
+    int hidden_int4_aligned = align_down(hidden_int4, 32);
+    auto x_int4 = reinterpret_cast<const int4*>(x);
+    auto bias_0_int4 = reinterpret_cast<const int4*>(bias_0);
+    auto bias_1_int4 = reinterpret_cast<const int4*>(bias_1);
+    auto recv_int4 = reinterpret_cast<int4*>(recv_x);
+
+    // TMA stuffs
+#ifndef DISABLE_SM90_FEATURES
+    extern __shared__ __align__(1024) uint8_t smem_buffer[];
+    auto tma_buffer = smem_buffer + (thread_id / 32) * kNumTMABytesPerWarp;
+#endif
+
+    if (is_sender) {
+        // Workers for sending
+        // Several warps are responsible for a single rank
+        constexpr int num_send_warps_per_rank = (kNumThreads / 32) / kNumRanks;
+        constexpr int num_send_warps = num_send_warps_per_rank * kNumRanks;
+        const auto num_threads_per_rank = num_send_warps_per_rank * 32;
+        const auto send_thread_id = thread_id;
+        const auto send_warp_id = send_thread_id / 32;
+        const auto send_rank_id = (responsible_channel + send_warp_id) % kNumRanks;
+        const auto send_warp_id_in_rank = send_warp_id / kNumRanks;
+        EP_STATIC_ASSERT(num_send_warps * 32 == kNumThreads, "Invalid warp count");
+
+        // Calculate pointers by the specific layout
+        auto ptr = reinterpret_cast<void*>(static_cast<int8_t*>(buffer_ptrs[send_rank_id]));
+        auto num_channels_total = num_channels * kNumRanks;
+        auto channel_rank_offset = responsible_channel * kNumRanks + rank;
+
+        // Channel meta data
+        // `head_idx`: kNumChannels * kNumRanks * sizeof(int)
+        // `tail_idx`: kNumChannels * kNumRanks * sizeof(int)
+        // `x_buffers`: kNumChannels * kNumRanks * num_recv_buffer_tokens * hidden_int4 * sizeof(int4)
+        // `src_idx_buffers`: kNumChannels * kNumRanks * num_recv_buffer_tokens * sizeof(int)
+        // `topk_weights_buffers`: kNumChannels * kNumRanks * num_recv_buffer_tokens * num_topk * sizeof(float)
+        auto channel_head_idx = Buffer<int>(ptr, num_channels_total, channel_rank_offset);
+        auto channel_tail_idx = Buffer<int>(ptr, num_channels_total, channel_rank_offset);
+        auto channel_x_buffers = Buffer<int4>(
+            ptr, num_channels_total * num_recv_buffer_tokens * hidden_int4, channel_rank_offset * num_recv_buffer_tokens * hidden_int4);
+        auto channel_src_idx_buffers =
+            Buffer<int>(ptr, num_channels_total * num_recv_buffer_tokens, channel_rank_offset * num_recv_buffer_tokens);
+        auto channel_topk_weights_buffers = Buffer<float>(
+            ptr, num_channels_total * num_recv_buffer_tokens * num_topk, channel_rank_offset * num_recv_buffer_tokens * num_topk);
+
+        // Get tasks
+        // NOTES: `channel_offset` is already shifted
+        int rank_offset = send_rank_id > 0 ? rank_prefix_matrix[(send_rank_id - 1) * kNumRanks + rank] : 0;
+        int num_rank_tokens = rank_prefix_matrix[send_rank_id * kNumRanks + rank] - rank_offset;
+        int channel_offset = channel_prefix_matrix[send_rank_id * num_channels + responsible_channel];
+        int num_channel_tokens =
+            (responsible_channel == num_channels - 1 ? num_rank_tokens
+                                                     : channel_prefix_matrix[send_rank_id * num_channels + responsible_channel + 1]) -
+            channel_offset;
+        int token_start_idx = rank_offset + channel_offset, token_end_idx = rank_offset + channel_offset + num_channel_tokens;
+
+        // Iterate over all tokens and send by chunks
+        int current_channel_tail_idx = 0;
+        for (int64_t token_idx = token_start_idx; token_idx < token_end_idx;) {
+            // Check destination queue emptiness, or wait a buffer to be released (rare cases)
+            auto start_time = clock64();
+            int num_round_tokens = min(num_max_send_tokens, token_end_idx - static_cast<int>(token_idx));
+            if (elect_one_sync()) {
+                while (true) {
+                    // NOTES: we only consider the worst case, because counting the real numbers are time-consuming
+                    int num_used_slots = current_channel_tail_idx - ld_volatile_global(channel_head_idx.buffer());
+                    if (num_recv_buffer_tokens - num_used_slots >= num_round_tokens)
+                        break;
+
+                    // Rare cases to loop again
+                    if (clock64() - start_time > NUM_TIMEOUT_CYCLES) {
+                        printf("DeepEP timeout for combine senders, rank %d, responsible_channel = %d\n", rank, responsible_channel);
+                        trap();
+                    }
+                }
+            }
+            __syncwarp();
+
+            // Send by chunk
+            #pragma unroll
+            for (int i = send_warp_id_in_rank; i < num_round_tokens; i += num_send_warps_per_rank) {
+                // Get an empty slot
+                int dst_slot_idx = (current_channel_tail_idx + i) % num_recv_buffer_tokens;
+
+                // Copy data
+                auto shifted_x_buffers = channel_x_buffers.buffer() + dst_slot_idx * hidden_int4;
+                auto shifted_x = x_int4 + (token_idx + i) * hidden_int4;
+                UNROLLED_WARP_COPY(4, lane_id, hidden_int4, shifted_x_buffers, shifted_x, ld_nc_global, st_na_global);
+
+                // Send source index
+                if (elect_one_sync())
+                    channel_src_idx_buffers[dst_slot_idx] = __ldg(src_idx + token_idx + i);
+
+                // Send `topk_weights`
+                if (num_topk > 0 and lane_id < num_topk)
+                    channel_topk_weights_buffers[dst_slot_idx * num_topk + lane_id] =
+                        __ldg(topk_weights + (token_idx + i) * num_topk + lane_id);
+            }
+            token_idx += num_round_tokens;
+            current_channel_tail_idx += num_round_tokens;
+
+            // Move tail index
+            asm volatile("bar.sync %0, %1;" ::"r"(send_rank_id), "r"(num_threads_per_rank));
+            if (send_warp_id_in_rank == 0 and elect_one_sync())
+                st_release_sys_global(channel_tail_idx.buffer(), current_channel_tail_idx);
+        }
+    } else {
+        // Workers for receiving
+        // One warp for moving the queue head, others for reduction
+        constexpr int num_recv_warps = kNumThreads / 32;
+        const auto recv_warp_id = thread_id / 32;
+        EP_DEVICE_ASSERT(kNumRanks <= 32 and kNumThreads > 32);
+        EP_DEVICE_ASSERT(thread_id >= 0 and kNumThreads % 32 == 0);
+
+        // Shared head, tail and retired flags for receiver warps
+        __shared__ volatile int warp_channel_head_idx[num_recv_warps][kNumRanks];
+        __shared__ volatile int channel_tail_idx[kNumRanks];
+        __shared__ volatile bool warp_retired[num_recv_warps];
+        if (thread_id < num_recv_warps)
+            warp_retired[thread_id] = false;
+        if (lane_id < kNumRanks)
+            warp_channel_head_idx[recv_warp_id][lane_id] = 0;
+        if (thread_id < kNumRanks)
+            channel_tail_idx[thread_id] = 0;
+        asm volatile("bar.sync 0, %0;" ::"r"(kNumThreads));
+
+        if (thread_id < 32) {
+            int* channel_head_idx_ptr = static_cast<int*>(buffer_ptrs[rank]) + responsible_channel * kNumRanks + lane_id;
+            int* channel_tail_idx_ptr = channel_head_idx_ptr + num_channels * kNumRanks;
+
+            // Queue head updater
+            int last_head = 0;
+            while (lane_id < kNumRanks) {
+                // Check retired
+                bool retired = true;
+                #pragma unroll
+                for (int i = 1; i < num_recv_warps; ++i)
+                    retired = retired and warp_retired[i];
+                if (retired)
+                    break;
+
+                // Update queue tail
+                channel_tail_idx[lane_id] = ld_acquire_sys_global(channel_tail_idx_ptr);
+
+                // Update minimum head
+                int min_head = std::numeric_limits<int>::max();
+                #pragma unroll
+                for (int i = 1; i < num_recv_warps; ++i)
+                    if (not warp_retired[i])
+                        min_head = min(min_head, warp_channel_head_idx[i][lane_id]);
+                if (min_head != std::numeric_limits<int>::max() and min_head > last_head)
+                    st_relaxed_sys_global(channel_head_idx_ptr, last_head = min_head);
+            }
+        } else {
+            // Receivers
+            // Channel metadata
+            // All lanes will use data buffer, but only rank lane will use `head/tail/src_idx`
+            Buffer<int4> channel_x_buffers[kNumRanks];
+            Buffer<float> channel_topk_weights_buffers[kNumRanks];
+
+            // Calculate pointers by the specific layout
+            #pragma unroll
+            for (int i = 0; i < kNumRanks; ++i) {
+                auto channel_rank_offset = responsible_channel * kNumRanks + i;
+                auto num_channels_total = num_channels * kNumRanks;
+                // `head_idx` & `tail_idx`: kNumChannels * kNumRanks * sizeof(int)
+                auto ptr = reinterpret_cast<void*>(static_cast<int8_t*>(buffer_ptrs[rank]) + 2 * num_channels * kNumRanks * sizeof(int));
+
+                // `x_buffers`: kNumChannels * kNumRanks * num_recv_buffer_tokens * hidden_int4 * sizeof(int4)
+                channel_x_buffers[i] = Buffer<int4>(ptr,
+                                                    num_channels_total * num_recv_buffer_tokens * hidden_int4,
+                                                    channel_rank_offset * num_recv_buffer_tokens * hidden_int4);
+
+                // `src_idx_buffers`: kNumChannels * kNumRanks * num_recv_buffer_tokens * sizeof(int)
+                ptr = reinterpret_cast<void*>(static_cast<int8_t*>(ptr) + num_channels_total * num_recv_buffer_tokens * sizeof(int));
+
+                // `topk_weights_buffers`: kNumChannels * kNumRanks * num_recv_buffer_tokens * num_topk * sizeof(float)
+                channel_topk_weights_buffers[i] = Buffer<float>(
+                    ptr, num_channels_total * num_recv_buffer_tokens * num_topk, channel_rank_offset * num_recv_buffer_tokens * num_topk);
+            }
+
+            // The same tokens as the dispatch process
+            int token_start_idx, token_end_idx;
+            get_channel_task_range(num_recv_tokens, num_channels, responsible_channel, token_start_idx, token_end_idx);
+
+            // Iterate over all tokens and combine
+            for (int64_t token_idx = token_start_idx + recv_warp_id - 1; token_idx < token_end_idx; token_idx += num_recv_warps - 1) {
+                // Read expected head
+                int expected_head = -1;
+                if (lane_id < kNumRanks)
+                    expected_head = ld_nc_global(send_head + token_idx * kNumRanks + lane_id);
+
+                auto start_time = clock64();
+                while (__any_sync(0xffffffff, channel_tail_idx[lane_id] <= expected_head and expected_head >= 0)) {
+                    // Timeout check
+                    if (clock64() - start_time > NUM_TIMEOUT_CYCLES) {
+                        printf("DeepEP timeout for combine receivers, rank %d, responsible_channel = %d, expect = %d\n",
+                               rank,
+                               responsible_channel,
+                               expected_head);
+                        trap();
+                    }
+                }
+                __syncwarp();
+
+                // Broadcast current heads
+                int num_topk_ranks = 0, topk_ranks[kNumRanks], slot_indices[kNumRanks];
+                #pragma unroll
+                for (int i = 0; i < kNumRanks; ++i) {
+                    auto expected_head_i = __shfl_sync(0xffffffff, expected_head, i);
+                    if (expected_head_i >= 0) {
+                        slot_indices[num_topk_ranks] = expected_head_i % num_recv_buffer_tokens;
+                        topk_ranks[num_topk_ranks++] = i;
+                    }
+                }
+
+                // Wait shared memory release
+#ifndef DISABLE_SM90_FEATURES
+                tma_store_wait<0>();
+                __syncwarp();
+#endif
+
+                // Reduce data with pipeline
+                constexpr int kNumStages = 8;
+                EP_STATIC_ASSERT(kNumStages * 32 * sizeof(int4) <= kNumTMABytesPerWarp, "Invalid count");
+                #pragma unroll
+                for (int i = lane_id; i < hidden_int4; i += 32) {
+                    // Read bias
+                    // TODO: make it as a template
+                    int4 bias_0_value_int4 =
+                        bias_0_int4 != nullptr ? __ldg(bias_0_int4 + token_idx * hidden_int4 + i) : make_int4(0, 0, 0, 0);
+                    int4 bias_1_value_int4 =
+                        bias_1_int4 != nullptr ? __ldg(bias_1_int4 + token_idx * hidden_int4 + i) : make_int4(0, 0, 0, 0);
+
+                    // Read buffers
+                    int4 recv_value_int4[kNumRanks];
+                    #pragma unroll
+                    for (int j = 0; j < num_topk_ranks; ++j)
+                        recv_value_int4[j] = ld_nc_global(channel_x_buffers[topk_ranks[j]].buffer() + slot_indices[j] * hidden_int4 + i);
+
+                    // Reduce bias
+                    float values[kDtypePerInt4];
+                    auto bias_0_values = reinterpret_cast<const dtype_t*>(&bias_0_value_int4);
+                    auto bias_1_values = reinterpret_cast<const dtype_t*>(&bias_1_value_int4);
+                    #pragma unroll
+                    for (int j = 0; j < kDtypePerInt4; ++j)
+                        values[j] = static_cast<float>(bias_0_values[j]) + static_cast<float>(bias_1_values[j]);
+
+                    // Reduce all-to-all results
+                    #pragma unroll
+                    for (int j = 0; j < num_topk_ranks; ++j) {
+                        auto recv_value_dtypes = reinterpret_cast<const dtype_t*>(&recv_value_int4[j]);
+                        #pragma unroll
+                        for (int k = 0; k < kDtypePerInt4; ++k)
+                            values[k] += static_cast<float>(recv_value_dtypes[k]);
+                    }
+
+                    // Cast back to `dtype_t`
+                    int4 out_int4;
+                    auto out_dtypes = reinterpret_cast<dtype_t*>(&out_int4);
+                    #pragma unroll
+                    for (int j = 0; j < kDtypePerInt4; ++j)
+                        out_dtypes[j] = static_cast<dtype_t>(values[j]);
+
+#ifndef DISABLE_SM90_FEATURES
+                    if (i < hidden_int4_aligned) {
+                        // Wait TMA arrival
+                        tma_store_wait<kNumStages - 1>();
+                        __syncwarp();
+
+                        // Write into TMA buffer
+                        auto tma_stage_idx = (i / 32) % kNumStages;
+                        reinterpret_cast<int4*>(tma_buffer)[tma_stage_idx * 32 + lane_id] = out_int4;
+
+                        // Issue TMA
+                        tma_store_fence();
+                        __syncwarp();
+                        if (elect_one_sync()) {
+                            auto tma_bytes = min(32, hidden_int4 - i) * static_cast<int>(sizeof(int4));
+                            tma_store_1d(reinterpret_cast<int4*>(tma_buffer) + tma_stage_idx * 32,
+                                         recv_int4 + token_idx * hidden_int4 + i,
+                                         tma_bytes,
+                                         false);
+                        }
+                        __syncwarp();
+                    } else {
+#endif
+                        recv_int4[token_idx * hidden_int4 + i] = out_int4;
+#ifndef DISABLE_SM90_FEATURES
+                    }
+#endif
+                }
+
+                // Reduce `topk_weights`
+                if (lane_id < num_topk) {
+                    float value = 0;
+                    #pragma unroll
+                    for (int i = 0; i < num_topk_ranks; ++i)
+                        value += ld_nc_global(channel_topk_weights_buffers[topk_ranks[i]].buffer() + slot_indices[i] * num_topk + lane_id);
+                    recv_topk_weights[token_idx * num_topk + lane_id] = value;
+                }
+
+                // Update head
+                if (lane_id < kNumRanks)
+                    warp_channel_head_idx[recv_warp_id][lane_id] = (expected_head < 0) ? -expected_head - 1 : expected_head + 1;
+            }
+
+            // Retired
+            __syncwarp();
+            if (elect_one_sync())
+                warp_retired[recv_warp_id] = true;
+        }
+    }
+}
+
+void combine(cudaDataType_t type,
+             void* recv_x,
+             float* recv_topk_weights,
+             const void* x,
+             const float* topk_weights,
+             const void* bias_0,
+             const void* bias_1,
+             const int* src_idx,
+             const int* rank_prefix_matrix,
+             const int* channel_prefix_matrix,
+             int* send_head,
+             int num_tokens,
+             int num_recv_tokens,
+             int hidden,
+             int num_topk,
+             void** buffer_ptrs,
+             int rank,
+             int num_ranks,
+             cudaStream_t stream,
+             int num_sms,
+             int num_max_send_tokens,
+             int num_recv_buffer_tokens) {
+    constexpr int kNumThreads = 768;
+    constexpr int kNumTMABytesPerWarp = 4096;
+#ifndef DISABLE_SM90_FEATURES
+    constexpr int smem_size = kNumTMABytesPerWarp * (kNumThreads / 32);
+#endif
+
+#define COMBINE_LAUNCH_CASE(dtype, ranks)                                      \
+    {                                                                          \
+        auto kernel = combine<dtype, ranks, kNumThreads, kNumTMABytesPerWarp>; \
+        SET_SHARED_MEMORY_FOR_TMA(kernel);                                     \
+        LAUNCH_KERNEL(&cfg,                                                    \
+                      kernel,                                                  \
+                      reinterpret_cast<dtype*>(recv_x),                        \
+                      recv_topk_weights,                                       \
+                      reinterpret_cast<const dtype*>(x),                       \
+                      topk_weights,                                            \
+                      reinterpret_cast<const dtype*>(bias_0),                  \
+                      reinterpret_cast<const dtype*>(bias_1),                  \
+                      src_idx,                                                 \
+                      rank_prefix_matrix,                                      \
+                      channel_prefix_matrix,                                   \
+                      send_head,                                               \
+                      num_tokens,                                              \
+                      num_recv_tokens,                                         \
+                      hidden,                                                  \
+                      num_topk,                                                \
+                      buffer_ptrs,                                             \
+                      rank,                                                    \
+                      num_max_send_tokens,                                     \
+                      num_recv_buffer_tokens);                                 \
+    }                                                                          \
+    break
+#define COMBINE_DTYPE_LAUNCH_CASE(dtype)                 \
+    SWITCH_RANKS_WITH_DTYPE(dtype, COMBINE_LAUNCH_CASE); \
+    break
+
+    // Even-numbered blocks for sending, odd-numbered blocks for receiving
+    EP_HOST_ASSERT(num_sms % 2 == 0);
+    EP_HOST_ASSERT(kNumThreads >= num_ranks * 32);
+    SETUP_LAUNCH_CONFIG(num_sms, kNumThreads, stream);
+    SWITCH_TYPES(COMBINE_DTYPE_LAUNCH_CASE);
+#undef COMBINE_DTYPE_LAUNCH_CASE
+#undef COMBINE_LAUNCH_CASE
+}
+
+}  // namespace intranode
+
+}  // namespace deep_ep
+
+// clang-format on
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/launch.cuh b/src/turbomind/comm/nccl/deep_ep/kernels/launch.cuh
new file mode 100644
index 0000000000..0ed8edcb3c
--- /dev/null
+++ b/src/turbomind/comm/nccl/deep_ep/kernels/launch.cuh
@@ -0,0 +1,138 @@
+// clang-format off
+#pragma once
+
+#include "configs.cuh"
+#include "exception.cuh"
+
+#ifndef SETUP_LAUNCH_CONFIG
+#ifndef DISABLE_SM90_FEATURES
+#define SETUP_LAUNCH_CONFIG(num_sms, num_threads, stream)                       \
+    cudaLaunchConfig_t cfg = {(num_sms), (num_threads), 0, stream, nullptr, 0}; \
+    cudaLaunchAttribute attr[2];                                                \
+    attr[0].id = cudaLaunchAttributeCooperative;                                \
+    attr[0].val.cooperative = 1;                                                \
+    attr[1].id = cudaLaunchAttributeClusterDimension;                           \
+    attr[1].val.clusterDim.x = (num_sms % 2 == 0 ? 2 : 1);                      \
+    attr[1].val.clusterDim.y = 1;                                               \
+    attr[1].val.clusterDim.z = 1;                                               \
+    cfg.attrs = attr;                                                           \
+    cfg.numAttrs = 2
+#else
+#define SETUP_LAUNCH_CONFIG(sms, threads, stream) \
+    int __num_sms = (sms);                        \
+    int __num_threads = (threads);                \
+    auto __stream = (stream)
+#endif
+#endif
+
+#ifndef LAUNCH_KERNEL
+#ifndef DISABLE_SM90_FEATURES
+#define LAUNCH_KERNEL(config, kernel, ...) CUDA_CHECK(cudaLaunchKernelEx(config, kernel, ##__VA_ARGS__))
+#else
+#define LAUNCH_KERNEL(config, kernel, ...)                                                 \
+    do {                                                                                   \
+        kernel<<<__num_sms, __num_threads, 0, __stream>>>(__VA_ARGS__);                    \
+        cudaError_t e = cudaGetLastError();                                                \
+        if (e != cudaSuccess) {                                                            \
+            EPException cuda_exception("CUDA", __FILE__, __LINE__, cudaGetErrorString(e)); \
+            fprintf(stderr, "%s\n", cuda_exception.what());                                \
+            throw cuda_exception;                                                          \
+        }                                                                                  \
+    } while (0)
+#endif
+#endif
+
+#ifndef SET_SHARED_MEMORY_FOR_TMA
+#ifndef DISABLE_SM90_FEATURES
+#define SET_SHARED_MEMORY_FOR_TMA(kernel)                                                                                \
+    EP_HOST_ASSERT(cudaFuncSetAttribute(kernel, cudaFuncAttributeMaxDynamicSharedMemorySize, smem_size) == cudaSuccess); \
+    cfg.dynamicSmemBytes = smem_size;
+#else
+#define SET_SHARED_MEMORY_FOR_TMA(kernel) void()
+#endif
+#endif
+
+#define SWITCH_RANKS(case_macro)                           \
+    switch (num_ranks) {                                   \
+        case 2:                                            \
+            case_macro(2);                                 \
+        case 4:                                            \
+            case_macro(4);                                 \
+        case 8:                                            \
+            case_macro(8);                                 \
+        default:                                           \
+            EP_HOST_ASSERT(false and "Unsupported ranks"); \
+    }                                                      \
+    while (false)
+
+#define SWITCH_RDMA_RANKS(case_macro)                           \
+    switch (num_ranks / NUM_MAX_NVL_PEERS) {                    \
+        case 2:                                                 \
+            case_macro(2);                                      \
+        case 3:                                                 \
+            case_macro(3);                                      \
+        case 4:                                                 \
+            case_macro(4);                                      \
+        case 6:                                                 \
+            case_macro(6);                                      \
+        case 8:                                                 \
+            case_macro(8);                                      \
+        case 12:                                                \
+            case_macro(12);                                     \
+        case 16:                                                \
+            case_macro(16);                                     \
+        case 18:                                                \
+            case_macro(18);                                     \
+        case 20:                                                \
+            case_macro(20);                                     \
+        default:                                                \
+            EP_HOST_ASSERT(false and "Unsupported RDMA ranks"); \
+    }                                                           \
+    while (false)
+
+#define SWITCH_RANKS_WITH_DTYPE(dtype, case_macro)         \
+    switch (num_ranks) {                                   \
+        case 2:                                            \
+            case_macro(dtype, 2);                          \
+        case 4:                                            \
+            case_macro(dtype, 4);                          \
+        case 8:                                            \
+            case_macro(dtype, 8);                          \
+        default:                                           \
+            EP_HOST_ASSERT(false and "Unsupported ranks"); \
+    }                                                      \
+    while (false)
+
+#define SWITCH_TYPES(case_macro)                          \
+    switch (type) {                                       \
+        case CUDA_R_16BF:                                 \
+            case_macro(nv_bfloat16);                      \
+        default:                                          \
+            EP_HOST_ASSERT(false and "Unsupported type"); \
+    }                                                     \
+    while (false)
+
+#define SWITCH_HIDDEN(case_macro)                           \
+    switch (hidden) {                                       \
+        case 2048:                                          \
+            case_macro(2048);                               \
+        case 2560:                                          \
+            case_macro(2560);                               \
+        case 3072:                                          \
+            case_macro(3072); /* for gpt-oss */             \
+        case 4096:                                          \
+            case_macro(4096);                               \
+        case 5120:                                          \
+            case_macro(5120);                               \
+        case 6144:                                          \
+            case_macro(6144); /* For qwen3 coder */         \
+        case 7168:                                          \
+            case_macro(7168);                               \
+        case 8192:                                          \
+            case_macro(8192);                               \
+        default:                                            \
+            EP_HOST_ASSERT(false and "Unsupported hidden"); \
+    }                                                       \
+    while (false)
+
+// clang-format on
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/layout.cu b/src/turbomind/comm/nccl/deep_ep/kernels/layout.cu
new file mode 100644
index 0000000000..c3a16aed84
--- /dev/null
+++ b/src/turbomind/comm/nccl/deep_ep/kernels/layout.cu
@@ -0,0 +1,153 @@
+#include "configs.cuh"
+#include "exception.cuh"
+#include "launch.cuh"
+
+namespace deep_ep {
+
+namespace layout {
+
+template <int kNumThreads, int kNumExpertsPerSM, int kNumRanksPerSM>
+__global__ void get_dispatch_layout(const topk_idx_t* topk_idx,
+                                    int* num_tokens_per_rank,
+                                    int* num_tokens_per_rdma_rank,
+                                    int* num_tokens_per_expert,
+                                    bool* is_token_in_rank,
+                                    int num_tokens,
+                                    int num_topk,
+                                    int num_ranks,
+                                    int num_experts) {
+    auto sm_id = static_cast<int>(blockIdx.x);
+    auto thread_id = static_cast<int>(threadIdx.x);
+
+    // Count expert statistics
+    __shared__ int num_tokens_per_expert_per_thread[kNumThreads][kNumExpertsPerSM];
+    int expert_begin_idx = sm_id * kNumExpertsPerSM, expert_end_idx = min(expert_begin_idx + kNumExpertsPerSM, num_experts);
+    if (expert_begin_idx < expert_end_idx) {
+        // Per-thread count
+        #pragma unroll
+        for (int i = 0; i < kNumExpertsPerSM; ++i)
+            num_tokens_per_expert_per_thread[thread_id][i] = 0;
+        #pragma unroll
+        for (int i = thread_id; i < num_tokens; i += kNumThreads) {
+            auto shifted_topk_idx = topk_idx + i * num_topk;
+            #pragma unroll
+            for (int j = 0, expert_idx; j < num_topk; ++j) {
+                expert_idx = static_cast<int>(shifted_topk_idx[j]);
+                if (expert_begin_idx <= expert_idx and expert_idx < expert_end_idx)
+                    ++num_tokens_per_expert_per_thread[thread_id][expert_idx - expert_begin_idx];
+            }
+        }
+        __syncthreads();
+
+        // Sum up
+        EP_STATIC_ASSERT(kNumExpertsPerSM <= kNumThreads, "Too many experts per SM");
+        if (expert_begin_idx + thread_id < expert_end_idx) {
+            int sum = 0;
+            #pragma unroll
+            for (int i = 0; i < kNumThreads; ++i)
+                sum += num_tokens_per_expert_per_thread[i][thread_id];
+            num_tokens_per_expert[expert_begin_idx + thread_id] = sum;
+        }
+        return;
+    }
+
+    if (num_tokens_per_rdma_rank != nullptr)
+        EP_DEVICE_ASSERT(num_ranks % NUM_MAX_NVL_PEERS == 0 and num_ranks > NUM_MAX_NVL_PEERS);
+
+    // Count rank statistics
+    constexpr int kNumRDMARanksPerSM = kNumRanksPerSM / NUM_MAX_NVL_PEERS;
+    __shared__ int num_tokens_per_rank_per_thread[kNumThreads][kNumRanksPerSM];
+    __shared__ int num_tokens_per_rdma_rank_per_thread[kNumThreads][kNumRDMARanksPerSM];
+    auto sm_begin = (num_experts + kNumExpertsPerSM - 1) / kNumExpertsPerSM;
+    int rank_begin_idx = (sm_id - sm_begin) * kNumRanksPerSM, rank_end_idx = min(rank_begin_idx + kNumRanksPerSM, num_ranks);
+    int rdma_rank_begin_idx = rank_begin_idx / NUM_MAX_NVL_PEERS, rdma_rank_end_idx = rank_end_idx / NUM_MAX_NVL_PEERS;
+    if (rank_begin_idx < rank_end_idx) {
+        const auto num_expert_per_rank = num_experts / num_ranks;
+        auto expert_begin = rank_begin_idx * num_expert_per_rank;
+        auto expert_end = rank_end_idx * num_expert_per_rank;
+
+        // Per-thread count
+        #pragma unroll
+        for (int i = 0; i < kNumRanksPerSM; ++i)
+            num_tokens_per_rank_per_thread[thread_id][i] = 0;
+        #pragma unroll
+        for (int i = 0; i < kNumRDMARanksPerSM; ++i)
+            num_tokens_per_rdma_rank_per_thread[thread_id][i] = 0;
+        #pragma unroll
+        for (int i = thread_id; i < num_tokens; i += kNumThreads) {
+            auto shifted_topk_idx = topk_idx + i * num_topk;
+            int is_in_rank[kNumRanksPerSM] = {0}, is_in_rdma_rank[kNumRDMARanksPerSM] = {0};
+            #pragma unroll
+            for (int j = 0, expert_idx, rank_idx; j < num_topk; ++j) {
+                expert_idx = static_cast<int>(shifted_topk_idx[j]);
+                if (expert_begin <= expert_idx and expert_idx < expert_end) {
+                    // Count single rank
+                    rank_idx = expert_idx / num_expert_per_rank - rank_begin_idx;
+                    is_in_rank[rank_idx]++, is_in_rdma_rank[rank_idx / NUM_MAX_NVL_PEERS]++;
+                }
+            }
+
+            auto shifted_is_token_in_rank = is_token_in_rank + i * num_ranks;
+            #pragma unroll
+            for (int j = 0; j + rank_begin_idx < rank_end_idx; ++j) {
+                shifted_is_token_in_rank[j + rank_begin_idx] = (is_in_rank[j] > 0);
+                num_tokens_per_rank_per_thread[thread_id][j] += (is_in_rank[j] > 0);
+            }
+
+            #pragma unroll
+            for (int j = 0; j + rdma_rank_begin_idx < rdma_rank_end_idx; ++j)
+                num_tokens_per_rdma_rank_per_thread[thread_id][j] += (is_in_rdma_rank[j] > 0);
+        }
+        __syncthreads();
+
+        // Sum up
+        EP_STATIC_ASSERT(kNumRanksPerSM <= kNumThreads, "Too many ranks per SM");
+        if (rank_begin_idx + thread_id < rank_end_idx) {
+            int sum = 0;
+            #pragma unroll
+            for (int i = 0; i < kNumThreads; ++i)
+                sum += num_tokens_per_rank_per_thread[i][thread_id];
+            num_tokens_per_rank[rank_begin_idx + thread_id] = sum;
+        }
+
+        if (num_tokens_per_rdma_rank != nullptr and rdma_rank_begin_idx + thread_id < rdma_rank_end_idx) {
+            int sum = 0;
+            #pragma unroll
+            for (int i = 0; i < kNumThreads; ++i)
+                sum += num_tokens_per_rdma_rank_per_thread[i][thread_id];
+            num_tokens_per_rdma_rank[rdma_rank_begin_idx + thread_id] = sum;
+        }
+    }
+}
+
+void get_dispatch_layout(const topk_idx_t* topk_idx,
+                         int* num_tokens_per_rank,
+                         int* num_tokens_per_rdma_rank,
+                         int* num_tokens_per_expert,
+                         bool* is_token_in_rank,
+                         int num_tokens,
+                         int num_topk,
+                         int num_ranks,
+                         int num_experts,
+                         cudaStream_t stream) {
+    constexpr int kNumThreads = 256, kNumExpertsPerSM = 4, kNumRanksPerSM = 8;
+    int num_sms = ((num_experts + kNumExpertsPerSM - 1) / kNumExpertsPerSM) + (num_ranks + kNumRanksPerSM - 1) / kNumRanksPerSM;
+    EP_STATIC_ASSERT(kNumRanksPerSM % NUM_MAX_NVL_PEERS == 0, "Invalid number of ranks per SM");
+
+    SETUP_LAUNCH_CONFIG(num_sms, kNumThreads, stream);
+    LAUNCH_KERNEL(&cfg,
+                  (get_dispatch_layout<kNumThreads, kNumExpertsPerSM, kNumRanksPerSM>),
+                  topk_idx,
+                  num_tokens_per_rank,
+                  num_tokens_per_rdma_rank,
+                  num_tokens_per_expert,
+                  is_token_in_rank,
+                  num_tokens,
+                  num_topk,
+                  num_ranks,
+                  num_experts);
+}
+
+}  // namespace layout
+
+}  // namespace deep_ep
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/runtime.cu b/src/turbomind/comm/nccl/deep_ep/kernels/runtime.cu
new file mode 100644
index 0000000000..42b9789437
--- /dev/null
+++ b/src/turbomind/comm/nccl/deep_ep/kernels/runtime.cu
@@ -0,0 +1,96 @@
+#include <cstring>
+#include <vector>
+
+#include "configs.cuh"
+#include "exception.cuh"
+#include "launch.cuh"
+#include "src/turbomind/comm/nccl/deep_ep/gin_backend.h"
+#include "src/turbomind/core/check.h"
+#include "utils.cuh"
+
+#include <nccl.h>
+
+namespace deep_ep {
+namespace intranode {
+
+template<int kNumRanks>
+__global__ void barrier(int** barrier_signal_ptrs, int rank)
+{
+    barrier_block<kNumRanks>(barrier_signal_ptrs, rank);
+}
+
+void barrier(int** barrier_signal_ptrs, int rank, int num_ranks, cudaStream_t stream)
+{
+#define BARRIER_LAUNCH_CASE(ranks)                                                                                     \
+    LAUNCH_KERNEL(&cfg, barrier<ranks>, barrier_signal_ptrs, rank);                                                    \
+    break
+
+    SETUP_LAUNCH_CONFIG(1, 32, stream);
+    SWITCH_RANKS(BARRIER_LAUNCH_CASE);
+#undef BARRIER_LAUNCH_CASE
+}
+
+}  // namespace intranode
+
+namespace internode {
+
+std::vector<uint8_t> get_unique_id()
+{
+    std::vector<uint8_t> result;
+
+    int num_total_ids = NUM_MAX_NVL_PEERS;
+
+    // Generate unique IDs and pack them
+    for (int i = 0; i < num_total_ids; i++) {
+        ncclUniqueId unique_id;
+        NCCL_CHECK(ncclGetUniqueId(&unique_id));
+
+        size_t offset = result.size();
+        result.resize(offset + sizeof(ncclUniqueId));
+        std::memcpy(result.data() + offset, &unique_id, sizeof(ncclUniqueId));
+    }
+
+    return result;
+}
+
+int init(const std::vector<uint8_t>& root_unique_id_val,
+         int                         rank,
+         int                         num_ranks,
+         bool                        low_latency_mode,
+         int                         qps_per_rank,
+         NCCLGINBackend*             comm)
+{
+    TM_CHECK_NE(comm, nullptr);
+    TM_CHECK_EQ(comm->init(root_unique_id_val, rank, num_ranks, low_latency_mode, qps_per_rank), rank);
+
+    comm->barrier();
+    return comm->get_rank();
+}
+
+void* alloc(size_t size, size_t alignment, NCCLGINBackend* comm)
+{
+    return TM_CHECK_NOTNULL(comm)->alloc(size, alignment);
+}
+
+void register_memory(void* ptr, size_t size, NCCLGINBackend* comm)
+{
+    return TM_CHECK_NOTNULL(comm)->register_memory(ptr, size);
+}
+
+void free(void* ptr, NCCLGINBackend* comm)
+{
+    return TM_CHECK_NOTNULL(comm)->free(ptr);
+}
+
+void barrier(NCCLGINBackend* comm)
+{
+    return TM_CHECK_NOTNULL(comm)->barrier();
+}
+
+void finalize(NCCLGINBackend* comm)
+{
+    return TM_CHECK_NOTNULL(comm)->finalize();
+}
+
+}  // namespace internode
+}  // namespace deep_ep
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/utils.cuh b/src/turbomind/comm/nccl/deep_ep/kernels/utils.cuh
new file mode 100644
index 0000000000..0c2eec020e
--- /dev/null
+++ b/src/turbomind/comm/nccl/deep_ep/kernels/utils.cuh
@@ -0,0 +1,640 @@
+#pragma once
+
+#include "exception.cuh"
+
+#define UNROLLED_WARP_COPY(UNROLL_FACTOR, LANE_ID, N, DST, SRC, LD_FUNC, ST_FUNC)                                                     \
+    {                                                                                                                                 \
+        constexpr int kLoopStride = 32 * (UNROLL_FACTOR);                                                                             \
+        typename std::remove_reference<decltype(LD_FUNC((SRC) + 0))>::type unrolled_values[(UNROLL_FACTOR)];                          \
+        auto __src = (SRC);                                                                                                           \
+        auto __dst = (DST);                                                                                                           \
+        for (int __i = (LANE_ID); __i < ((N) / kLoopStride) * kLoopStride; __i += kLoopStride) {                                      \
+            _Pragma("unroll") for (int __j = 0; __j < (UNROLL_FACTOR); ++__j) unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
+            _Pragma("unroll") for (int __j = 0; __j < (UNROLL_FACTOR); ++__j) ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]);  \
+        }                                                                                                                             \
+        {                                                                                                                             \
+            int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID);                                                                  \
+            _Pragma("unroll") for (int __j = 0; __j < (UNROLL_FACTOR); ++__j) {                                                       \
+                if (__i + __j * 32 < (N)) {                                                                                           \
+                    unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32);                                                           \
+                }                                                                                                                     \
+            }                                                                                                                         \
+            _Pragma("unroll") for (int __j = 0; __j < (UNROLL_FACTOR); ++__j) {                                                       \
+                if (__i + __j * 32 < (N)) {                                                                                           \
+                    ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]);                                                            \
+                }                                                                                                                     \
+            }                                                                                                                         \
+        }                                                                                                                             \
+    }
+
+namespace deep_ep {
+
+template <int kBytes>
+struct VecInt {};
+template <>
+struct VecInt<1> {
+    using vec_t = int8_t;
+};
+template <>
+struct VecInt<2> {
+    using vec_t = int16_t;
+};
+template <>
+struct VecInt<4> {
+    using vec_t = int;
+};
+template <>
+struct VecInt<8> {
+    using vec_t = int64_t;
+};
+template <>
+struct VecInt<16> {
+    using vec_t = int4;
+};
+
+template <typename FuncT>
+struct PatternVisitor {
+    FuncT func;
+
+    __device__ __host__ explicit PatternVisitor(FuncT&& func) : func(std::forward<FuncT>(func)) {}
+
+    __device__ __host__ auto operator[](const uint32_t& i) { return func(i); }
+};
+
+__device__ __forceinline__ void trap() {
+    asm("trap;");
+}
+
+__device__ __forceinline__ void memory_fence() {
+    asm volatile("fence.acq_rel.sys;" ::: "memory");
+}
+
+__device__ __forceinline__ void memory_fence_gpu() {
+    asm volatile("fence.acq_rel.gpu;" ::: "memory");
+}
+
+__device__ __forceinline__ void memory_fence_cta() {
+    asm volatile("fence.acq_rel.cta;" ::: "memory");
+}
+
+__device__ __forceinline__ void st_relaxed_sys_global(const int* ptr, int val) {
+    asm volatile("st.relaxed.sys.global.s32 [%0], %1;" ::"l"(ptr), "r"(val) : "memory");
+}
+
+__device__ __forceinline__ void st_release_sys_global(const int* ptr, int val) {
+    asm volatile("st.release.sys.global.s32 [%0], %1;" ::"l"(ptr), "r"(val) : "memory");
+}
+
+__device__ __forceinline__ void st_release_cta(const int* ptr, int val) {
+    asm volatile("st.release.cta.s32 [%0], %1;" ::"l"(ptr), "r"(val) : "memory");
+}
+
+__device__ __forceinline__ int ld_acquire_sys_global(const int* ptr) {
+    int ret;
+    asm volatile("ld.acquire.sys.global.s32 %0, [%1];" : "=r"(ret) : "l"(ptr));
+    return ret;
+}
+
+__device__ __forceinline__ uint64_t ld_acquire_sys_global(const uint64_t* ptr) {
+    uint64_t ret;
+    asm volatile("ld.acquire.sys.global.u64 %0, [%1];" : "=l"(ret) : "l"(ptr));
+    return ret;
+}
+
+__device__ __forceinline__ int ld_acquire_global(const int* ptr) {
+    int ret;
+    asm volatile("ld.acquire.gpu.global.s32 %0, [%1];" : "=r"(ret) : "l"(ptr));
+    return ret;
+}
+
+__device__ __forceinline__ int atomic_add_release_sys_global(const int* ptr, int value) {
+    int ret;
+    asm volatile("atom.add.release.sys.global.s32 %0, [%1], %2;" : "=r"(ret) : "l"(ptr), "r"(value));
+    return ret;
+}
+
+__device__ __forceinline__ int atomic_add_release_global(const int* ptr, int value) {
+    int ret;
+    asm volatile("atom.add.release.gpu.global.s32 %0, [%1], %2;" : "=r"(ret) : "l"(ptr), "r"(value));
+    return ret;
+}
+
+__device__ __forceinline__ int ld_acquire_cta(const int* ptr) {
+    int ret;
+    asm volatile("ld.acquire.cta.s32 %0, [%1];" : "=r"(ret) : "l"(ptr));
+    return ret;
+}
+
+__device__ __forceinline__ uint8_t ld_na_relaxed(const uint8_t* ptr) {
+    uint16_t ret;
+    asm volatile("ld.relaxed.gpu.global.L1::no_allocate.b8 %0, [%1];" : "=h"(ret) : "l"(ptr));
+    return static_cast<uint8_t>(ret);
+}
+
+__device__ __forceinline__ uint16_t ld_na_relaxed(const uint16_t* ptr) {
+    uint16_t ret;
+    asm volatile("ld.relaxed.gpu.global.L1::no_allocate.b16 %0, [%1];" : "=h"(ret) : "l"(ptr));
+    return ret;
+}
+
+__device__ __forceinline__ uint32_t ld_na_relaxed(const uint32_t* ptr) {
+    uint32_t ret;
+    asm volatile("ld.relaxed.gpu.global.L1::no_allocate.b32 %0, [%1];" : "=r"(ret) : "l"(ptr));
+    return ret;
+}
+
+__device__ __forceinline__ uint64_t ld_na_relaxed(const uint64_t* ptr) {
+    uint64_t ret;
+    asm volatile("ld.relaxed.gpu.global.L1::no_allocate.b64 %0, [%1];" : "=l"(ret) : "l"(ptr));
+    return ret;
+}
+
+__device__ __forceinline__ int ld_volatile_global(const int* ptr) {
+    int ret;
+    asm volatile("ld.volatile.global.s32 %0, [%1];" : "=r"(ret) : "l"(ptr));
+    return ret;
+}
+
+__device__ __forceinline__ float ld_volatile_global(const float* ptr) {
+    float ret;
+    asm volatile("ld.volatile.global.f32 %0, [%1];" : "=f"(ret) : "l"(ptr));
+    return ret;
+}
+
+__device__ __forceinline__ int64_t ld_volatile_global(const int64_t* ptr) {
+    int64_t ret;
+    asm volatile("ld.volatile.global.s64 %0, [%1];" : "=l"(ret) : "l"(ptr));
+    return ret;
+}
+
+__device__ __forceinline__ int64_t ld_volatile_global(const uint64_t* ptr) {
+    int64_t ret;
+    asm volatile("ld.volatile.global.u64 %0, [%1];" : "=l"(ret) : "l"(ptr));
+    return ret;
+}
+
+#ifndef DISABLE_AGGRESSIVE_PTX_INSTRS
+#define LD_NC_FUNC "ld.global.nc.L1::no_allocate.L2::256B"
+#else
+#define LD_NC_FUNC "ld.volatile.global"
+#endif
+
+// `ld.global.nc.L1::no_allocate` will be translated into `LDG.E.NA.[width].CONSTANT` in SASS
+template <typename dtype_t>
+__device__ __forceinline__ dtype_t ld_nc_global(const dtype_t* ptr) {
+    auto ret = ld_nc_global(reinterpret_cast<const typename VecInt<sizeof(dtype_t)>::vec_t*>(ptr));
+    return *reinterpret_cast<dtype_t*>(&ret);
+}
+
+template <>
+__device__ __forceinline__ uint8_t ld_nc_global(const uint8_t* ptr) {
+    uint16_t ret;
+    // NOTES: we must use `uint16_t` as inline ASM does not support 8-bit constraint letter (`h` below means unsigned 16-bit)
+    asm volatile(LD_NC_FUNC ".u8 %0, [%1];" : "=h"(ret) : "l"(ptr));
+    return static_cast<uint8_t>(ret);
+}
+
+template <>
+__device__ __forceinline__ int ld_nc_global(const int* ptr) {
+    int ret;
+    asm volatile(LD_NC_FUNC ".s32 %0, [%1];" : "=r"(ret) : "l"(ptr));
+    return ret;
+}
+
+template <>
+__device__ __forceinline__ int64_t ld_nc_global(const int64_t* ptr) {
+    int64_t ret;
+    asm volatile(LD_NC_FUNC ".s64 %0, [%1];" : "=l"(ret) : "l"(ptr));
+    return ret;
+}
+
+template <>
+__device__ __forceinline__ float ld_nc_global(const float* ptr) {
+    float ret;
+    asm volatile(LD_NC_FUNC ".f32 %0, [%1];" : "=f"(ret) : "l"(ptr));
+    return ret;
+}
+
+template <>
+__device__ __forceinline__ int2 ld_nc_global(const int2* ptr) {
+    int2 ret;
+    asm volatile(LD_NC_FUNC ".v2.s32 {%0, %1}, [%2];" : "=r"(ret.x), "=r"(ret.y) : "l"(ptr));
+    return ret;
+}
+
+template <>
+__device__ __forceinline__ int4 ld_nc_global(const int4* ptr) {
+    int4 ret;
+    asm volatile(LD_NC_FUNC ".v4.s32 {%0, %1, %2, %3}, [%4];" : "=r"(ret.x), "=r"(ret.y), "=r"(ret.z), "=r"(ret.w) : "l"(ptr));
+    return ret;
+}
+
+__device__ __forceinline__ void st_na_relaxed(const uint8_t* ptr, uint8_t val) {
+    asm volatile("st.relaxed.gpu.global.L1::no_allocate.b8 [%0], %1;" : : "l"(ptr), "h"(static_cast<uint16_t>(val)));
+}
+
+__device__ __forceinline__ void st_na_relaxed(const uint16_t* ptr, uint16_t val) {
+    asm volatile("st.relaxed.gpu.global.L1::no_allocate.b16 [%0], %1;" : : "l"(ptr), "h"(val));
+}
+
+__device__ __forceinline__ void st_na_relaxed(const uint32_t* ptr, uint32_t val) {
+    asm volatile("st.relaxed.gpu.global.L1::no_allocate.b32 [%0], %1;" : : "l"(ptr), "r"(val));
+}
+
+__device__ __forceinline__ void st_na_relaxed(const int* ptr, int val) {
+    asm volatile("st.relaxed.gpu.global.L1::no_allocate.b32 [%0], %1;" : : "l"(ptr), "r"(val));
+}
+
+__device__ __forceinline__ void st_na_relaxed(const int4* ptr, int4 val) {
+    asm volatile("st.relaxed.gpu.global.L1::no_allocate.v4.s32 [%0], {%1, %2, %3, %4};"
+                 :
+                 : "l"(ptr), "r"(val.x), "r"(val.y), "r"(val.z), "r"(val.w));
+}
+
+__device__ __forceinline__ void st_na_release(const int* ptr, int val) {
+    asm volatile("st.release.gpu.global.L1::no_allocate.b32 [%0], %1;" : : "l"(ptr), "r"(val));
+}
+
+__device__ __forceinline__ void st_na_release(const uint32_t* ptr, uint32_t val) {
+    asm volatile("st.release.gpu.global.L1::no_allocate.b32 [%0], %1;" : : "l"(ptr), "r"(val));
+}
+
+__device__ __forceinline__ void st_na_release(const uint64_t* ptr, uint64_t val) {
+    asm volatile("st.release.gpu.global.L1::no_allocate.b64 [%0], %1;" : : "l"(ptr), "l"(val));
+}
+
+// `st.global.L1::no_allocate` will be translated into `ST.E.NA.[width]` in SASS
+#ifndef DISABLE_AGGRESSIVE_PTX_INSTRS
+#define ST_NA_FUNC "st.global.L1::no_allocate"
+#else
+#define ST_NA_FUNC "st.global"
+#endif
+
+template <typename dtype_t>
+__device__ __forceinline__ void st_na_global(const dtype_t* ptr, const dtype_t& value) {
+    st_na_global(reinterpret_cast<const typename VecInt<sizeof(dtype_t)>::vec_t*>(ptr),
+                 *reinterpret_cast<const typename VecInt<sizeof(dtype_t)>::vec_t*>(&value));
+}
+
+template <>
+__device__ __forceinline__ void st_na_global(const int* ptr, const int& value) {
+    asm volatile(ST_NA_FUNC ".s32 [%0], %1;" ::"l"(ptr), "r"(value));
+}
+
+template <>
+__device__ __forceinline__ void st_na_global(const int64_t* ptr, const int64_t& value) {
+    asm volatile(ST_NA_FUNC ".s64 [%0], %1;" ::"l"(ptr), "l"(value));
+}
+
+template <>
+__device__ __forceinline__ void st_na_global(const float* ptr, const float& value) {
+    asm volatile(ST_NA_FUNC ".f32 [%0], %1;" ::"l"(ptr), "f"(value));
+}
+
+template <>
+__device__ __forceinline__ void st_na_global(const int4* ptr, const int4& value) {
+    asm volatile(ST_NA_FUNC ".v4.s32 [%0], {%1, %2, %3, %4};" ::"l"(ptr), "r"(value.x), "r"(value.y), "r"(value.z), "r"(value.w));
+}
+
+__device__ __forceinline__ float log2f_approx(const float& x) {
+    float ret;
+    asm volatile("lg2.approx.f32 %0, %1;" : "=f"(ret) : "f"(x));
+    return ret;
+}
+
+__device__ __forceinline__ float exp2f_approx(const float& x) {
+    float ret;
+    asm volatile("ex2.approx.f32 %0, %1;" : "=f"(ret) : "f"(x));
+    return ret;
+}
+
+__forceinline__ __device__ int get_lane_id() {
+    int lane_id;
+    asm("mov.s32 %0, %laneid;" : "=r"(lane_id));
+    return lane_id;
+}
+
+__device__ __forceinline__ uint32_t elect_one_sync() {
+#ifndef DISABLE_SM90_FEATURES
+    uint32_t pred = 0;
+    asm volatile(
+        "{\n"
+        ".reg .b32 %%rx;\n"
+        ".reg .pred %%px;\n"
+        "      elect.sync %%rx|%%px, %1;\n"
+        "@%%px mov.s32 %0, 1;\n"
+        "}\n"
+        : "+r"(pred)
+        : "r"(0xffffffff));
+    return pred;
+#else
+    return get_lane_id() == 0;
+#endif
+}
+
+// TMA PTX instructions
+#ifndef DISABLE_SM90_FEATURES
+
+__device__ __forceinline__ void fence_barrier_init() {
+    asm volatile("fence.mbarrier_init.release.cluster; \n" ::);
+}
+
+__device__ __forceinline__ void mbarrier_init(uint64_t* mbar_ptr, uint32_t arrive_count) {
+    auto mbar_int_ptr = static_cast<uint32_t>(__cvta_generic_to_shared(mbar_ptr));
+    asm volatile("mbarrier.init.shared::cta.b64 [%1], %0;" ::"r"(arrive_count), "r"(mbar_int_ptr));
+}
+
+__device__ __forceinline__ void mbarrier_inval(uint64_t* mbar_ptr) {
+    auto mbar_int_ptr = static_cast<uint32_t>(__cvta_generic_to_shared(mbar_ptr));
+    asm volatile("mbarrier.inval.shared::cta.b64 [%0];" ::"r"(mbar_int_ptr));
+}
+
+template <bool kWithMultiStages = false>
+__device__ __forceinline__ void mbarrier_wait(uint64_t* mbar_ptr, uint32_t& phase, int stage_idx = 0) {
+    auto mbar_int_ptr = static_cast<uint32_t>(__cvta_generic_to_shared(mbar_ptr));
+    const auto& wait = kWithMultiStages ? (phase >> stage_idx) & 1 : phase;
+    asm volatile(
+        "{\n\t"
+        ".reg .pred       P1; \n\t"
+        "LAB_WAIT: \n\t"
+        "mbarrier.try_wait.parity.shared::cta.b64 P1, [%0], %1, %2; \n\t"
+        "@P1 bra DONE; \n\t"
+        "bra     LAB_WAIT; \n\t"
+        "DONE: \n\t"
+        "}" ::"r"(mbar_int_ptr),
+        "r"(wait),
+        "r"(0x989680));
+    phase ^= kWithMultiStages ? (1 << stage_idx) : 1;
+}
+
+__device__ __forceinline__ void mbarrier_arrive_and_expect_tx(uint64_t* mbar_ptr, int num_bytes) {
+    auto mbar_int_ptr = static_cast<uint32_t>(__cvta_generic_to_shared(mbar_ptr));
+    asm volatile("mbarrier.arrive.expect_tx.shared::cta.b64 _, [%1], %0; \n\t" ::"r"(num_bytes), "r"(mbar_int_ptr));
+}
+
+__device__ __forceinline__ void mbarrier_arrive(uint64_t* mbar_ptr) {
+    auto mbar_int_ptr = static_cast<uint32_t>(__cvta_generic_to_shared(mbar_ptr));
+    asm volatile("mbarrier.arrive.shared::cta.b64 _, [%0]; \n\t" ::"r"(mbar_int_ptr));
+}
+
+__device__ __forceinline__ void tma_store_fence() {
+    asm volatile("fence.proxy.async.shared::cta;");
+}
+
+constexpr uint64_t kEvictFirst = 0x12f0000000000000;
+constexpr uint64_t kEvictNormal = 0x1000000000000000;
+
+__device__ __forceinline__ void tma_load_1d(
+    const void* smem_ptr, const void* gmem_ptr, uint64_t* mbar_ptr, int num_bytes, bool evict_first = true) {
+    auto mbar_int_ptr = static_cast<uint32_t>(__cvta_generic_to_shared(mbar_ptr));
+    auto smem_int_ptr = static_cast<uint32_t>(__cvta_generic_to_shared(smem_ptr));
+    const auto cache_hint = evict_first ? kEvictFirst : kEvictNormal;
+    asm volatile(
+        "cp.async.bulk.shared::cluster.global.mbarrier::complete_tx::bytes.L2::cache_hint [%0], [%1], %2, [%3], %4;\n" ::"r"(smem_int_ptr),
+        "l"(gmem_ptr),
+        "r"(num_bytes),
+        "r"(mbar_int_ptr),
+        "l"(cache_hint)
+        : "memory");
+}
+
+__device__ __forceinline__ void tma_store_1d(const void* smem_ptr, const void* gmem_ptr, int num_bytes, bool evict_first = true) {
+    auto smem_int_ptr = static_cast<uint32_t>(__cvta_generic_to_shared(smem_ptr));
+    const auto cache_hint = evict_first ? kEvictFirst : kEvictNormal;
+    asm volatile("cp.async.bulk.global.shared::cta.bulk_group.L2::cache_hint [%0], [%1], %2, %3;\n" ::"l"(gmem_ptr),
+                 "r"(smem_int_ptr),
+                 "r"(num_bytes),
+                 "l"(cache_hint)
+                 : "memory");
+    asm volatile("cp.async.bulk.commit_group;");
+}
+
+template <int N>
+__device__ __forceinline__ void tma_store_wait() {
+    asm volatile("cp.async.bulk.wait_group.read %0;" ::"n"(N) : "memory");
+}
+
+#endif
+
+template <typename dtype_t>
+__host__ __device__ constexpr dtype_t ceil_div(dtype_t a, dtype_t b) {
+    return (a + b - 1) / b;
+}
+
+template <typename dtype_t>
+__host__ __device__ constexpr dtype_t align_up(dtype_t a, dtype_t b) {
+    return ceil_div<dtype_t>(a, b) * b;
+}
+
+template <typename dtype_t>
+__host__ __device__ constexpr dtype_t align_down(dtype_t a, dtype_t b) {
+    return a / b * b;
+}
+
+__forceinline__ __device__ void get_channel_task_range(int num_tokens, int num_sms, int sm_id, int& token_start_idx, int& token_end_idx) {
+    int num_tokens_per_sm = ceil_div(num_tokens, num_sms);
+    token_start_idx = min(num_tokens_per_sm * sm_id, num_tokens);
+    token_end_idx = min(token_start_idx + num_tokens_per_sm, num_tokens);
+}
+
+template <typename dtype_a_t, typename dtype_b_t>
+__device__ __forceinline__ dtype_b_t pack2(const dtype_a_t& x, const dtype_a_t& y) {
+    EP_STATIC_ASSERT(sizeof(dtype_a_t) * 2 == sizeof(dtype_b_t), "Invalid dtypes");
+    dtype_b_t packed;
+    auto unpacked_ptr = reinterpret_cast<dtype_a_t*>(&packed);
+    unpacked_ptr[0] = x, unpacked_ptr[1] = y;
+    return packed;
+}
+
+template <typename dtype_a_t, typename dtype_b_t>
+__device__ __forceinline__ void unpack2(const dtype_b_t& packed, dtype_a_t& x, dtype_a_t& y) {
+    EP_STATIC_ASSERT(sizeof(dtype_a_t) * 2 == sizeof(dtype_b_t), "Invalid dtypes");
+    auto unpacked_ptr = reinterpret_cast<const dtype_a_t*>(&packed);
+    x = unpacked_ptr[0], y = unpacked_ptr[1];
+}
+
+template <typename dtype_t>
+__device__ __forceinline__ dtype_t broadcast(dtype_t& ptr, int src_lane_idx) {
+    EP_STATIC_ASSERT(sizeof(dtype_t) % sizeof(int) == 0, "");
+    auto send_int_values = reinterpret_cast<int*>(&ptr);
+    int recv_int_values[sizeof(dtype_t) / sizeof(int)];
+    #pragma unroll
+    for (int i = 0; i < sizeof(dtype_t) / sizeof(int); ++i)
+        recv_int_values[i] = __shfl_sync(0xffffffff, send_int_values[i], src_lane_idx);
+    return *reinterpret_cast<dtype_t*>(recv_int_values);
+}
+
+constexpr float kFP8Margin = 1e-4;
+constexpr float kFinfoAmaxE4M3 = 448.0f;
+constexpr float kFinfoAmaxInvE4M3 = 1 / 448.0f;
+
+__forceinline__ __device__ float fast_pow2(int x) {
+    // We can ensure `-126 <= x and x <= 127`
+    uint32_t bits_x = (x + 127) << 23;
+    return *reinterpret_cast<float*>(&bits_x);
+}
+
+__forceinline__ __device__ int fast_log2_ceil(float x) {
+    auto bits_x = *reinterpret_cast<uint32_t*>(&x);
+    auto exp_x = (bits_x >> 23) & 0xff;
+    auto man_bits = bits_x & ((1 << 23) - 1);
+    return exp_x - 127 + (man_bits != 0);
+}
+
+__forceinline__ __device__ void calculate_fp8_scales(float amax, float& scale, float& scale_inv, bool round_scale) {
+    if (round_scale) {
+        auto exp_scale_inv = fast_log2_ceil(amax * kFinfoAmaxInvE4M3);
+        scale = fast_pow2(-exp_scale_inv);
+        scale_inv = fast_pow2(exp_scale_inv);
+    } else {
+        scale_inv = amax * kFinfoAmaxInvE4M3;
+        scale = kFinfoAmaxE4M3 / amax;
+    }
+}
+
+template <bool kIsUE8M0, typename out_dtype_t = std::conditional_t<kIsUE8M0, uint8_t, float>>
+__forceinline__ __device__ out_dtype_t extract_required_scale_format(float value) {
+    if constexpr (kIsUE8M0) {
+        return static_cast<uint8_t>((*reinterpret_cast<uint32_t*>(&value)) >> 23);
+    } else {
+        return value;
+    }
+}
+
+template <int kNumRanks, bool kSyncOnly = false>
+__forceinline__ __device__ void barrier_block(int** barrier_signal_ptrs, int rank) {
+    auto thread_id = static_cast<int>(threadIdx.x);
+
+    // For non-sync-only cases, the memory operations by other threads in the block must be visible to the `sys` scope
+    if constexpr (not kSyncOnly) {
+        memory_fence();
+        __syncthreads();
+    }
+
+    // Add self-ranks, sub other ranks
+    if (thread_id < kNumRanks) {
+        atomicAdd_system(barrier_signal_ptrs[rank] + thread_id, FINISHED_SUM_TAG);
+        atomicSub_system(barrier_signal_ptrs[thread_id] + rank, FINISHED_SUM_TAG);
+    }
+    EP_DEVICE_ASSERT(kNumRanks <= blockDim.x);
+
+    // Check timeout
+    auto start_time = clock64();
+    while (true) {
+        auto value = thread_id < kNumRanks ? ld_volatile_global(barrier_signal_ptrs[rank] + thread_id) : 0;
+        if (__all_sync(0xffffffff, value <= 0))
+            break;
+
+        if (clock64() - start_time > NUM_TIMEOUT_CYCLES and thread_id < kNumRanks) {
+            printf("DeepEP timeout check failed: rank = %d, thread = %d, value = %d)\n", rank, thread_id, value);
+            trap();
+        }
+    }
+    __syncthreads();
+}
+
+__forceinline__ __device__ int atomic_cas_cta_acquire(int* addr, int x, int y) {
+    int ret;
+    asm volatile("atom.acquire.cta.shared::cta.cas.b32 %0, [%1], %2, %3;" : "=r"(ret) : "l"(addr), "r"(x), "r"(y) : "memory");
+    return ret;
+}
+
+__forceinline__ __device__ int atomic_exch_cta_release(int* addr, int x) {
+    int ret;
+    asm volatile("atom.release.cta.shared::cta.exch.b32 %0, [%1], %2;" : "=r"(ret) : "l"(addr), "r"(x) : "memory");
+    return ret;
+}
+
+__forceinline__ __device__ void acquire_lock(int* mutex) {
+    // To make later memory operations valid, we must use `acquire` for memory semantics
+    while (atomic_cas_cta_acquire(mutex, 0, 1) != 0)
+        ;
+}
+
+__forceinline__ __device__ void release_lock(int* mutex) {
+    // To make previous memory operations visible to other threads, we must use `release` for memory semantics
+    atomic_exch_cta_release(mutex, 0);
+}
+
+// Operation functors
+template <typename T>
+struct ReduceSum {
+    __device__ T operator()(T a, T b) const { return a + b; }
+};
+template <typename T>
+struct ReduceMax {
+    __device__ T operator()(T a, T b) const { return a > b ? a : b; }
+};
+template <typename T>
+struct ReduceMin {
+    __device__ T operator()(T a, T b) const { return a < b ? a : b; }
+};
+template <typename T>
+struct ReduceAnd {
+    __device__ T operator()(T a, T b) const { return a & b; }
+};
+template <typename T>
+struct ReduceOr {
+    __device__ T operator()(T a, T b) const { return a | b; }
+};
+
+// Unified reduction function
+template <int kNumLanesPerGroup, bool kIntergroupReduce, typename T, typename Op>
+__forceinline__ __device__ T warp_reduce(T value, Op op) {
+    EP_STATIC_ASSERT(kNumLanesPerGroup == 32 or kNumLanesPerGroup == 16 or kNumLanesPerGroup == 8 or kNumLanesPerGroup == 4 or
+                         kNumLanesPerGroup == 2 or kNumLanesPerGroup == 1,
+                     "Invalid number of lanes");
+    constexpr uint32_t mask = 0xffffffff;
+    if constexpr (kIntergroupReduce) {
+        if constexpr (kNumLanesPerGroup <= 1)
+            value = op(value, __shfl_xor_sync(mask, value, 1));
+        if constexpr (kNumLanesPerGroup <= 2)
+            value = op(value, __shfl_xor_sync(mask, value, 2));
+        if constexpr (kNumLanesPerGroup <= 4)
+            value = op(value, __shfl_xor_sync(mask, value, 4));
+        if constexpr (kNumLanesPerGroup <= 8)
+            value = op(value, __shfl_xor_sync(mask, value, 8));
+        if constexpr (kNumLanesPerGroup <= 16)
+            value = op(value, __shfl_xor_sync(mask, value, 16));
+    } else {
+        if constexpr (kNumLanesPerGroup >= 32)
+            value = op(value, __shfl_xor_sync(mask, value, 16));
+        if constexpr (kNumLanesPerGroup >= 16)
+            value = op(value, __shfl_xor_sync(mask, value, 8));
+        if constexpr (kNumLanesPerGroup >= 8)
+            value = op(value, __shfl_xor_sync(mask, value, 4));
+        if constexpr (kNumLanesPerGroup >= 4)
+            value = op(value, __shfl_xor_sync(mask, value, 2));
+        if constexpr (kNumLanesPerGroup >= 2)
+            value = op(value, __shfl_xor_sync(mask, value, 1));
+    }
+    return value;
+}
+
+// Convenience aliases
+template <int kNumLanesPerGroup = 32, bool kIntergroupReduce = false, typename T>
+__forceinline__ __device__ T warp_reduce_sum(T value) {
+    return warp_reduce<kNumLanesPerGroup, kIntergroupReduce, T>(value, ReduceSum<T>{});
+}
+
+template <int kNumLanesPerGroup = 32, bool kIntergroupReduce = false, typename T>
+__forceinline__ __device__ T warp_reduce_max(T value) {
+    return warp_reduce<kNumLanesPerGroup, kIntergroupReduce, T>(value, ReduceMax<T>{});
+}
+
+template <int kNumLanesPerGroup = 32, bool kIntergroupReduce = false, typename T>
+__forceinline__ __device__ T warp_reduce_min(T value) {
+    return warp_reduce<kNumLanesPerGroup, kIntergroupReduce, T>(value, ReduceMin<T>{});
+}
+
+template <int kNumLanesPerGroup = 32, bool kIntergroupReduce = false, typename T>
+__forceinline__ __device__ T warp_reduce_and(T value) {
+    return warp_reduce<kNumLanesPerGroup, kIntergroupReduce, T>(value, ReduceAnd<T>{});
+}
+
+template <int kNumLanesPerGroup = 32, bool kIntergroupReduce = false, typename T>
+__forceinline__ __device__ T warp_reduce_or(T value) {
+    return warp_reduce<kNumLanesPerGroup, kIntergroupReduce, T>(value, ReduceOr<T>{});
+}
+
+}  // namespace deep_ep
diff --git a/src/turbomind/comm/nccl/nccl.cu b/src/turbomind/comm/nccl/nccl.cu
index 88c32cf166..36950e9d49 100644
--- a/src/turbomind/comm/nccl/nccl.cu
+++ b/src/turbomind/comm/nccl/nccl.cu
@@ -1,17 +1,14 @@
 // Copyright (c) OpenMMLab. All rights reserved.
 
+#include "src/turbomind/comm/nccl/nccl_comm.h"
+
 #include <cstdint>
-#include <memory>
 #include <numeric>
 #include <type_traits>
-#include <unordered_map>
 
 #include <dlfcn.h>
 
-#include <nccl.h>
-
-#include "src/turbomind/comm/device_comm.h"
-#include "src/turbomind/comm/host_comm.h"
+#include "src/turbomind/comm/nccl/deep_ep/deep_ep.hpp"
 #include "src/turbomind/core/check.h"
 #include "src/turbomind/utils/cuda_utils.h"
 #include "src/turbomind/utils/logger.h"
@@ -105,313 +102,350 @@ static NcclApis& nccl_apis()
     return value;
 }
 
-class NcclCommImpl: public DeviceCommImpl {
-public:
-    NcclCommImpl(ncclComm_t comm, int n_ranks, int rank, HostComm h_comm):
-        h_comm_{h_comm}, global_n_ranks_{n_ranks}, global_rank_{rank}, groups_{comm}
-    {
-        handles_.emplace_back();
-    }
+NcclCommImpl::NcclCommImpl(ncclComm_t comm, int n_ranks, int rank, HostComm h_comm):
+    h_comm_{h_comm}, global_n_ranks_{n_ranks}, global_rank_{rank}, groups_{comm}
+{
+    handles_.emplace_back();
+}
 
-    ~NcclCommImpl()
-    {
-        for (const auto& [ptr, _] : handles_.at(0)) {
-            TM_LOG_WARNING("[NCCL][%d] Buffer %p is not deregistered", global_rank_, ptr);
-        }
+NcclCommImpl::~NcclCommImpl()
+{
+    for (const auto& [ptr, _] : handles_.at(0)) {
+        TM_LOG_WARNING("[NCCL][%d] Buffer %p is not deregistered", global_rank_, ptr);
+    }
 
-        for (const auto& [ptr, size] : buffers_) {
-            TM_LOG_WARNING("[NCCL][%d] Allocation (%p, %lu) is not freed", global_rank_, ptr, size);
-        }
+    for (const auto& [ptr, size] : buffers_) {
+        TM_LOG_WARNING("[NCCL][%d] Allocation (%p, %lu) is not freed", global_rank_, ptr, size);
+    }
 
-        for (auto& c : groups_) {
-            if (auto ec = ncclCommDestroy(c); ec != ncclSuccess) {
-                TM_LOG_ERROR("[NCCL][%d] Failed to destroy communicator: %s", global_rank_, ncclGetErrorString(ec));
-            }
+    for (auto& c : groups_) {
+        if (auto ec = ncclCommDestroy(c); ec != ncclSuccess) {
+            TM_LOG_ERROR("[NCCL][%d] Failed to destroy communicator: %s", global_rank_, ncclGetErrorString(ec));
         }
     }
-
-    int rank(int group) const override
-    {
-        int rank{};
-        NCCLCHECK(ncclCommUserRank(groups_.at(group), &rank));
-        return rank;
+    if (buffer_) {
+        buffer_->destroy();
     }
+}
 
-    int n_ranks(int group) const override
-    {
-        int n_ranks{};
-        NCCLCHECK(ncclCommCount(groups_.at(group), &n_ranks));
-        return n_ranks;
+int NcclCommImpl::rank(int group) const
+{
+    int rank{};
+    NCCLCHECK(ncclCommUserRank(groups_.at(group), &rank));
+    return rank;
+}
+
+int NcclCommImpl::n_ranks(int group) const
+{
+    int n_ranks{};
+    NCCLCHECK(ncclCommCount(groups_.at(group), &n_ranks));
+    return n_ranks;
+}
+
+void* NcclCommImpl::Allocate(size_t size)
+{
+    void* ptr{};
+    if (auto alloc_fn = nccl_apis().ncclMemAlloc) {
+        NCCLCHECK(alloc_fn(&ptr, size));
+    }
+    else {
+        check_cuda_error(cudaMalloc(&ptr, size));
     }
+    buffers_.emplace(ptr, size);
+    return ptr;
+}
 
-    void* Allocate(size_t size) override
-    {
-        void* ptr{};
-        if (auto alloc_fn = nccl_apis().ncclMemAlloc) {
-            NCCLCHECK(alloc_fn(&ptr, size));
+void NcclCommImpl::Free(void* ptr)
+{
+    if (auto it = buffers_.find(ptr); it != buffers_.end()) {
+        if (auto free_fn = nccl_apis().ncclMemFree) {
+            NCCLCHECK(free_fn(ptr));
         }
         else {
-            check_cuda_error(cudaMalloc(&ptr, size));
+            check_cuda_error(cudaFree(ptr));
         }
-        buffers_.emplace(ptr, size);
-        return ptr;
+        buffers_.erase(ptr);
+    }
+    else {
+        TM_LOG_WARNING("[NCCL][%d] Freeing %p which is not allocated by NcclComm", global_rank_, ptr);
     }
+}
 
-    void Free(void* ptr) override
-    {
-        if (auto it = buffers_.find(ptr); it != buffers_.end()) {
-            if (auto free_fn = nccl_apis().ncclMemFree) {
-                NCCLCHECK(free_fn(ptr));
-            }
-            else {
-                check_cuda_error(cudaFree(ptr));
-            }
-            buffers_.erase(ptr);
-        }
-        else {
-            TM_LOG_WARNING("[NCCL][%d] Freeing %p which is not allocated by NcclComm", global_rank_, ptr);
+void NcclCommImpl::Register(void* ptr, size_t size)
+{
+    if (!handles_.at(0).count(ptr)) {
+        for (size_t i = 0; i < handles_.size(); ++i) {
+            Register(i, ptr, size);
         }
     }
+    else {
+        TM_LOG_WARNING("[NCCL][%d] Duplicated registration on (%p, %lu)", global_rank_, ptr, size);
+    }
+}
 
-    void Register(void* ptr, size_t size) override
-    {
-        if (!handles_.at(0).count(ptr)) {
-            for (size_t i = 0; i < handles_.size(); ++i) {
-                Register(i, ptr, size);
-            }
-        }
-        else {
-            TM_LOG_WARNING("[NCCL][%d] Duplicated registration on (%p, %lu)", global_rank_, ptr, size);
+void NcclCommImpl::Deregister(void* ptr)
+{
+    if (handles_.at(0).count(ptr)) {
+        for (size_t i = 0; i < handles_.size(); ++i) {
+            Deregister(i, ptr);
         }
     }
+    else {
+        TM_LOG_WARNING("[NCCL][%d] Deregistering non-registered address %p", global_rank_, ptr);
+    }
+}
 
-    void Deregister(void* ptr) override
-    {
-        if (handles_.at(0).count(ptr)) {
-            for (size_t i = 0; i < handles_.size(); ++i) {
-                Deregister(i, ptr);
-            }
-        }
-        else {
-            TM_LOG_WARNING("[NCCL][%d] Deregistering non-registered address %p", global_rank_, ptr);
-        }
+void NcclCommImpl::Register(int group, void* buff, size_t size)
+{
+    void* handle{};
+    auto  comm = groups_.at(group);
+    if (auto func = nccl_apis().ncclCommWindowRegister) {
+        NCCLCHECK(func(comm, buff, size, &handle, NCCL_WIN_COLL_SYMMETRIC));
+    }
+    else if (auto func = nccl_apis().ncclCommRegister) {
+        NCCLCHECK(func(comm, buff, size, &handle));
     }
+    handles_.at(group).emplace(buff, std::make_pair(handle, size));
+}
 
-    void Register(int group, void* buff, size_t size)
-    {
-        void* handle{};
-        auto  comm = groups_.at(group);
-        if (auto func = nccl_apis().ncclCommWindowRegister) {
-            NCCLCHECK(func(comm, buff, size, &handle, NCCL_WIN_COLL_SYMMETRIC));
+void NcclCommImpl::Deregister(int group, void* buff)
+{
+    auto& handles = handles_.at(group);
+    if (auto it = handles.find(buff); it != handles.end()) {
+        if (auto func = nccl_apis().ncclCommWindowDeregister) {
+            NCCLCHECK(func(groups_.at(group), it->second.first));
         }
-        else if (auto func = nccl_apis().ncclCommRegister) {
-            NCCLCHECK(func(comm, buff, size, &handle));
+        else if (auto func = nccl_apis().ncclCommDeregister) {
+            NCCLCHECK(func(groups_.at(group), it->second.first));
         }
-        handles_.at(group).emplace(buff, std::make_pair(handle, size));
+        handles.erase(it);
     }
+}
 
-    void Deregister(int group, void* buff)
-    {
-        auto& handles = handles_.at(group);
-        if (auto it = handles.find(buff); it != handles.end()) {
-            if (auto func = nccl_apis().ncclCommWindowDeregister) {
-                NCCLCHECK(func(groups_.at(group), it->second.first));
-            }
-            else if (auto func = nccl_apis().ncclCommDeregister) {
-                NCCLCHECK(func(groups_.at(group), it->second.first));
-            }
-            handles.erase(it);
-        }
+int NcclCommImpl::Split(int color, int key, int group)
+{
+    auto split_fn = TM_CHECK_NOTNULL(nccl_apis().ncclCommSplit);
+
+    ncclComm_t comm{};
+    NCCLCHECK(split_fn(groups_.at(group), color, key, &comm, nullptr));
+
+    int index = groups_.size();
+    groups_.push_back(comm);
+    handles_.emplace_back();
+
+    // register all existing buffers on the group
+    for (const auto& [k, v] : handles_.at(0)) {
+        Register(index, k, v.second);
     }
 
-    int Split(int color, int key, int group) override
-    {
-        auto split_fn = TM_CHECK_NOTNULL(nccl_apis().ncclCommSplit);
+    return index;
+}
 
-        ncclComm_t comm{};
-        NCCLCHECK(split_fn(groups_.at(group), color, key, &comm, nullptr));
+int NcclCommImpl::Query(QueryAttr attr) const noexcept
+{
+    return 0;
+}
 
-        int index = groups_.size();
-        groups_.push_back(comm);
-        handles_.emplace_back();
+void NcclCommImpl::AllReduceSum(
+    const void* sendbuff, void* recvbuff, size_t count, DataType type, int group, cudaStream_t stream)
+{
+    NCCLCHECK(ncclGroupStart());
+    NCCLCHECK(ncclAllReduce(sendbuff, recvbuff, count, to_nccl_dtype(type), ncclSum, groups_.at(group), stream));
+    NCCLCHECK(ncclGroupEnd());
+}
 
-        // register all existing buffers on the group
-        for (const auto& [k, v] : handles_.at(0)) {
-            Register(index, k, v.second);
-        }
+void NcclCommImpl::AllGather(
+    const void* sendbuff, void* recvbuff, size_t sendcount, DataType type, int group, cudaStream_t stream)
+{
+    NCCLCHECK(ncclGroupStart());
+    NCCLCHECK(ncclAllGather(sendbuff, recvbuff, sendcount, to_nccl_dtype(type), groups_.at(group), stream));
+    NCCLCHECK(ncclGroupEnd());
+}
 
-        return index;
-    }
+void NcclCommImpl::ReduceScatter(
+    const void* sendbuff, void* recvbuff, size_t recvcount, DataType type, int group, cudaStream_t stream)
+{
+    NCCLCHECK(ncclGroupStart());
+    NCCLCHECK(
+        ncclReduceScatter(sendbuff, recvbuff, recvcount, to_nccl_dtype(type), ncclSum, groups_.at(group), stream));
+    NCCLCHECK(ncclGroupEnd());
+}
 
-    int Query(QueryAttr attr) const noexcept override
-    {
-        return 0;
+void NcclCommImpl::ReduceScatterV(const void*   sendbuff,  //
+                                  void*         recvbuff,
+                                  const size_t* counts,
+                                  DataType      type,
+                                  int           group,
+                                  cudaStream_t  stream)
+{
+    std::vector<size_t> offsets(n_ranks(group));
+    std::exclusive_scan(counts, counts + n_ranks(group), offsets.begin(), 0);
+
+    const auto elem_size = byte_size(type);
+    NCCLCHECK(ncclGroupStart());
+    for (int i = 0; i < n_ranks(group); ++i) {
+        NCCLCHECK(ncclReduce((char*)sendbuff + offsets[i] * elem_size,
+                             recvbuff,
+                             counts[i],
+                             to_nccl_dtype(type),
+                             ncclSum,
+                             i,
+                             groups_.at(group),
+                             stream));
     }
+    NCCLCHECK(ncclGroupEnd());
+}
 
-    void AllReduceSum(
-        const void* sendbuff, void* recvbuff, size_t count, DataType type, int group, cudaStream_t stream) override
-    {
-        NCCLCHECK(ncclGroupStart());
-        NCCLCHECK(ncclAllReduce(sendbuff, recvbuff, count, to_nccl_dtype(type), ncclSum, groups_.at(group), stream));
-        NCCLCHECK(ncclGroupEnd());
+void NcclCommImpl::AllGatherV(const void*   sendbuff,  //
+                              void*         recvbuff,
+                              const size_t* counts,
+                              DataType      type,
+                              int           group,
+                              cudaStream_t  stream)
+{
+    std::vector<size_t> offsets(n_ranks(group));
+    std::exclusive_scan(counts, counts + n_ranks(group), offsets.begin(), 0);
+
+    const auto elem_size = byte_size(type);
+    NCCLCHECK(ncclGroupStart());
+    for (int i = 0; i < n_ranks(group); ++i) {
+        NCCLCHECK(ncclBroadcast(sendbuff,
+                                (char*)recvbuff + offsets[i] * elem_size,
+                                counts[i],
+                                to_nccl_dtype(type),
+                                i,
+                                groups_.at(group),
+                                stream));
     }
+    NCCLCHECK(ncclGroupEnd());
+}
 
-    void AllGather(
-        const void* sendbuff, void* recvbuff, size_t sendcount, DataType type, int group, cudaStream_t stream) override
-    {
-        NCCLCHECK(ncclGroupStart());
-        NCCLCHECK(ncclAllGather(sendbuff, recvbuff, sendcount, to_nccl_dtype(type), groups_.at(group), stream));
-        NCCLCHECK(ncclGroupEnd());
+void NcclCommImpl::AllreduceResidualBiasRMSnorm(void*        hidden,
+                                                void*        residual,
+                                                const void*  bias,
+                                                const void*  weights,
+                                                float        eps,
+                                                int          dim,
+                                                int          token_num,
+                                                DataType     dtype,
+                                                int          group,
+                                                cudaStream_t stream)
+{
+    const auto elem_size = byte_size(dtype);
+
+    auto rms_norm = [&](int64_t first, int64_t count) {
+        invokeResidualBiasRMSNorm((char*)hidden + elem_size * first * dim,
+                                  (char*)residual + elem_size * first * dim,
+                                  weights,
+                                  bias,
+                                  dtype,
+                                  dim,
+                                  count,
+                                  eps,
+                                  stream);
+    };
+
+    if (1) {
+        AllReduceSum(hidden, hidden, token_num * dim, dtype, group, stream);
+        rms_norm(0, token_num);
     }
-
-    void ReduceScatter(
-        const void* sendbuff, void* recvbuff, size_t recvcount, DataType type, int group, cudaStream_t stream) override
-    {
-        NCCLCHECK(ncclGroupStart());
-        NCCLCHECK(
-            ncclReduceScatter(sendbuff, recvbuff, recvcount, to_nccl_dtype(type), ncclSum, groups_.at(group), stream));
-        NCCLCHECK(ncclGroupEnd());
+    else {  // Only useful for large input size
+        const int    n_ranks   = this->n_ranks(group);
+        const int    rank      = this->rank(group);
+        const int    slice     = (token_num + n_ranks - 1) / n_ranks;
+        const size_t recvcount = slice * dim;
+        auto         sendbuff  = hidden;
+        auto         recvbuff  = (char*)hidden + elem_size * rank * recvcount;
+        ReduceScatter(sendbuff, recvbuff, recvcount, dtype, group, stream);
+        rms_norm(rank * slice, slice);
+        AllGather(recvbuff, sendbuff, recvcount, dtype, group, stream);
     }
+}
 
-    void AllreduceResidualBiasRMSnorm(void*        hidden,
-                                      void*        residual,
-                                      const void*  bias,
-                                      const void*  weights,
-                                      float        eps,
-                                      int          dim,
-                                      int          token_num,
-                                      DataType     dtype,
-                                      int          group,
-                                      cudaStream_t stream) override
-    {
-        const auto elem_size = byte_size(dtype);
-
-        auto rms_norm = [&](int64_t first, int64_t count) {
-            invokeResidualBiasRMSNorm((char*)hidden + elem_size * first * dim,
-                                      (char*)residual + elem_size * first * dim,
-                                      weights,
-                                      bias,
-                                      dtype,
-                                      dim,
-                                      count,
-                                      eps,
-                                      stream);
-        };
+void NcclCommImpl::AllreduceResidualBiasRMSnormEx(void*        hidden,
+                                                  void*        residual,
+                                                  const void*  bias,
+                                                  const void*  weights,
+                                                  float        eps,
+                                                  int          dim,
+                                                  DataType     type,
+                                                  int          group0,
+                                                  int          group1,
+                                                  const int*   local_token_nums,
+                                                  cudaStream_t stream)
+{
+    const size_t         elem_size = byte_size(type);
+    const ncclDataType_t nccl_type = to_nccl_dtype(type);
 
-        if (1) {
-            AllReduceSum(hidden, hidden, token_num * dim, dtype, group, stream);
-            rms_norm(0, token_num);
-        }
-        else {  // Only useful for large input size
-            const int    n_ranks   = this->n_ranks(group);
-            const int    rank      = this->rank(group);
-            const int    slice     = (token_num + n_ranks - 1) / n_ranks;
-            const size_t recvcount = slice * dim;
-            auto         sendbuff  = hidden;
-            auto         recvbuff  = (char*)hidden + elem_size * rank * recvcount;
-            ReduceScatter(sendbuff, recvbuff, recvcount, dtype, group, stream);
-            rms_norm(rank * slice, slice);
-            AllGather(recvbuff, sendbuff, recvcount, dtype, group, stream);
-        }
-    }
+    FT_CHECK(group0 == 0 || group1 == 0);
 
-    void AllreduceResidualBiasRMSnormEx(void*        hidden,
-                                        void*        residual,
-                                        const void*  bias,
-                                        const void*  weights,
-                                        float        eps,
-                                        int          dim,
-                                        DataType     type,
-                                        int          group0,
-                                        int          group1,
-                                        const int*   local_token_nums,
-                                        cudaStream_t stream) override
-    {
-        const size_t         elem_size = byte_size(type);
-        const ncclDataType_t nccl_type = to_nccl_dtype(type);
-
-        FT_CHECK(group0 == 0 || group1 == 0);
-
-        ncclComm_t comm0 = groups_.at(group0);
-        ncclComm_t comm1 = groups_.at(group1);
-
-        int tp0{}, tp1{};
-        NCCLCHECK(ncclCommCount(comm0, &tp0));
-        NCCLCHECK(ncclCommCount(comm1, &tp1));
-
-        const int inner_tp = std::min(tp0, tp1);
-
-        FT_CHECK(tp0 % inner_tp == 0 && tp1 % inner_tp == 0);
-
-        std::vector<std::tuple<int, int, int>> tasks;
-        tasks.reserve(global_n_ranks_);
-
-        for (int i = 0, offset = 0; i < global_n_ranks_; ++i) {
-            const int num   = local_token_nums[i / inner_tp];
-            const int slice = (num + inner_tp - 1) / inner_tp;
-            const int first = std::min(num, i % inner_tp * slice);
-            const int last  = std::min(num, first + slice);
-            tasks.emplace_back(offset, first, last - first);
-            if ((i + 1) % inner_tp == 0) {
-                offset += num;
-            }
-        }
+    ncclComm_t comm0 = groups_.at(group0);
+    ncclComm_t comm1 = groups_.at(group1);
 
-        if (tp0 > 1) {
-            NCCLCHECK(ncclGroupStart());
-            for (int i = 0; i < global_n_ranks_; ++i) {
-                if (auto& [offset, first, num] = tasks[i]; num > 0) {
-                    char* buff = (char*)hidden + elem_size * (offset + first) * dim;
-                    NCCLCHECK(ncclReduce(buff, buff, (size_t)num * dim, nccl_type, ncclSum, i % tp0, comm0, stream));
-                }
-            }
-            NCCLCHECK(ncclGroupEnd());
-            sync_check_cuda_error();
-        }
+    int tp0{}, tp1{};
+    NCCLCHECK(ncclCommCount(comm0, &tp0));
+    NCCLCHECK(ncclCommCount(comm1, &tp1));
+
+    const int inner_tp = std::min(tp0, tp1);
+
+    FT_CHECK(tp0 % inner_tp == 0 && tp1 % inner_tp == 0);
 
-        if (auto& [offset, first, num] = tasks[global_rank_]; num > 0) {
-            char* buff = (char*)hidden + elem_size * (offset + first) * dim;
-            invokeResidualBiasRMSNorm(
-                buff, (char*)residual + elem_size * first * dim, weights, bias, type, dim, num, eps, stream);
-            sync_check_cuda_error();
+    std::vector<std::tuple<int, int, int>> tasks;
+    tasks.reserve(global_n_ranks_);
+
+    for (int i = 0, offset = 0; i < global_n_ranks_; ++i) {
+        const int num   = local_token_nums[i / inner_tp];
+        const int slice = (num + inner_tp - 1) / inner_tp;
+        const int first = std::min(num, i % inner_tp * slice);
+        const int last  = std::min(num, first + slice);
+        tasks.emplace_back(offset, first, last - first);
+        if ((i + 1) % inner_tp == 0) {
+            offset += num;
         }
+    }
 
-        if (tp1 > 1) {
-            NCCLCHECK(ncclGroupStart());
-            for (int i = 0; i < global_n_ranks_; ++i) {
-                if (auto& [offset, first, num] = tasks[i]; num > 0) {
-                    char* buff = (char*)hidden + elem_size * (offset + first) * dim;
-                    NCCLCHECK(ncclBroadcast(buff, buff, (size_t)num * dim, nccl_type, i % tp1, comm1, stream));
-                }
+    if (tp0 > 1) {
+        NCCLCHECK(ncclGroupStart());
+        for (int i = 0; i < global_n_ranks_; ++i) {
+            if (auto& [offset, first, num] = tasks[i]; num > 0) {
+                char* buff = (char*)hidden + elem_size * (offset + first) * dim;
+                NCCLCHECK(ncclReduce(buff, buff, (size_t)num * dim, nccl_type, ncclSum, i % tp0, comm0, stream));
             }
-            NCCLCHECK(ncclGroupEnd());
-            sync_check_cuda_error();
         }
+        NCCLCHECK(ncclGroupEnd());
+        sync_check_cuda_error();
     }
 
-    void Broadcast(const void*  sendbuff,  //
-                   void*        recvbuff,
-                   size_t       count,
-                   DataType     type,
-                   int          root,
-                   int          group,
-                   cudaStream_t stream) override
-    {
-        NCCLCHECK(ncclBroadcast(recvbuff, recvbuff, count, to_nccl_dtype(type), root, groups_.at(group), stream));
+    if (auto& [offset, first, num] = tasks[global_rank_]; num > 0) {
+        char* buff = (char*)hidden + elem_size * (offset + first) * dim;
+        invokeResidualBiasRMSNorm(
+            buff, (char*)residual + elem_size * first * dim, weights, bias, type, dim, num, eps, stream);
+        sync_check_cuda_error();
     }
 
-private:
-    HostComm h_comm_;
-
-    int global_n_ranks_;
-    int global_rank_;
-
-    std::vector<ncclComm_t> groups_;
-
-    std::vector<std::unordered_map<void*, std::pair<void*, size_t>>> handles_;
+    if (tp1 > 1) {
+        NCCLCHECK(ncclGroupStart());
+        for (int i = 0; i < global_n_ranks_; ++i) {
+            if (auto& [offset, first, num] = tasks[i]; num > 0) {
+                char* buff = (char*)hidden + elem_size * (offset + first) * dim;
+                NCCLCHECK(ncclBroadcast(buff, buff, (size_t)num * dim, nccl_type, i % tp1, comm1, stream));
+            }
+        }
+        NCCLCHECK(ncclGroupEnd());
+        sync_check_cuda_error();
+    }
+}
 
-    std::unordered_map<void*, size_t> buffers_;
-};
+void NcclCommImpl::Broadcast(const void*  sendbuff,  //
+                             void*        recvbuff,
+                             size_t       count,
+                             DataType     type,
+                             int          root,
+                             int          group,
+                             cudaStream_t stream)
+{
+    NCCLCHECK(ncclBroadcast(recvbuff, recvbuff, count, to_nccl_dtype(type), root, groups_.at(group), stream));
+}
 
 DeviceComm CreateNcclCommunicator(int n_ranks, int rank, HostComm h_comm)
 {
diff --git a/src/turbomind/comm/nccl/nccl_comm.h b/src/turbomind/comm/nccl/nccl_comm.h
new file mode 100644
index 0000000000..30a30a3e52
--- /dev/null
+++ b/src/turbomind/comm/nccl/nccl_comm.h
@@ -0,0 +1,116 @@
+// Copyright (c) OpenMMLab. All rights reserved.
+
+#pragma once
+
+#include <memory>
+#include <unordered_map>
+#include <vector>
+
+#include <nccl.h>
+
+#include "src/turbomind/comm/device_comm.h"
+#include "src/turbomind/comm/host_comm.h"
+
+namespace deep_ep {
+class Buffer;
+}
+
+namespace turbomind::comm {
+
+class NcclCommImpl: public DeviceCommImpl {
+public:
+    NcclCommImpl(ncclComm_t comm, int n_ranks, int rank, HostComm h_comm);
+    ~NcclCommImpl();
+
+    int rank(int group) const override;
+    int n_ranks(int group) const override;
+
+    void* Allocate(size_t size) override;
+    void  Free(void* ptr) override;
+
+    void Register(void* ptr, size_t size) override;
+    void Deregister(void* ptr) override;
+
+    int Split(int color, int key, int group) override;
+    int Query(QueryAttr attr) const noexcept override;
+
+    void AllReduceSum(
+        const void* sendbuff, void* recvbuff, size_t count, DataType type, int group, cudaStream_t stream) override;
+
+    void AllGather(
+        const void* sendbuff, void* recvbuff, size_t sendcount, DataType type, int group, cudaStream_t stream) override;
+
+    void ReduceScatter(
+        const void* sendbuff, void* recvbuff, size_t recvcount, DataType type, int group, cudaStream_t stream) override;
+
+    void ReduceScatterV(const void*   sendbuff,
+                        void*         recvbuff,
+                        const size_t* counts,
+                        DataType      type,
+                        int           group,
+                        cudaStream_t  stream) override;
+
+    void AllGatherV(const void*   sendbuff,
+                    void*         recvbuff,
+                    const size_t* counts,
+                    DataType      type,
+                    int           group,
+                    cudaStream_t  stream) override;
+
+    void AllreduceResidualBiasRMSnorm(void*        hidden,
+                                      void*        residual,
+                                      const void*  bias,
+                                      const void*  weights,
+                                      float        eps,
+                                      int          dim,
+                                      int          token_num,
+                                      DataType     dtype,
+                                      int          group,
+                                      cudaStream_t stream) override;
+
+    void AllreduceResidualBiasRMSnormEx(void*        hidden,
+                                        void*        residual,
+                                        const void*  bias,
+                                        const void*  weights,
+                                        float        eps,
+                                        int          dim,
+                                        DataType     type,
+                                        int          group0,
+                                        int          group1,
+                                        const int*   local_token_nums,
+                                        cudaStream_t stream) override;
+
+    void Broadcast(const void*  sendbuff,
+                   void*        recvbuff,
+                   size_t       count,
+                   DataType     type,
+                   int          root,
+                   int          group,
+                   cudaStream_t stream) override;
+
+    void InitializeEp(const EpConfig& config) override;
+    void Dispatch(const EpDispatchInput& input, EpDispatchOutput& output, int group) override;
+    void Combine(const EpCombineInput& input, EpCombineOutput& output, int group) override;
+
+private:
+    void Register(int group, void* buff, size_t size);
+    void Deregister(int group, void* buff);
+
+    HostComm h_comm_;
+
+    int global_n_ranks_;
+    int global_rank_;
+
+    std::vector<ncclComm_t> groups_;
+
+    std::vector<std::unordered_map<void*, std::pair<void*, size_t>>> handles_;
+
+    std::unordered_map<void*, size_t> buffers_;
+
+    std::unique_ptr<deep_ep::Buffer> buffer_;
+    EpConfig                         ep_config_;
+};
+
+DeviceComm CreateNcclCommunicator(int n_ranks, int rank, HostComm h_comm);
+
+}  // namespace turbomind::comm
diff --git a/src/turbomind/comm/nccl/nccl_ep.cu b/src/turbomind/comm/nccl/nccl_ep.cu
new file mode 100644
index 0000000000..6588c05826
--- /dev/null
+++ b/src/turbomind/comm/nccl/nccl_ep.cu
@@ -0,0 +1,254 @@
+// Copyright (c) OpenMMLab. All rights reserved.
+
+#include "src/turbomind/comm/nccl/nccl_comm.h"
+
+#include "src/turbomind/comm/nccl/deep_ep/deep_ep.hpp"
+#include "src/turbomind/core/allocator.h"
+#include "src/turbomind/core/check.h"
+#include "src/turbomind/kernels/gemm/moe_ep_utils.h"
+#include "src/turbomind/utils/cuda_utils.h"
+
+#include <cub/device/device_scan.cuh>
+
+#include <algorithm>
+#include <cstdio>
+#include <numeric>
+
+namespace turbomind::comm {
+
+void NcclCommImpl::InitializeEp(const EpConfig& config)
+{
+    TM_LOG_DEBUG("[NCCLEP][%d] Initialize", h_comm_->rank());
+
+    // Check NCCL version
+    int version{};
+    ncclGetVersion(&version);
+    TM_CHECK_GE(version, NCCL_VERSION(2, 29, 7));
+    ep_config_ = config;
+
+    const int num_rdma_bytes = config.num_nodes > 1 ? int(1e9) : 0;
+    const int num_ll_rdma_bytes =
+        config.ll_max_tokens_per_rank > 0 ?
+            deep_ep ::get_low_latency_rdma_size_hint(
+                config.ll_max_tokens_per_rank, config.hidden, h_comm_->n_ranks(), config.num_experts) :
+            0;
+
+    const int num_local_experts = config.num_experts / h_comm_->n_ranks();
+    const int num_sms           = 24;
+    const int qps_per_rank      = (config.num_nodes == 1) ? num_local_experts : std::max(num_sms, num_local_experts);
+
+    buffer_ = std::make_unique<deep_ep::Buffer>(  //
+        h_comm_->rank(),
+        h_comm_->n_ranks(),
+        int(2e9),
+        num_rdma_bytes,
+        num_ll_rdma_bytes,
+        true,
+        false,
+        false,
+        qps_per_rank,
+        h_comm_);
+}
+
+void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& output, int group)
+{
+    TM_CHECK_EQ(group, 0);
+    TM_CHECK_NE(input.mode, EpMode::kNull);
+
+    if (input.mode == EpMode::kLowLatency) {
+        auto [packed_recv_x, packed_recv_x_scales, packed_recv_count, packed_recv_src_info, packed_recv_layout_range] =
+            buffer_->low_latency_dispatch(input.x,
+                                          input.topk_idx,
+                                          std::nullopt,
+                                          std::nullopt,
+                                          ep_config_.ll_max_tokens_per_rank,
+                                          ep_config_.num_experts,
+                                          false,
+                                          false,
+                                          false);
+        sync_check_cuda_error();
+
+        const int num_local_experts = ep_config_.num_experts / h_comm_->n_ranks();
+
+        auto st = core::Context::stream().handle();
+
+        // Compute offsets
+        size_t temp_storage_bytes = 0;
+        cub::DeviceScan::InclusiveSum(nullptr,
+                                      temp_storage_bytes,
+                                      packed_recv_count.data<int>(),
+                                      output.offsets.data() + 1,
+                                      num_local_experts,
+                                      st);
+        Buffer_<uint8_t> temp_storage(temp_storage_bytes, kDEVICE);
+        cub::DeviceScan::InclusiveSum(temp_storage.raw_data(),
+                                      temp_storage_bytes,
+                                      packed_recv_count.data<int>(),
+                                      output.offsets.data() + 1,
+                                      num_local_experts,
+                                      st);
+        sync_check_cuda_error();
+
+        // Compute f2n, f2E
+        invokeMoeLLDispatchPostprocess(output.out_x,
+                                       output.f2n.data(),
+                                       output.f2E.data(),
+                                       output.offsets.data(),
+                                       buffer_->moe_recv_counter,
+                                       buffer_->moe_recv_counter_mapped,
+                                       packed_recv_x,
+                                       st);
+        sync_check_cuda_error();
+
+        // Generate output
+        output.handle        = {packed_recv_src_info, packed_recv_layout_range, output.offsets};
+        output.out_token_num = output.out_expert_token_num = *buffer_->moe_recv_counter;
+    }
+    else {
+        auto [num_tokens_per_rank, num_tokens_per_rdma_rank, num_tokens_per_expert, is_token_in_rank] =
+            buffer_->get_dispatch_layout(input.topk_idx, ep_config_.num_experts);
+        sync_check_cuda_error();
+
+        if (buffer_->get_num_rdma_ranks() > 1) {
+            // internode dispatch
+        }
+        else {
+            auto config      = buffer_->get_dispatch_config();
+            auto [recv_x,
+                  recv_x_scales,
+                  recv_topk_idx,
+                  recv_topk_weights,
+                  num_recv_tokens_per_expert_list,
+                  num_recv_tokens_per_expert,
+                  rank_prefix_matrix,
+                  channel_prefix_matrix,
+                  recv_channel_prefix_matrix,
+                  recv_src_idx,
+                  send_head] = buffer_->intranode_dispatch(input.x,
+                                                           std::nullopt,
+                                                           input.topk_idx,
+                                                           input.topk_weights,
+                                                           num_tokens_per_rank,
+                                                           is_token_in_rank,
+                                                           num_tokens_per_expert,
+                                                           0,
+                                                           std::nullopt,
+                                                           std::nullopt,
+                                                           1,
+                                                           0,
+                                                           config);
+            sync_check_cuda_error();
+
+            // Generate output
+            output.handle           = {rank_prefix_matrix,
+                                       channel_prefix_matrix,
+                                       recv_channel_prefix_matrix,
+                                       recv_src_idx,
+                                       is_token_in_rank,
+                                       send_head};
+            output.out_x            = recv_x;
+            output.out_topk_weights = recv_topk_weights.value();
+            output.out_token_num    = recv_x.shape(0);
+            output.out_expert_token_num =
+                std::accumulate(num_recv_tokens_per_expert_list.begin(), num_recv_tokens_per_expert_list.end(), 0);
+
+            const int num_local_experts = num_recv_tokens_per_expert_list.size();
+            const int topk              = input.topk_idx.shape(1);
+            const int num_recv_tokens   = recv_x.shape(0);
+            auto      st                = core::Context::stream().handle();
+
+            // Compute offsets
+            size_t temp_storage_bytes = 0;
+            cub::DeviceScan::InclusiveSum(nullptr,
+                                          temp_storage_bytes,
+                                          num_recv_tokens_per_expert.data<int>(),
+                                          output.offsets.data() + 1,
+                                          num_local_experts,
+                                          st);
+            Buffer_<uint8_t> temp_storage(temp_storage_bytes, kDEVICE);
+            cub::DeviceScan::InclusiveSum(temp_storage.raw_data(),
+                                          temp_storage_bytes,
+                                          num_recv_tokens_per_expert.data<int>(),
+                                          output.offsets.data() + 1,
+                                          num_local_experts,
+                                          st);
+            sync_check_cuda_error();
+
+            // Compute f2n, f2E, en2f
+            turbomind::invokeMoeRoutingMapEp(output.f2n.data(),
+                                             output.f2E.data(),
+                                             output.en2f.data(),
+                                             output.offsets.data(),
+                                             recv_topk_idx->data_or((int64_t*)nullptr),
+                                             num_recv_tokens,
+                                             topk,
+                                             num_local_experts,
+                                             st);
+            sync_check_cuda_error();
+        }
+    }
+}
+
+void NcclCommImpl::Combine(const EpCombineInput& input, EpCombineOutput& output, int group)
+{
+    TM_CHECK_EQ(group, 0);
+    TM_CHECK_NE(input.mode, EpMode::kNull);
+
+    if (input.mode == EpMode::kLowLatency) {
+        const int   num_local_experts = ep_config_.num_experts / h_comm_->n_ranks();
+        const auto& offsets           = input.handle[2];
+        const int   num_max_tokens    = ep_config_.ll_max_tokens_per_rank * h_comm_->n_ranks();
+        auto        sparse_x = Tensor({num_local_experts, num_max_tokens, ep_config_.hidden}, input.x.dtype(), kDEVICE);
+
+        // convert dense input to sparse
+        auto st = core::Context::stream().handle();
+        invokeMoeLLCombinePreprocess(sparse_x, input.x, offsets.data<int>(), st);
+        sync_check_cuda_error();
+
+        auto& packed_recv_src_info     = input.handle[0];
+        auto& packed_recv_layout_range = input.handle[1];
+        auto [combined_x]              = buffer_->low_latency_combine(sparse_x,
+                                                         input.topk_idx.value(),
+                                                         input.topk_weights.value(),
+                                                         packed_recv_src_info,
+                                                         packed_recv_layout_range,
+                                                         std::nullopt,
+                                                         ep_config_.ll_max_tokens_per_rank,
+                                                         ep_config_.num_experts,
+                                                         false,
+                                                         false,
+                                                         std::nullopt);
+        sync_check_cuda_error();
+
+        // Generate output
+        output.out_x = combined_x;
+    }
+    else {
+        if (buffer_->get_num_rdma_ranks() > 1) {
+            // internode combine
+        }
+        else {
+            // intranode combine
+            auto config = buffer_->get_combine_config();
+            TM_CHECK(input.handle.size() == 6);
+            auto rank_prefix_matrix    = input.handle[0];
+            auto channel_prefix_matrix = input.handle[2];
+            auto src_idx               = input.handle[3];
+            auto send_head             = input.handle[5];
+
+            auto [recv_x, recv_topk_weights] = buffer_->intranode_combine(input.x,
+                                                                          input.topk_weights,
+                                                                          std::nullopt,
+                                                                          std::nullopt,
+                                                                          src_idx,
+                                                                          rank_prefix_matrix,
+                                                                          channel_prefix_matrix,
+                                                                          send_head,
+                                                                          config);
+            sync_check_cuda_error();
+            output.out_x = recv_x;
+        }
+    }
+}
+
+}  // namespace turbomind::comm
diff --git a/src/turbomind/kernels/gemm/CMakeLists.txt b/src/turbomind/kernels/gemm/CMakeLists.txt
index 0cc5ba8d37..086e17e8b3 100644
--- a/src/turbomind/kernels/gemm/CMakeLists.txt
+++ b/src/turbomind/kernels/gemm/CMakeLists.txt
@@ -31,6 +31,7 @@ add_library(gemm2
         kernel/sm90_64n32_8.cu
         cublas.cu
         moe_utils_v2.cu
+        moe_ep_utils.cu
         test/test_utils.cu
 )
 
diff --git a/src/turbomind/kernels/gemm/moe_ep_utils.cu b/src/turbomind/kernels/gemm/moe_ep_utils.cu
new file mode 100644
index 0000000000..b4d9cb673a
--- /dev/null
+++ b/src/turbomind/kernels/gemm/moe_ep_utils.cu
@@ -0,0 +1,701 @@
+// Copyright (c) OpenMMLab. All rights reserved.
+
+#include "src/turbomind/kernels/gemm/moe_ep_utils.h"
+
+#include "src/turbomind/core/check.h"
+#include "src/turbomind/core/data_type.h"
+#include "src/turbomind/kernels/core/array_ops.h"
+#include "src/turbomind/kernels/core/common.h"
+#include "src/turbomind/kernels/core/math.h"
+#include "src/turbomind/utils/cuda_utils.h"
+
+#include <cub/block/block_scan.cuh>
+
+namespace turbomind {
+
+template<int max_expert_num, int max_top_k, int items_per_thread, int block_dim, int access_size>
+__global__ void MoeGateKernel(float*       topk_weights,  // [n, topk]
+                              int64_t*     topk_idx,      // [n, topk]
+                              const float* logits,        // [n,E]
+                              int          token_num,
+                              int          expert_num,
+                              int          top_k,
+                              bool         softmax,
+                              bool         norm_topk,
+                              float        routed_scale)
+{
+    constexpr int threads_per_token = max_expert_num / items_per_thread;
+
+    // We use bits in a uint32_t to represent selected experts
+    static_assert(items_per_thread <= 32);
+    // We use warp-level primitives for reduction
+    static_assert(threads_per_token <= 32);
+
+    static_assert((threads_per_token & (threads_per_token - 1)) == 0);
+
+    const int thread_idx = threadIdx.x + blockIdx.x * blockDim.x;
+
+    const int ti = thread_idx / threads_per_token;
+    const int ei = thread_idx % threads_per_token;
+
+    const int warp_ti = threadIdx.x % WARP_SIZE / threads_per_token;
+
+    float data[items_per_thread];
+    int   idxs[items_per_thread];
+
+    PRAGMA_UNROLL
+    for (int i = 0; i < items_per_thread; ++i) {
+        data[i] = -std::numeric_limits<float>::infinity();
+        idxs[i] = ei * items_per_thread + i;
+    }
+    if (ti < token_num) {
+        PRAGMA_UNROLL
+        for (int i = 0; i < items_per_thread; i += access_size) {
+            const int e = ei * items_per_thread + i;
+            if (e < expert_num) {
+                Ldg((Array<float, access_size>&)data[i], &logits[ti * expert_num + e]);
+            }
+        }
+    }
+
+    unsigned mask = (unsigned)-1;
+    float    max_logit;
+
+    const int warp_ti_offset = warp_ti * threads_per_token;
+
+    int sel_item[max_top_k];
+
+    auto run = [&](int k) {
+        unsigned bit     = 1;
+        unsigned max_bit = 0;
+        float    max_val = -std::numeric_limits<float>::infinity();
+        // local maximum
+        PRAGMA_UNROLL
+        for (int i = 0; i < items_per_thread; ++i) {
+            if ((mask & bit) && data[i] > max_val) {
+                max_bit = bit;
+                max_val = data[i];
+            }
+            // weird thing that nvcc tends to use funnel shift for `bit <<= 1`
+            asm("shl.b32 %0, %1, 1;\n" : "=r"(bit) : "r"(bit));
+        }
+
+        int   g_max_ei  = ei;
+        float g_max_val = max_val;
+        if constexpr (threads_per_token > 1) {
+            // global maximum
+            PRAGMA_UNROLL
+            for (int m = threads_per_token / 2; m >= 1; m /= 2) {
+                g_max_val = fmaxf(g_max_val, __shfl_xor_sync((uint32_t)-1, g_max_val, m));
+            }
+            // tie breaking
+            const auto active = __ballot_sync((uint32_t)-1, max_val == g_max_val);
+            g_max_ei          = __ffs(active >> (unsigned)warp_ti_offset) - 1;
+        }
+        if (k == 0) {
+            max_logit = g_max_val;
+        }
+        int local_item = -1;
+        if (ei == g_max_ei) {
+            local_item = __ffs(max_bit) - 1;
+            mask -= max_bit;
+        }
+        sel_item[k] = local_item;
+    };
+
+    run(0);
+
+    for (int k = 1; k < top_k; ++k) {
+        run(k);
+    }
+
+    mask = ~mask;
+
+    int used[items_per_thread];
+    {
+        unsigned bit = 1;
+        PRAGMA_UNROLL
+        for (int i = 0; i < items_per_thread; ++i) {
+            used[i] = (mask & bit) > 0;
+            asm("shl.b32 %0, %1, 1;\n" : "=r"(bit) : "r"(bit));
+        }
+    }
+
+    float sum_prob{};
+
+    if (softmax) {
+        PRAGMA_UNROLL
+        for (int i = 0; i < items_per_thread; ++i) {
+            if (!norm_topk || used[i]) {
+                data[i] = expf(data[i] - max_logit);
+                sum_prob += data[i];
+            }
+        }
+        PRAGMA_UNROLL
+        for (int m = threads_per_token / 2; m >= 1; m /= 2) {
+            sum_prob += __shfl_xor_sync((uint32_t)-1, sum_prob, m);
+        }
+        sum_prob = fdividef(1.f, sum_prob);
+    }
+    else {
+        sum_prob = 1.f;
+    }
+
+    if (ti < token_num) {
+        PRAGMA_UNROLL
+        for (int k = 0; k < max_top_k; ++k) {
+            if (k < top_k && sel_item[k] >= 0) {
+                const int i                  = sel_item[k];
+                topk_weights[ti * top_k + k] = data[i] * sum_prob * routed_scale;
+                topk_idx[ti * top_k + k]     = idxs[i];
+            }
+        }
+    }
+}
+
+template<int N>
+inline constexpr std::integral_constant<int, N> _Int{};
+
+void invokeMoeGateEp(float*       topk_weights,
+                     int64_t*     topk_idx,
+                     const float* logits,
+                     int          tokens,
+                     int          experts,
+                     int          experts_per_token,
+                     bool         softmax,
+                     bool         norm_topk,
+                     float        routed_scale,
+                     cudaStream_t stream)
+{
+    if (tokens == 0) {
+        return;
+    }
+
+    auto invoke = [&](auto max_expert_num, auto top_k, auto items_per_thread, auto vec_size) {
+        constexpr int thrs_per_tok = max_expert_num.value / items_per_thread.value;
+        constexpr int threads      = 256;
+        const int     blocks       = ceil_div(tokens, threads / thrs_per_tok);
+
+        MoeGateKernel<max_expert_num.value, top_k.value, items_per_thread.value, threads, vec_size.value>
+            <<<blocks, threads, 0, stream>>>(  //
+                topk_weights,
+                topk_idx,
+                logits,
+                tokens,
+                experts,
+                experts_per_token,
+                softmax,
+                norm_topk,
+                routed_scale);
+        sync_check_cuda_error();
+
+        return true;
+    };
+
+    if (!softmax && norm_topk) {
+        // norm top-k is part of softmax impl
+        TM_CHECK(0) << softmax << " " << norm_topk;
+    }
+
+    auto dispatch = [&] {
+        if (experts <= 8) {
+            if (experts_per_token <= 2) {
+                return invoke(_Int<8>, _Int<2>, _Int<8>, _Int<4>);
+            }
+            else {
+                return invoke(_Int<8>, _Int<8>, _Int<8>, _Int<4>);
+            }
+        }
+        else if (experts <= 64) {
+            if (experts_per_token <= 4) {
+                return invoke(_Int<64>, _Int<4>, _Int<16>, _Int<4>);
+            }
+            else if (experts_per_token <= 8) {
+                return invoke(_Int<64>, _Int<8>, _Int<16>, _Int<4>);
+            }
+        }
+        else if (experts <= 128) {
+            if (experts_per_token <= 8) {
+                return invoke(_Int<128>, _Int<8>, _Int<16>, _Int<4>);
+            }
+        }
+        else if (experts <= 160) {
+            if (experts_per_token <= 8) {
+                return invoke(_Int<160>, _Int<8>, _Int<10>, _Int<2>);
+            }
+        }
+        else if (experts <= 512) {
+            if (experts_per_token <= 8) {
+                return invoke(_Int<512>, _Int<8>, _Int<16>, _Int<4>);
+            }
+        }
+        return false;
+    };
+
+    auto success = dispatch();
+
+    TM_CHECK(success) << "unsupported moe config: expert_num=" << experts << ", top_k=" << experts_per_token
+                      << ", softmax=" << softmax << ", norm_topk=" << norm_topk;
+}
+
+// Kernel: compute f2n, f2E, en2f from recv_topk_idx after EP dispatch.
+// One CTA per local expert. Each CTA scans all received tokens in chunks,
+template<int block_dim>
+__global__ void MoeEpRoutingMapKernel(
+    int* f2n, int* f2E, int* en2f, const int* offsets, const int64_t* recv_topk_idx, int num_tokens, int topk)
+{
+    using BlockScan = cub::BlockScan<int, block_dim>;
+    __shared__ typename BlockScan::TempStorage temp_storage;
+
+    const int local_eid = blockIdx.x;
+
+    int write_offset = offsets[local_eid];
+
+    // All threads iterate the same number of chunks (base is thread-independent).
+    // Threads with ti >= num_tokens contribute flag=0 to BlockScan.
+    const int num_chunks = ceil_div(num_tokens, block_dim);
+    for (int chunk = 0; chunk < num_chunks; ++chunk) {
+        const int ti = chunk * block_dim + threadIdx.x;
+
+        // Check if this token is assigned to this expert
+        int match_k = -1;
+        if (ti < num_tokens) {
+            for (int k = 0; k < topk; ++k) {
+                if (static_cast<int>(recv_topk_idx[ti * topk + k]) == local_eid) {
+                    match_k = k;
+                    break;
+                }
+            }
+        }
+
+        int flag = (match_k >= 0) ? 1 : 0;
+        int prefix;
+        int block_total;
+        BlockScan(temp_storage).ExclusiveSum(flag, prefix, block_total);
+        __syncthreads();
+
+        if (match_k >= 0) {
+            const int flat_id               = write_offset + prefix;
+            f2n[flat_id]                    = ti;
+            f2E[flat_id]                    = local_eid;
+            en2f[match_k * num_tokens + ti] = flat_id;
+        }
+
+        write_offset += block_total;
+    }
+}
+
+void invokeMoeRoutingMapEp(int*           f2n,
+                           int*           f2E,
+                           int*           en2f,
+                           int*           offsets,
+                           const int64_t* recv_topk_idx,
+                           int            num_tokens,
+                           int            topk,
+                           int            num_local_experts,
+                           cudaStream_t   stream)
+{
+    if (num_tokens == 0) {
+        return;
+    }
+
+    constexpr int block = 256;
+    check_cuda_error(cudaMemsetAsync(en2f, -1, sizeof(int) * num_tokens * topk, stream));
+    // One CTA per local expert
+    MoeEpRoutingMapKernel<block>
+        <<<num_local_experts, block, 0, stream>>>(f2n, f2E, en2f, offsets, recv_topk_idx, num_tokens, topk);
+    sync_check_cuda_error();
+}
+
+template<int vec_size, int block_dim, class T>
+__global__ void MoeAddBiasKernel(T* dst, const T* bias, const int* f2E, int dim)
+{
+    if constexpr (TURBOMIND_ARCH_DTYPE_GUARD(data_type_v<T>)) {
+        const int ti = blockIdx.x;
+
+        dst += (int64_t)dim * ti;
+        bias += (int64_t)dim * __ldg(&f2E[ti]);
+
+        using Vec = Array<T, vec_size>;
+
+        for (int i = threadIdx.x * vec_size; i < dim; i += block_dim * vec_size) {
+            Vec x;
+            Vec b;
+            Load(x, dst + i);
+            Load(b, bias + i);
+            PRAGMA_UNROLL
+            for (int j = 0; j < vec_size; ++j) {
+                x[j] = (T)((float)x[j] + (float)b[j]);
+            }
+            Store(dst + i, x);
+        }
+    }
+}
+
+void invokeMoeAddBias(Ref<Tensor> out_, const Tensor& bias, const int* f2E, cudaStream_t st)
+{
+    auto& out = out_.get();
+
+    if (!bias || out.shape(0) == 0) {
+        return;
+    }
+
+    TM_CHECK_NOTNULL(f2E);
+    TM_CHECK_EQ(out.shape(1), bias.shape(1));
+    TM_CHECK_EQ(out.dtype(), bias.dtype());
+
+    const int tokens = out.shape(0);
+    const int dim    = out.shape(1);
+
+    auto dispatch = [&](auto t) {
+        using T                = decltype(t);
+        constexpr int threads  = 256;
+        constexpr int vec_size = 16 / sizeof(T);
+
+        TM_CHECK_EQ(dim % vec_size, 0);
+
+        MoeAddBiasKernel<vec_size, threads><<<tokens, threads, 0, st>>>(out.data<T>(), bias.data<T>(), f2E, dim);
+        sync_check_cuda_error();
+    };
+
+    TM_DISPATCH_PRIMARY_DTYPES(out.dtype(), dispatch);
+}
+
+// Combine kernel for EP mode: one CTA per received token.
+// For each token, gather expert outputs weighted by topk_weights and sum them.
+// en2f[k * tokens + ti] gives the flat index in src for token ti's k-th expert slot,
+// or -1 if no local expert matched that slot.
+template<int vec_size, int exp_k, bool has_bias, int block_dim, class T>
+__global__ void MoeCombineKernel(T*           dst,           // [num_tokens, dim]
+                                 const T*     src,           // [expert_token_num, dim]
+                                 const T*     bias,          // [num_local_experts, dim]
+                                 const float* topk_weights,  // [num_tokens, topk]
+                                 const int*   en2f,          // [topk, num_tokens]
+                                 const int*   f2E,           // [expert_token_num]
+                                 int          dim,
+                                 int          tokens)
+{
+    if constexpr (TURBOMIND_ARCH_DTYPE_GUARD(data_type_v<T>)) {
+        const int ti = blockIdx.x;
+
+        dst += (int64_t)dim * ti;
+
+        // Gather source pointers and weights for this token's expert slots
+        const T* src_[exp_k]{};
+        const T* bias_[exp_k]{};
+        float    weight[exp_k]{};
+
+        PRAGMA_UNROLL
+        for (int e = 0; e < exp_k; ++e) {
+            const int fid = __ldg(&en2f[e * tokens + ti]);
+            if (fid >= 0) {
+                src_[e]   = src + (int64_t)dim * fid;
+                weight[e] = __ldg(&topk_weights[ti * exp_k + e]);
+                if constexpr (has_bias) {
+                    bias_[e] = bias + (int64_t)dim * __ldg(&f2E[fid]);
+                }
+            }
+        }
+
+        using Vec = Array<T, vec_size>;
+
+        for (int i = threadIdx.x * vec_size; i < dim; i += block_dim * vec_size) {
+            Array<float, vec_size> accum{};
+            PRAGMA_UNROLL
+            for (int e = 0; e < exp_k; ++e) {
+                if (src_[e] == nullptr) {
+                    continue;
+                }
+                Vec v;
+                Load(v, src_[e] + i);
+                if constexpr (has_bias) {
+                    Vec b;
+                    Load(b, bias_[e] + i);
+                    PRAGMA_UNROLL
+                    for (int j = 0; j < vec_size; ++j) {
+                        v[j] = (T)((float)v[j] + (float)b[j]);
+                    }
+                }
+                using namespace ops;
+                const auto x = cast<float>(v) * weight[e];
+                accum        = accum + x;
+            }
+            Store(&dst[i], cast<T>(accum));
+        }
+    }
+}
+
+void invokeMoeLocalCombineEp(Ref<Tensor>   out_,
+                             const Tensor& src,
+                             const Tensor& bias,
+                             const float*  topk_weights,
+                             const int*    en2f,
+                             const int*    f2E,
+                             int           experts_per_token,
+                             cudaStream_t  st)
+{
+    auto& out = out_.get();
+
+    const int tokens = out.shape(0);
+
+    if (tokens == 0) {
+        return;
+    }
+
+    const int dim = src.shape(1);
+
+    auto dispatch_topk = [&](auto has_bias, auto t) {
+        using T               = decltype(t);
+        constexpr int threads = 256;
+        constexpr int vsize   = 16 / sizeof(T);
+
+        auto invoke = [&](auto e) {
+            constexpr int exp_per_tok = decltype(e)::value;
+            MoeCombineKernel<vsize, exp_per_tok, has_bias.value, threads><<<tokens, threads, 0, st>>>(  //
+                out.data<T>(),
+                src.data<T>(),
+                bias.data_or((T*)nullptr),
+                topk_weights,
+                en2f,
+                f2E,
+                dim,
+                tokens);
+            sync_check_cuda_error();
+        };
+
+        switch (experts_per_token) {
+            case 1:
+                return invoke(std::integral_constant<int, 1>{});
+            case 2:
+                return invoke(std::integral_constant<int, 2>{});
+            case 4:
+                return invoke(std::integral_constant<int, 4>{});
+            case 6:
+                return invoke(std::integral_constant<int, 6>{});
+            case 8:
+                return invoke(std::integral_constant<int, 8>{});
+            default:
+                TM_CHECK(0) << "unsupported experts_per_token " << experts_per_token;
+        }
+    };
+
+    auto dispatch_dtype = [&](auto t) {
+        if (bias) {
+            TM_CHECK_NOTNULL(f2E);
+            return dispatch_topk(std::true_type{}, t);
+        }
+        else {
+            return dispatch_topk(std::false_type{}, t);
+        }
+    };
+
+    TM_DISPATCH_PRIMARY_DTYPES(src.dtype(), dispatch_dtype);
+}
+
+template<int vec_size, int block_dim, class T>
+__global__ void MoeCombineOutputEpKernel(T*           dst,            // [tokens, dim]
+                                         const T*     src,            // [tokens, dim]
+                                         const float* shared_scales,  // [tokens] or nullptr
+                                         int          dim,
+                                         float        scale)
+{
+    if constexpr (TURBOMIND_ARCH_DTYPE_GUARD(data_type_v<T>)) {
+        const int ti = blockIdx.x;
+
+        float dst_scale = scale;
+        if (shared_scales) {
+            dst_scale = __ldg(&shared_scales[ti]);
+            dst_scale = fdividef(1.f, 1.f + expf(-dst_scale));
+        }
+
+        dst += (int64_t)dim * ti;
+        src += (int64_t)dim * ti;
+
+        using Vec = Array<T, vec_size>;
+
+        for (int i = threadIdx.x * vec_size; i < dim; i += block_dim * vec_size) {
+            Array<float, vec_size> accum{};
+            if (dst_scale) {
+                Vec v;
+                Load(v, &dst[i]);
+                using namespace ops;
+                accum = cast<float>(v) * dst_scale;
+            }
+            {
+                Vec v;
+                Load(v, &src[i]);
+                using namespace ops;
+                accum = accum + cast<float>(v);
+            }
+            Store(&dst[i], cast<T>(accum));
+        }
+    }
+}
+
+void invokeMoeCombineOutputEp(
+    Ref<Tensor> output, const Tensor& src, const float* shared_scales, float scale, cudaStream_t st)
+{
+    auto& out = output.get();
+
+    TM_CHECK_EQ(src.shape(0), out.shape(0));
+    TM_CHECK_EQ(src.shape(1), out.shape(1));
+
+    const int tokens = out.shape(0);
+    const int dim    = out.shape(1);
+
+    if (tokens == 0) {
+        return;
+    }
+
+    if (shared_scales == nullptr && scale == 0) {
+        TM_CHECK_EQ(src.byte_size(), out.byte_size());
+        cudaMemcpyAsync(out.raw_data(), src.raw_data(), out.byte_size(), cudaMemcpyDefault, st);
+        return;
+    }
+
+    auto dispatch = [&](auto t) {
+        using T                = decltype(t);
+        constexpr int threads  = 256;
+        constexpr int vec_size = 16 / sizeof(T);
+        MoeCombineOutputEpKernel<vec_size, threads><<<tokens, threads, 0, st>>>(  //
+            out.data<T>(),
+            src.data<T>(),
+            shared_scales,
+            dim,
+            scale);
+        sync_check_cuda_error();
+    };
+
+    TM_DISPATCH_PRIMARY_DTYPES(src.dtype(), dispatch);
+}
+
+__global__ void MoeLLDispatchRoutingMapKernel(int* moe_recv_counter_mapped,  //
+                                              int* f2n,
+                                              int* f2E,
+                                              const int* __restrict__ offsets)
+{
+    const int ei    = blockIdx.x;
+    const int begin = offsets[ei];
+    const int end   = offsets[ei + 1];
+
+    if (ei == gridDim.x - 1 && threadIdx.x == 0) {
+        *moe_recv_counter_mapped = end;
+    }
+
+    for (int idx = begin + threadIdx.x; idx < end; idx += blockDim.x) {
+        f2n[idx] = idx;
+        f2E[idx] = ei;
+    }
+}
+
+__global__ void MoeLLDispatchCopyKernel(int4* out,
+                                        const int4* __restrict__ x,
+                                        int hidden_int4,
+                                        const int* __restrict__ offsets,
+                                        int num_max_tokens,
+                                        int num_local_experts)
+{
+    int row = blockIdx.x;
+
+    int lo = 0;
+    int hi = num_local_experts;
+    while (lo + 1 < hi) {
+        const int mid = (lo + hi) >> 1;
+        if (offsets[mid] <= row) {
+            lo = mid;
+        }
+        else {
+            hi = mid;
+        }
+    }
+
+    const int   src_row = row - offsets[lo];
+    const int4* src     = x + (lo * num_max_tokens + src_row) * hidden_int4;
+    int4*       dst     = out + row * hidden_int4;
+    for (int i = threadIdx.x; i < hidden_int4; i += blockDim.x) {
+        __stcg(dst + i, __ldcg(src + i));
+    }
+}
+
+void invokeMoeLLDispatchPostprocess(Tensor&       out,  //
+                                    int*          f2n,
+                                    int*          f2E,
+                                    const int*    offsets,
+                                    volatile int* moe_recv_counter,
+                                    int*          moe_recv_counter_mapped,
+                                    Tensor&       packed_recv_x,
+                                    cudaStream_t  st)
+{
+    const int num_local_experts = packed_recv_x.shape(0);
+    const int num_max_tokens    = packed_recv_x.shape(1);
+    const int hidden            = packed_recv_x.shape(2);
+    const int threads           = 256;
+
+    *moe_recv_counter = -1;
+    MoeLLDispatchRoutingMapKernel<<<num_local_experts, threads, 0, st>>>(moe_recv_counter_mapped, f2n, f2E, offsets);
+    sync_check_cuda_error();
+    core::Context::stream().Sync();
+
+    while (*moe_recv_counter < 0) {};
+    out = Tensor({*moe_recv_counter, hidden}, packed_recv_x.dtype(), packed_recv_x.device());
+    TM_CHECK_EQ(hidden * byte_size(packed_recv_x.dtype()) % sizeof(int4), 0LL);
+    const int hidden_int4 = hidden * byte_size(packed_recv_x.dtype()) / sizeof(int4);
+    if (*moe_recv_counter > 0) {
+        MoeLLDispatchCopyKernel<<<*moe_recv_counter, threads, 0, st>>>((int4*)out.raw_data(),
+                                                                       (const int4*)packed_recv_x.raw_data(),
+                                                                       hidden_int4,
+                                                                       offsets,
+                                                                       num_max_tokens,
+                                                                       num_local_experts);
+    }
+}
+
+__global__ void MoeLLCombinePreprocessKernel(int4* out,
+                                             const int4* __restrict__ x,
+                                             int hidden_int4,
+                                             const int* __restrict__ offsets,
+                                             int num_max_tokens,
+                                             int num_local_experts)
+{
+    int row = blockIdx.x;
+
+    int lo = 0;
+    int hi = num_local_experts;
+    while (lo + 1 < hi) {
+        const int mid = (lo + hi) >> 1;
+        if (offsets[mid] <= row) {
+            lo = mid;
+        }
+        else {
+            hi = mid;
+        }
+    }
+
+    const int   dst_row = row - offsets[lo];
+    const int4* src     = x + row * hidden_int4;
+    int4*       dst     = out + (lo * num_max_tokens + dst_row) * hidden_int4;
+    for (int i = threadIdx.x; i < hidden_int4; i += blockDim.x) {
+        __stcg(dst + i, __ldcg(src + i));
+    }
+}
+
+void invokeMoeLLCombinePreprocess(Tensor& out, const Tensor& src, const int* offsets, cudaStream_t st)
+{
+    const int tokens = src.shape(0);
+    if (tokens == 0) {
+        return;
+    }
+
+    const int num_max_tokens    = out.shape(1);
+    const int num_local_experts = out.shape(0);
+    const int hidden            = src.shape(1);
+
+    TM_CHECK_EQ(hidden * byte_size(src.dtype()) % sizeof(int4), 0LL);
+    const int hidden_int4 = hidden * byte_size(src.dtype()) / sizeof(int4);
+
+    const int threads = 256;
+    MoeLLCombinePreprocessKernel<<<tokens, threads, 0, st>>>(
+        (int4*)out.raw_data(), (const int4*)src.raw_data(), hidden_int4, offsets, num_max_tokens, num_local_experts);
+}
+
+}  // namespace turbomind
diff --git a/src/turbomind/kernels/gemm/moe_ep_utils.h b/src/turbomind/kernels/gemm/moe_ep_utils.h
new file mode 100644
index 0000000000..7d5a546a2a
--- /dev/null
+++ b/src/turbomind/kernels/gemm/moe_ep_utils.h
@@ -0,0 +1,63 @@
+// Copyright (c) OpenMMLab. All rights reserved.
+
+#pragma once
+
+#include <cstdint>
+
+#include "src/turbomind/core/core.h"
+
+namespace turbomind {
+
+void invokeMoeGateEp(float*       topk_weights,
+                     int64_t*     topk_idx,
+                     const float* logits,
+                     int          tokens,
+                     int          experts,
+                     int          experts_per_token,
+                     bool         softmax,
+                     bool         norm_topk,
+                     float        routed_scale,
+                     cudaStream_t stream);
+
+// Compute f2n, f2E, en2f mappings from recv_topk_idx after EP dispatch.
+void invokeMoeRoutingMapEp(int*           f2n,
+                           int*           f2E,
+                           int*           en2f,
+                           int*           offsets,
+                           const int64_t* recv_topk_idx,
+                           int            num_tokens,
+                           int            topk,
+                           int            num_local_experts,
+                           cudaStream_t   stream);
+
+// Add expert-specific bias to received expert outputs in-place for low latency combine.
+void invokeMoeAddBias(Ref<Tensor> out, const Tensor& bias, const int* f2E, cudaStream_t st);
+
+// Local reduce experts outputs before combine in EP mode(High throughput).
+void invokeMoeLocalCombineEp(Ref<Tensor>   out,
+                             const Tensor& src,
+                             const Tensor& bias,
+                             const float*  topk_weights,
+                             const int*    en2f,
+                             const int*    f2E,
+                             int           experts_per_token,
+                             cudaStream_t  st);
+
+// Combine EP expert reduce result with shared expert output.
+// output = output * shared_scale + src
+// where shared_scale = sigmoid(shared_scales[ti]) if not null, else = scale.
+void invokeMoeCombineOutputEp(
+    Ref<Tensor> output, const Tensor& src, const float* shared_scales, float scale, cudaStream_t st);
+
+void invokeMoeLLDispatchPostprocess(Tensor&       out,
+                                    int*          f2n,
+                                    int*          f2E,
+                                    const int*    offsets,
+                                    volatile int* moe_recv_counter,
+                                    int*          moe_recv_counter_mapped,
+                                    Tensor&       packed_recv_x,
+                                    cudaStream_t  st);
+
+void invokeMoeLLCombinePreprocess(Tensor& out, const Tensor& src, const int* offsets, cudaStream_t st);
+
+}  // namespace turbomind
diff --git a/src/turbomind/models/llama/FusedRMSNormLayer.h b/src/turbomind/models/llama/FusedRMSNormLayer.h
new file mode 100644
index 0000000000..39d8414646
--- /dev/null
+++ b/src/turbomind/models/llama/FusedRMSNormLayer.h
@@ -0,0 +1,172 @@
+#pragma once
+
+#include "src/turbomind/comm/device_comm.h"
+#include "src/turbomind/core/core.h"
+#include "src/turbomind/kernels/norm/rms_norm.h"
+
+#include <memory>
+
+namespace turbomind {
+
+struct FusedRMSNormLayerParam {
+    int                   ep_size;
+    size_t                hidden_units;
+    float                 rmsnorm_eps;
+    int                   attn_tp_group;
+    comm::DeviceCommImpl* d_comm;
+};
+
+struct FusedRMSNormLayerForwardParam {
+    // for tp mode
+    Tensor                  global_hidden_states;
+    Tensor                  local_hidden_states;
+    Tensor                  local_residual;
+    const std::vector<int>& local_token_nums;
+    int                     global_token_num;
+
+    // for ep mode
+    Tensor               partial_hidden_states;
+    Tensor               partial_local_residual;
+    std::vector<int>&    token_nums;
+    std::vector<size_t>& counts;
+};
+
+enum class FusedRMSNormLayerStage : int
+{
+    kAttn,
+    kFfn,
+};
+
+class FusedRMSNormLayer {
+public:
+    virtual void forward(FusedRMSNormLayerForwardParam& param,
+                         const Tensor&                  weight,
+                         const Tensor&                  bias,
+                         FusedRMSNormLayerStage         stage) = 0;
+
+    virtual ~FusedRMSNormLayer() = default;
+};
+
+class FusedRMSNormLayerTp: public FusedRMSNormLayer {
+public:
+    FusedRMSNormLayerTp(const FusedRMSNormLayerParam& param): param_(param) {}
+
+    ~FusedRMSNormLayerTp() = default;
+
+    void forward(FusedRMSNormLayerForwardParam& param,
+                 const Tensor&                  weight,
+                 const Tensor&                  bias,
+                 FusedRMSNormLayerStage         stage) override
+    {
+        // AllReduceResidualRMSNorm
+        const int group0 = stage == FusedRMSNormLayerStage::kAttn ? param_.attn_tp_group : 0;
+        const int group1 = stage == FusedRMSNormLayerStage::kAttn ? 0 : param_.attn_tp_group;
+
+        const auto dtype = param.global_hidden_states.dtype();
+
+        const auto stream = core::Context::stream().handle();
+
+        if (0) {}
+        else if (group0 || group1) {
+            param_.d_comm->AllreduceResidualBiasRMSnormEx(param.global_hidden_states.raw_data(),
+                                                          param.local_residual.data_or((void*)nullptr),
+                                                          bias.data_or((void*)nullptr),
+                                                          weight.raw_data(),
+                                                          param_.rmsnorm_eps,
+                                                          param_.hidden_units,
+                                                          dtype,
+                                                          group0,
+                                                          group1,
+                                                          param.local_token_nums.data(),
+                                                          stream);
+            sync_check_cuda_error();
+        }
+        else if (param_.d_comm) {
+            param_.d_comm->AllreduceResidualBiasRMSnorm(param.global_hidden_states.raw_data(),
+                                                        param.local_residual.data_or((void*)nullptr),
+                                                        bias.data_or((void*)nullptr),
+                                                        weight.raw_data(),
+                                                        param_.rmsnorm_eps,
+                                                        param_.hidden_units,
+                                                        param.global_token_num,
+                                                        dtype,
+                                                        0,
+                                                        stream);
+            sync_check_cuda_error();
+        }
+        else {
+            invokeResidualBiasRMSNorm(param.global_hidden_states.raw_data(),
+                                      param.local_residual.data_or((void*)nullptr),
+                                      weight.raw_data(),
+                                      bias.data_or((void*)nullptr),
+                                      dtype,
+                                      param_.hidden_units,
+                                      param.global_token_num,
+                                      param_.rmsnorm_eps,
+                                      stream);
+            sync_check_cuda_error();
+        }
+    }
+
+private:
+    FusedRMSNormLayerParam param_;
+};
+
+class FusedRMSNormLayerEp: public FusedRMSNormLayer {
+public:
+    FusedRMSNormLayerEp(const FusedRMSNormLayerParam& param): param_(param) {}
+
+    void forward(FusedRMSNormLayerForwardParam& param,
+                 const Tensor&                  weight,
+                 const Tensor&                  bias,
+                 FusedRMSNormLayerStage         stage) override
+    {
+        const auto stream = core::Context::stream().handle();
+
+        if (stage == FusedRMSNormLayerStage::kAttn) {
+            param_.d_comm->ReduceScatterV(param.local_hidden_states.data_or((void*)nullptr),  //
+                                          param.partial_hidden_states.data_or((void*)nullptr),
+                                          param.counts.data(),
+                                          param.local_hidden_states.dtype(),
+                                          param_.attn_tp_group,
+                                          stream);
+            sync_check_cuda_error();
+        }
+
+        invokeResidualBiasRMSNorm(param.partial_hidden_states.data_or((void*)nullptr),
+                                  param.partial_local_residual.data_or((void*)nullptr),
+                                  weight.raw_data(),
+                                  bias.data_or((void*)nullptr),
+                                  param.partial_hidden_states.dtype(),
+                                  param_.hidden_units,
+                                  param.token_nums[param_.d_comm->rank(param_.attn_tp_group)],
+                                  param_.rmsnorm_eps,
+                                  stream);
+        sync_check_cuda_error();
+
+        if (stage == FusedRMSNormLayerStage::kFfn) {
+            param_.d_comm->AllGatherV(param.partial_hidden_states.data_or((void*)nullptr),
+                                      param.local_hidden_states.data_or((void*)nullptr),
+                                      param.counts.data(),
+                                      param.local_hidden_states.dtype(),
+                                      param_.attn_tp_group,
+                                      stream);
+            sync_check_cuda_error();
+        }
+    }
+
+    ~FusedRMSNormLayerEp() = default;
+
+private:
+    FusedRMSNormLayerParam param_;
+};
+
+inline std::unique_ptr<FusedRMSNormLayer> CreateFusedRMSNormLayer(const FusedRMSNormLayerParam& param)
+{
+    if (param.ep_size > 1) {
+        return std::make_unique<FusedRMSNormLayerEp>(param);
+    }
+    return std::make_unique<FusedRMSNormLayerTp>(param);
+}
+
+};  // namespace turbomind
diff --git a/src/turbomind/models/llama/LlamaDecoderLayerWeight.cc b/src/turbomind/models/llama/LlamaDecoderLayerWeight.cc
index f9774671f1..b1237ae1b6 100644
--- a/src/turbomind/models/llama/LlamaDecoderLayerWeight.cc
+++ b/src/turbomind/models/llama/LlamaDecoderLayerWeight.cc
@@ -65,8 +65,10 @@ LlamaDecoderLayerWeight::LlamaDecoderLayerWeight(
     attn_bias_(model.attn_bias),
     attn_tp_size_(engine.attn_tp_size),
     attn_tp_rank_(engine.attn_tp_rank),
-    mlp_tp_size_(engine.mlp_tp_size),
-    mlp_tp_rank_(engine.mlp_tp_rank)
+    mlp_tp_size_(engine.ep_size > 1 ? 1 : engine.mlp_tp_size),
+    mlp_tp_rank_(engine.ep_size > 1 ? 0 : engine.mlp_tp_rank),
+    ep_size_(engine.ep_size),
+    ep_rank_(engine.ep_rank)
 {
     bool is_linear_attention = false;
     if (layer_id < (int)model.layer_types.size() && model.layer_types[layer_id] == 1) {
@@ -144,6 +146,8 @@ LlamaDecoderLayerWeight::LlamaDecoderLayerWeight(
                                            model.group_size,
                                            mlp_tp_size_,
                                            mlp_tp_rank_,
+                                           ep_size_,
+                                           ep_rank_,
                                            model.act_type,
                                            is_fuse_silu_act()});
         register_module("moe_ffn", *moe_weights);
diff --git a/src/turbomind/models/llama/LlamaDecoderLayerWeight.h b/src/turbomind/models/llama/LlamaDecoderLayerWeight.h
index 6ac387ab12..b44a12acba 100644
--- a/src/turbomind/models/llama/LlamaDecoderLayerWeight.h
+++ b/src/turbomind/models/llama/LlamaDecoderLayerWeight.h
@@ -70,6 +70,8 @@ struct LlamaDecoderLayerWeight: core::Module {
     int  attn_tp_rank_;
     int  mlp_tp_size_;
     int  mlp_tp_rank_;
+    int  ep_size_;
+    int  ep_rank_;
 };
 
 }  // namespace turbomind
diff --git a/src/turbomind/models/llama/LlamaDenseWeight.cc b/src/turbomind/models/llama/LlamaDenseWeight.cc
index 1764d3622a..5fb3e8451b 100644
--- a/src/turbomind/models/llama/LlamaDenseWeight.cc
+++ b/src/turbomind/models/llama/LlamaDenseWeight.cc
@@ -556,6 +556,8 @@ MoeFfnWeight::MoeFfnWeight(int             layer_id,
                            int             group_size,
                            int             tp_size,
                            int             tp_rank,
+                           int             ep_size,
+                           int             ep_rank,
                            ActivationType  act_type,
                            bool            fuse_silu_act)
 {
@@ -584,8 +586,10 @@ MoeFfnWeight::MoeFfnWeight(int             layer_id,
         fuse_silu_act = false;
     }
 
-    experts.reserve(expert_num);
-    for (int i = 0; i < expert_num; ++i) {
+    const int local_expert_num = expert_num / ep_size;
+    const int expert_offset    = ep_rank * local_expert_num;
+    experts.reserve(local_expert_num);
+    for (int i = 0; i < local_expert_num; ++i) {
         experts.emplace_back(new LlamaFfnWeight{hidden_dim,
                                                 param.inter_size,
                                                 mlp_bias,
@@ -596,7 +600,7 @@ MoeFfnWeight::MoeFfnWeight(int             layer_id,
                                                 group_size,
                                                 act_type,
                                                 fuse_silu_act});
-        register_module("experts", *experts.back(), i);
+        register_module("experts", *experts.back(), i + expert_offset);
     }
 
     if (param.shared_gate) {
diff --git a/src/turbomind/models/llama/LlamaDenseWeight.h b/src/turbomind/models/llama/LlamaDenseWeight.h
index 7aa8673586..f3671ef82e 100644
--- a/src/turbomind/models/llama/LlamaDenseWeight.h
+++ b/src/turbomind/models/llama/LlamaDenseWeight.h
@@ -166,6 +166,8 @@ struct MoeFfnWeight: core::Module {
                  int             group_size,
                  int             tp_size,
                  int             tp_rank,
+                 int             ep_size,
+                 int             ep_rank,
                  ActivationType  act_type,
                  bool            fuse_silu_act);
 
diff --git a/src/turbomind/models/llama/llama_params.h b/src/turbomind/models/llama/llama_params.h
index b61e5b1fe8..15421985e7 100644
--- a/src/turbomind/models/llama/llama_params.h
+++ b/src/turbomind/models/llama/llama_params.h
@@ -111,6 +111,9 @@ struct MoeParam {
     int         router_n_groups;
 
     std::vector<int> expert_num;
+
+    // low latency threshold
+    int ll_max_tokens_per_rank;
 };
 
 struct AttentionParam {
@@ -152,6 +155,8 @@ struct EngineParam {
     int attn_cp_rank;
     int mlp_tp_size;
     int mlp_tp_rank;
+    int ep_size;
+    int ep_rank;
 
     // multi-node
     int nnodes;
diff --git a/src/turbomind/models/llama/llama_utils.cu b/src/turbomind/models/llama/llama_utils.cu
index d625b5dd59..7d1a278380 100644
--- a/src/turbomind/models/llama/llama_utils.cu
+++ b/src/turbomind/models/llama/llama_utils.cu
@@ -128,6 +128,7 @@ void Compare(T* ptr, size_t size, std::string key, CmpMode mode, cudaStream_t st
 template void Compare(int* ptr, size_t size, std::string key, CmpMode mode, cudaStream_t stream);
 template void Compare(float* ptr, size_t size, std::string key, CmpMode mode, cudaStream_t stream);
 template void Compare(half* ptr, size_t size, std::string key, CmpMode mode, cudaStream_t stream);
+template void Compare(int64_t* ptr, size_t size, std::string key, CmpMode mode, cudaStream_t stream);
 template void Compare(__nv_bfloat16* ptr, size_t size, std::string key, CmpMode mode, cudaStream_t stream);
 
 template void CheckNan(const float* ptr, size_t size, std::string key, cudaStream_t stream);
diff --git a/src/turbomind/models/llama/moe_ffn_layer.cc b/src/turbomind/models/llama/moe_ffn_layer.cc
index f1a16f5a68..86b67ea1f0 100644
--- a/src/turbomind/models/llama/moe_ffn_layer.cc
+++ b/src/turbomind/models/llama/moe_ffn_layer.cc
@@ -6,6 +6,7 @@
 #include "src/turbomind/kernels/activation.h"
 #include "src/turbomind/kernels/norm/rms_norm.h"
 
+#include "src/turbomind/kernels/gemm/moe_ep_utils.h"
 #include "src/turbomind/models/llama/LlamaDenseWeight.h"
 #include "src/turbomind/models/llama/LlamaLinear.h"
 #include "src/turbomind/models/llama/llama_params.h"
@@ -20,16 +21,19 @@
 namespace turbomind {
 
 MoeFfnLayer::MoeFfnLayer(const ModelParam& model, const MoeParam& param, const EngineParam& engine, const Context& ctx):
-    inter_size_(param.inter_size / engine.mlp_tp_size),
+    inter_size_(param.inter_size / (engine.ep_size > 1 ? 1 : engine.mlp_tp_size)),
     hidden_dim_(model.hidden_units),
     tp_size_(engine.mlp_tp_size),
+    ep_size_(engine.ep_size),
     param_(param),
     is_warm_up_{*ctx.is_warm_up},
-    linear_(*ctx.linear)
+    linear_(*ctx.linear),
+    d_comm_(ctx.comm.d_comm)
 {
     TM_CHECK(!param.expert_num.empty());
 
-    const int max_expert_num = *std::max_element(param.expert_num.begin(), param.expert_num.end());
+    const int max_local_expert_num =
+        *std::max_element(param.expert_num.begin(), param.expert_num.end()) / engine.ep_size;
 
     if (param_.method == MoeParam::kFused) {
         // pass
@@ -38,7 +42,7 @@ MoeFfnLayer::MoeFfnLayer(const ModelParam& model, const MoeParam& param, const E
         expert_ffn_ = std::make_unique<LlamaFfnLayer>(model, ctx);
     }
 
-    h_offsets_ = {max_expert_num + 1, kCPUpinned};
+    h_offsets_ = {max_local_expert_num + 1, kCPUpinned};
 
     const int max_token_num = engine.max_forward_token_num * engine.attn_dp_size;
     const int pad_token_num = (max_token_num + kMoeGateVecSize - 1) / kMoeGateVecSize * kMoeGateVecSize;
@@ -48,18 +52,28 @@ MoeFfnLayer::MoeFfnLayer(const ModelParam& model, const MoeParam& param, const E
     //     tp_size_,
     //     param_.method,
     //     param.expert_num,
-    //     max_expert_num,
+    //     max_local_expert_num,
     //     max_token_num,
     //     pad_token_num,
     //     param_.experts_per_token);
 
-    masks_   = {max_expert_num * pad_token_num, kDEVICE};
+    masks_   = {max_local_expert_num * pad_token_num, kDEVICE};
     f2n_     = {param_.experts_per_token * max_token_num, kDEVICE};
     f2E_     = {param_.experts_per_token * max_token_num, kDEVICE};
     en2f_    = {param_.experts_per_token * max_token_num, kDEVICE};
     scales_  = {param_.experts_per_token * max_token_num, kDEVICE};
-    offsets_ = {max_expert_num + 1, kDEVICE};
-    accum_   = {max_expert_num * kMoeGateMaxTiles, kDEVICE};
+    offsets_ = {max_local_expert_num + 1, kDEVICE};
+    accum_   = {max_local_expert_num * kMoeGateMaxTiles, kDEVICE};
+
+    if (ep_size_ > 1) {
+        // TODO: support Glm4MoeForCausalLM Routing
+        TM_CHECK_NE(param_.topk_method, "noaux_tc") << "This model doesn't support EP";
+
+        ep_mode_      = comm::EpMode::kNull;
+        topk_weights_ = {max_token_num * param_.experts_per_token, kDEVICE};
+        topk_idx_     = {max_token_num * param_.experts_per_token, kDEVICE};
+        Clear(offsets_);
+    }
 }
 
 Tensor_<float> MoeFfnLayer::Gate(const Tensor& input, const LlamaDenseWeight& gate)
@@ -67,14 +81,16 @@ Tensor_<float> MoeFfnLayer::Gate(const Tensor& input, const LlamaDenseWeight& ga
     auto& weight = gate.weight;
     TM_CHECK_EQ(input.shape(1), weight.shape(0));
     Tensor_<float> logits{{input.shape(0), weight.shape(1)}, kDEVICE};
-    linear_.Forward(input, gate, logits);
-    sync_check_cuda_error();
-    ApplyBias(logits, gate.bias, core::Context::stream().handle());
-    sync_check_cuda_error();
+    if (input.shape(0) > 0) {
+        linear_.Forward(input, gate, logits);
+        sync_check_cuda_error();
+        ApplyBias(logits, gate.bias, core::Context::stream().handle());
+        sync_check_cuda_error();
+    }
     return logits;
 }
 
-void MoeFfnLayer::Forward(ForwardParam& p)
+void MoeFfnLayer::RouteTP(ForwardParam& p, Tensor_<float>& logits)
 {
     const int   tokens = p.input.shape(0);
     const auto& moe    = *p.weights;
@@ -84,14 +100,8 @@ void MoeFfnLayer::Forward(ForwardParam& p)
 
     FT_CHECK(expert_num);
 
-    auto logits = Gate(p.input, moe.gate);
-
-    TM_DEBUG_TENSOR(logits, "logits", 2);
-
     const auto st = core::Context::stream().handle();
 
-    // dump_logits(tokens, layer_id);
-
     if (param_.topk_method == "noaux_tc") {
         // invokeMoeGate_NoAuxTC clears accum and masks internally
         TM_CHECK_EQ(param_.n_group, 1);
@@ -148,70 +158,203 @@ void MoeFfnLayer::Forward(ForwardParam& p)
     }
     sync_check_cuda_error();
 
-    if (is_warm_up_) {
-        std::mt19937     g;
-        const auto       expert_ids = SampleUniform(tokens, expert_num, param_.experts_per_token, g);
-        std::vector<int> cnt(expert_num);
-        for (const auto& x : expert_ids) {
-            ++cnt[x];
-        }
-        h_offsets_[0] = 0;
-        for (int i = 0; i < expert_num; ++i) {
-            h_offsets_[i + 1] = h_offsets_[i] + cnt[i];
+    // input & output
+    input_ = p.input;
+    temp_  = Tensor{{param_.experts_per_token * tokens, hidden_dim_}, p.input.dtype(), p.input.device()};
+}
+
+void MoeFfnLayer::RouteEP(ForwardParam& p, Tensor_<float>& logits)
+{
+    TM_CHECK_EQ(ep_mode_, comm::EpMode::kNull);
+
+    const int   tokens     = p.input.shape(0);
+    const auto& moe        = *p.weights;
+    const int   expert_num = moe.experts.size() * ep_size_;
+    const auto  st         = core::Context::stream().handle();
+
+    bool softmax = true;
+    if (param_.topk_method == "group_limited_greedy") {
+        if (tokens > 0) {
+            invokeMoeSoftmaxMaskTopKGroups(
+                logits.data(), tokens, expert_num, expert_num / param_.n_group, param_.topk_group, st);
+            sync_check_cuda_error();
         }
-        check_cuda_error(
-            cudaMemcpyAsync(offsets_.data(), h_offsets_.data(), sizeof(int) * (expert_num + 1), cudaMemcpyDefault, st));
+        softmax = false;
     }
 
-    temp_ = Tensor{{param_.experts_per_token * tokens, hidden_dim_}, p.input.dtype(), p.input.device()};
+    Tensor_<float>   topk_weights{topk_weights_, {tokens, param_.experts_per_token}};
+    Tensor_<int64_t> topk_idx{topk_idx_, {tokens, param_.experts_per_token}};
+    invokeMoeGateEp(topk_weights.data_or((float*)nullptr),
+                    topk_idx.data_or((int64_t*)nullptr),
+                    logits.data_or((float*)nullptr),
+                    tokens,
+                    moe.experts.size() * ep_size_,
+                    param_.experts_per_token,
+                    softmax,
+                    param_.norm_topk_prob,
+                    param_.routed_scale,
+                    core::Context::stream().handle());
+    sync_check_cuda_error();
 
-    if (param_.method == MoeParam::kNaive) {
+    ep_mode_ = p.max_tokens_per_rank <= param_.ll_max_tokens_per_rank ? comm::EpMode::kLowLatency :
+                                                                        comm::EpMode::kHighThroughput;
+    comm::EpDispatchInput  dispatch_input{ep_mode_, p.input, topk_weights, topk_idx};
+    comm::EpDispatchOutput dispatch_output{{}, {}, f2n_, f2E_, en2f_, offsets_, {}};
+    d_comm_->Dispatch(dispatch_input, dispatch_output, 0);
+    sync_check_cuda_error();
 
-        invokeMoeDispatch(temp_, p.input, f2n_.data(), param_.experts_per_token, st);
-        sync_check_cuda_error();
+    input_ = dispatch_output.out_x;
+    temp_  = Tensor{{dispatch_output.out_expert_token_num, hidden_dim_}, p.input.dtype(), p.input.device()};
 
-        check_cuda_error(
-            cudaMemcpyAsync(h_offsets_.data(), offsets_.data(), sizeof(int) * (expert_num + 1), cudaMemcpyDefault, st));
+    // keep dispatch_output for combine
+    dispatch_output_ = std::make_unique<comm::EpDispatchOutput>(dispatch_output);
+}
 
-        check_cuda_error(cudaStreamSynchronize(st));
+void MoeFfnLayer::SetWarpup(ForwardParam& p)
+{
+    const int  tokens     = p.input.shape(0);
+    const int  expert_num = p.weights->experts.size();
+    const auto st         = core::Context::stream().handle();
+
+    std::mt19937     g;
+    const auto       expert_ids = SampleUniform(tokens, expert_num, param_.experts_per_token, g);
+    std::vector<int> cnt(expert_num);
+    for (const auto& x : expert_ids) {
+        ++cnt[x];
+    }
+    h_offsets_[0] = 0;
+    for (int i = 0; i < expert_num; ++i) {
+        h_offsets_[i + 1] = h_offsets_[i] + cnt[i];
+    }
+    check_cuda_error(cudaMemcpyAsync(offsets_.data(),
+                                     h_offsets_.data(),
+                                     sizeof(int) * (expert_num + 1),
+                                     cudaMemcpyDefault,
+                                     core::Context::stream().handle()));
+    // use first token
+    check_cuda_error(cudaMemsetAsync(f2n_.data(), 0, sizeof(int) * expert_ids.size(), st));
+    check_cuda_error(cudaMemsetAsync(f2E_.data(), 0, sizeof(int) * expert_ids.size(), st));
+
+    // input & output
+    input_ = p.input;
+    temp_  = Tensor{{param_.experts_per_token * tokens, hidden_dim_}, p.input.dtype(), p.input.device()};
+}
 
-        TM_CHECK_EQ(h_offsets_[expert_num], tokens * param_.experts_per_token);
+void MoeFfnLayer::Forward(ForwardParam& p)
+{
+    const int   tokens     = p.input.shape(0);
+    const auto& moe        = *p.weights;
+    const int   expert_num = moe.experts.size() * ep_size_;
 
-        for (int i = 0; i < expert_num; ++i) {
-            if (int count = h_offsets_[i + 1] - h_offsets_[i]) {
-                auto io = temp_.slice({h_offsets_[i], 0}, {count, -1});
-                expert_ffn_->forward({io, io, moe.experts.at(i).get(), p.layer_id});
-            }
-        }
+    auto logits = Gate(p.input, moe.gate);
+    TM_DEBUG_TENSOR(logits, "logits", 2);
+    // dump_logits(tokens, layer_id);
+
+    const auto st = core::Context::stream().handle();
+
+    if (is_warm_up_) {
+        SetWarpup(p);
+    }
+    else if (ep_size_ == 1) {
+        RouteTP(p, logits);
     }
     else {
+        RouteEP(p, logits);
+    }
 
-        auto& block = moe.block;
+    if (input_.shape(0) == 0) {
+        // pass
+    }
+    else if (param_.method == MoeParam::kNaive) {
+        ForwardNative(p);
+    }
+    else {
+        ForwardFused(p);
+    }
 
-        auto indices = f2n_.slice(0, tokens * param_.experts_per_token);
-        auto offsets = offsets_.slice(0, expert_num + 1);
+    if (moe.shared_gate.weight) {
+        shared_scales_ = Gate(p.input, moe.shared_gate);
+    }
+}
 
-        Tensor inter = linear_.Forward(p.input, block.fused_gating_intermediate, indices, offsets_);
-        sync_check_cuda_error();
+void MoeFfnLayer::ForwardNative(ForwardParam& p)
+{
+    TM_CHECK_EQ(ep_size_, 1);
+    TM_CHECK_GT(input_.shape(0), 0);
+
+    const auto& moe              = *p.weights;
+    const auto  st               = core::Context::stream().handle();
+    const int   tokens           = input_.shape(0);
+    const int   local_expert_num = moe.experts.size();
 
-        if (!block.is_fused_silu) {
-            Activation(inter, block.fused_gating_intermediate.bias, f2E_, moe.block.act_type, st);
+    invokeMoeDispatch(temp_, input_, f2n_.data(), param_.experts_per_token, st);
+    sync_check_cuda_error();
+
+    check_cuda_error(cudaMemcpyAsync(
+        h_offsets_.data(), offsets_.data(), sizeof(int) * (local_expert_num + 1), cudaMemcpyDefault, st));
+
+    check_cuda_error(cudaStreamSynchronize(st));
+
+    TM_CHECK_EQ(h_offsets_[local_expert_num], tokens * param_.experts_per_token);
+
+    for (int i = 0; i < local_expert_num; ++i) {
+        if (int count = h_offsets_[i + 1] - h_offsets_[i]) {
+            auto io = temp_.slice({h_offsets_[i], 0}, {count, -1});
+            expert_ffn_->forward({io, io, moe.experts.at(i).get(), p.layer_id});
             sync_check_cuda_error();
         }
+    }
+}
+
+void MoeFfnLayer::ForwardFused(ForwardParam& p)
+{
+    TM_CHECK_GT(input_.shape(0), 0);
+
+    const auto& moe              = *p.weights;
+    const auto  st               = core::Context::stream().handle();
+    const int   tokens           = input_.shape(0);
+    const int   local_expert_num = moe.experts.size();
+
+    auto& block = moe.block;
+
+    auto indices = f2n_.slice(0, temp_.shape(0));
+    auto offsets = offsets_.slice(0, local_expert_num + 1);
 
-        linear_.Forward(inter.slice({0, 0}, {-1, inter_size_}), block.output, {}, offsets, temp_);
+    Tensor inter = linear_.Forward(input_, block.fused_gating_intermediate, indices, offsets);
+    sync_check_cuda_error();
+
+    if (!block.is_fused_silu) {
+        Activation(inter, block.fused_gating_intermediate.bias, f2E_, moe.block.act_type, st);
         sync_check_cuda_error();
     }
 
-    if (moe.shared_gate.weight) {
-        shared_scales_ = Gate(p.input, moe.shared_gate);
-    }
+    linear_.Forward(inter.slice({0, 0}, {-1, inter_size_}), block.output, {}, offsets, temp_);
+    sync_check_cuda_error();
 }
 
 void MoeFfnLayer::Combine(ForwardParam& p)
 {
-    auto& moe = *p.weights;
+    if (is_warm_up_) {
+        // pass
+    }
+    else if (ep_size_ == 1) {
+        CombineTP(p);
+    }
+    else {
+        CombineEP(p);
+    }
+    sync_check_cuda_error();
+
+    input_         = {};
+    temp_          = {};
+    shared_scales_ = {};
+
+    dispatch_output_.reset();
+    ep_mode_ = comm::EpMode::kNull;
+}
 
+void MoeFfnLayer::CombineTP(ForwardParam& p)
+{
     invokeMoeCombine(p.output,
                      temp_,
                      p.weights->block.output.bias,
@@ -223,10 +366,45 @@ void MoeFfnLayer::Combine(ForwardParam& p)
                      1.f / tp_size_,
                      p.scale,
                      core::Context::stream().handle());
+}
+
+void MoeFfnLayer::CombineEP(ForwardParam& p)
+{
+    TM_CHECK_NE(ep_mode_, comm::EpMode::kNull);
+    auto st = core::Context::stream().handle();
+    // Local reduce
+    if (ep_mode_ == comm::EpMode::kHighThroughput) {
+        invokeMoeLocalCombineEp(input_,
+                                temp_,
+                                p.weights->block.output.bias,
+                                dispatch_output_->out_topk_weights.data_or((float*)nullptr),
+                                en2f_.data(),
+                                f2E_.data(),
+                                param_.experts_per_token,
+                                st);
+    }
+    else {
+        invokeMoeAddBias(temp_, p.weights->block.output.bias, f2E_.data(), st);
+    }
     sync_check_cuda_error();
 
-    temp_          = {};
-    shared_scales_ = {};
+    // Moe Reduce
+    comm::EpCombineInput  combine_input{ep_mode_, input_, dispatch_output_->handle};
+    comm::EpCombineOutput combine_output{};
+    if (ep_mode_ == comm::EpMode::kLowLatency) {
+        combine_input.x            = temp_;
+        combine_input.topk_idx     = Tensor{topk_idx_, {p.input.shape(0), param_.experts_per_token}};
+        combine_input.topk_weights = Tensor{topk_weights_, {p.input.shape(0), param_.experts_per_token}};
+    }
+    d_comm_->Combine(combine_input, combine_output, 0);
+    sync_check_cuda_error();
+
+    // Merge shared expert output.
+    invokeMoeCombineOutputEp(p.output,  //
+                             combine_output.out_x,
+                             shared_scales_.data_or((float*)nullptr),
+                             p.scale,
+                             st);
 }
 
 }  // namespace turbomind
diff --git a/src/turbomind/models/llama/moe_ffn_layer.h b/src/turbomind/models/llama/moe_ffn_layer.h
index 939cd9c60e..ea15f46f68 100644
--- a/src/turbomind/models/llama/moe_ffn_layer.h
+++ b/src/turbomind/models/llama/moe_ffn_layer.h
@@ -2,6 +2,7 @@
 
 #pragma once
 
+#include "src/turbomind/comm/device_comm.h"
 #include "src/turbomind/kernels/gemm/context.h"
 #include "src/turbomind/kernels/gemm/moe_utils_v2.h"
 #include "src/turbomind/models/llama/LlamaDenseWeight.h"
@@ -19,6 +20,7 @@ class MoeFfnLayer {
         Tensor              output;
         const MoeFfnWeight* weights;
         float               scale;
+        int                 max_tokens_per_rank;
         int                 layer_id;
     };
 
@@ -29,11 +31,26 @@ class MoeFfnLayer {
 private:
     Tensor_<float> Gate(const Tensor& input, const LlamaDenseWeight& gate);
 
+    void SetWarpup(ForwardParam& p);
+
+    void ForwardNative(ForwardParam& p);
+
+    void ForwardFused(ForwardParam& p);
+
+    void RouteTP(ForwardParam& p, Tensor_<float>& logits);
+
+    void RouteEP(ForwardParam& p, Tensor_<float>& logits);
+
+    void CombineTP(ForwardParam& p);
+
+    void CombineEP(ForwardParam& p);
+
     void dump_logits(int token_num, int layer_id, int expert_num);
 
     const int inter_size_;
     const int hidden_dim_;
     const int tp_size_;
+    const int ep_size_;
 
     const MoeParam param_;
 
@@ -55,6 +72,13 @@ class MoeFfnLayer {
     Buffer_<int>   accum_;
     Buffer_<int>   offsets_;
 
+    comm::DeviceCommImpl* const             d_comm_;
+    Buffer_<float>                          topk_weights_;
+    Buffer_<int64_t>                        topk_idx_;
+    std::unique_ptr<comm::EpDispatchOutput> dispatch_output_;
+    comm::EpMode                            ep_mode_;
+
+    Tensor         input_;
     Tensor         temp_;
     Tensor_<float> shared_scales_;
     ///////////////////////////////////////////////////////
diff --git a/src/turbomind/models/llama/unified_decoder.cc b/src/turbomind/models/llama/unified_decoder.cc
index 0a8d7508cd..bb8cb966bc 100644
--- a/src/turbomind/models/llama/unified_decoder.cc
+++ b/src/turbomind/models/llama/unified_decoder.cc
@@ -22,6 +22,101 @@
 
 namespace turbomind {
 
+struct UnifiedDecoder::HiddenStateLayout {
+    // for tp mode
+    Tensor            global_hidden_states;
+    Tensor            local_hidden_states;
+    Tensor            local_residual;
+    int               local_token_num;
+    int               global_token_num;
+    std::vector<int>& local_token_nums;
+    // for ep mode
+    Tensor              partial_hidden_states;
+    Tensor              partial_local_residual;
+    std::vector<int>    token_nums;
+    std::vector<size_t> counts;
+    int                 max_tokens_per_rank;
+};
+
+UnifiedDecoder::HiddenStateLayout UnifiedDecoder::CreateHiddenStateLayout(TensorMap& args)
+{
+    Tensor      local_residual   = args.try_consume("input_embeds");
+    const auto& local_token_nums = args.at("batch").data<BatchData*>()[0]->local_token_num;
+
+    const auto local_token_num  = local_residual.shape(0);
+    const auto global_token_num = std::accumulate(local_token_nums.begin(), local_token_nums.end(), ssize_t{});
+
+    TM_CHECK_EQ(local_token_num, local_token_nums[attn_dp_rank_]);
+
+    const DataType dtype = local_residual.dtype();
+
+    Tensor global_hidden_states;
+    if (d_comm_) {
+        Buffer symm_buf      = args.at("symm_buf").buffer();
+        global_hidden_states = {symm_buf.view(dtype), {global_token_num, (int)hidden_units_}};
+    }
+    else {
+        global_hidden_states = {{global_token_num, (int)hidden_units_}, local_residual.dtype(), kDEVICE};
+    }
+
+    Tensor local_hidden_states;
+    if (attn_dp_size_ > 1) {  // Offset hidden states buffer for mixed DP
+        TM_CHECK_EQ(local_token_nums.size(), attn_dp_size_);
+        std::vector offsets(attn_dp_size_ + 1, 0);
+        std::inclusive_scan(local_token_nums.data(), local_token_nums.data() + attn_dp_size_, offsets.begin() + 1);
+        const int offset    = offsets[attn_dp_rank_];
+        local_hidden_states = global_hidden_states.slice({offset, 0}, {local_token_num, -1});
+
+        // dbg(attn_dp_size_, attn_dp_rank_, local_token_nums, local_token_num, global_token_num);
+    }
+    else {
+        local_hidden_states = global_hidden_states;
+    }
+
+    Tensor              partial_hidden_states;
+    Tensor              partial_local_residual;
+    std::vector<int>    token_nums;
+    std::vector<size_t> counts;
+    int                 max_tokens_per_rank{-1};
+    // split inputs for ep mode
+    if (ep_size_ > 1) {
+        const int tp_size = d_comm_->n_ranks(attn_tp_group_);
+        const int tp_rank = d_comm_->rank(attn_tp_group_);
+        token_nums.reserve(tp_size);
+        counts.reserve(tp_size);
+
+        const int local_token_num = local_token_nums[attn_dp_rank_];
+
+        int q = local_token_num / tp_size;
+        int r = local_token_num % tp_size;
+        int offset{};
+        for (int i = 0; i < tp_size; ++i) {
+            token_nums.push_back(q + (i < r ? 1 : 0));
+            counts.push_back(token_nums[i] * hidden_units_);
+            if (i < tp_rank) {
+                offset += token_nums[i];
+            }
+        }
+        partial_hidden_states  = local_hidden_states.slice({offset, 0}, {token_nums[tp_rank], -1});
+        partial_local_residual = local_residual.slice({offset, 0}, {token_nums[tp_rank], -1});
+
+        const int max_tokens_per_dp_rank = *std::max_element(local_token_nums.begin(), local_token_nums.end());
+        max_tokens_per_rank = max_tokens_per_dp_rank / tp_size + (max_tokens_per_dp_rank % tp_size > 0 ? 1 : 0);
+    }
+
+    return {global_hidden_states,
+            local_hidden_states,
+            local_residual,
+            static_cast<int>(local_token_num),
+            static_cast<int>(global_token_num),
+            args.at("batch").data<BatchData*>()[0]->local_token_num,
+            partial_hidden_states,
+            partial_local_residual,
+            std::move(token_nums),
+            std::move(counts),
+            max_tokens_per_rank};
+}
+
 void UnifiedDecoder::Run(BatchOp op, int phase, TensorMap& env)
 {
     attn_layer_->Run(op, phase, env);
@@ -42,12 +137,16 @@ UnifiedDecoder::UnifiedDecoder(const ModelParam&     model,
     attn_dp_size_(engine.attn_dp_size),
     attn_dp_rank_(engine.attn_dp_rank),
     mlp_tp_size_(engine.mlp_tp_size),
+    ep_size_(engine.ep_size),
     attn_tp_group_(ctx.comm.d_tp_group),
     rmsnorm_eps_(model.norm_eps),
     d_comm_(ctx.comm.d_comm),
     tune_layer_num_(model.tune_layer_num),
     is_warm_up_{*ctx.is_warm_up}
 {
+    // mlp_tp_size_ should be equal to ep_size_ when enable EP mode
+    TM_CHECK_EQ(mlp_tp_size_, ep_size_ > 1 ? engine.ep_size : mlp_tp_size_);
+
     if (std::accumulate(moe.expert_num.begin(), moe.expert_num.end(), 0LL)) {
         moe_ffn_layer_ = std::make_unique<MoeFfnLayer>(model, moe, engine, ctx);
     }
@@ -62,61 +161,8 @@ UnifiedDecoder::UnifiedDecoder(const ModelParam&     model,
     if (std::accumulate(model.inter_size.begin(), model.inter_size.end(), 0LL)) {
         ffn_layer_ = std::make_unique<LlamaFfnLayer>(model, ctx);
     }
-}
 
-void UnifiedDecoder::AllreduceResidualRMSnorm(Tensor&       hidden_states,
-                                              Tensor&       residual,
-                                              const Tensor& bias,
-                                              const Tensor& weight,
-                                              int           token_num,
-                                              int           group0,
-                                              int           group1,
-                                              const int*    local_token_nums)
-{
-    const auto dtype = hidden_states.dtype();
-
-    const auto stream = core::Context::stream().handle();
-
-    if (0) {}
-    else if (group0 || group1) {
-        d_comm_->AllreduceResidualBiasRMSnormEx(hidden_states.raw_data(),
-                                                residual.data_or((void*)nullptr),
-                                                bias.data_or((void*)nullptr),
-                                                weight.raw_data(),
-                                                rmsnorm_eps_,
-                                                hidden_units_,
-                                                dtype,
-                                                group0,
-                                                group1,
-                                                local_token_nums,
-                                                stream);
-        sync_check_cuda_error();
-    }
-    else if (d_comm_) {
-        d_comm_->AllreduceResidualBiasRMSnorm(hidden_states.raw_data(),
-                                              residual.data_or((void*)nullptr),
-                                              bias.data_or((void*)nullptr),
-                                              weight.raw_data(),
-                                              rmsnorm_eps_,
-                                              hidden_units_,
-                                              token_num,
-                                              dtype,
-                                              0,
-                                              stream);
-        sync_check_cuda_error();
-    }
-    else {
-        invokeResidualBiasRMSNorm(hidden_states.raw_data(),
-                                  residual.data_or((void*)nullptr),
-                                  weight.raw_data(),
-                                  bias.data_or((void*)nullptr),
-                                  dtype,
-                                  hidden_units_,
-                                  token_num,
-                                  rmsnorm_eps_,
-                                  stream);
-        sync_check_cuda_error();
-    }
+    fused_rmsnorm_layer_ = CreateFusedRMSNormLayer({ep_size_, hidden_units_, rmsnorm_eps_, attn_tp_group_, d_comm_});
 }
 
 void UnifiedDecoder::Forward(int phase, TensorMap& args, const std::vector<WeightType*>& weights)
@@ -139,41 +185,17 @@ void UnifiedDecoder::Forward(int phase, TensorMap& args, const std::vector<Weigh
      *   \param block_ptrs [total_block_counts], void*
      */
 
-    constexpr auto device = kDEVICE;
-
-    Tensor      local_residual   = args.try_consume("input_embeds");
-    const auto& local_token_nums = args.at("batch").data<BatchData*>()[0]->local_token_num;
-
-    const auto local_token_num  = local_residual.shape(0);
-    const auto global_token_num = std::accumulate(local_token_nums.begin(), local_token_nums.end(), ssize_t{});
-
-    TM_CHECK_EQ(local_token_num, local_token_nums[attn_dp_rank_]);
+    auto  layout               = CreateHiddenStateLayout(args);
+    auto& global_hidden_states = layout.global_hidden_states;
+    auto& local_hidden_states  = layout.local_hidden_states;
+    auto& local_residual       = layout.local_residual;
+    auto& local_token_num      = layout.local_token_num;
+    auto& local_token_nums     = layout.local_token_nums;
+    auto& global_token_num     = layout.global_token_num;
+    auto& ffn_input            = (is_warm_up_ || ep_size_ == 1) ? global_hidden_states : layout.partial_hidden_states;
 
     const DataType dtype = local_residual.dtype();
 
-    Tensor global_hidden_states;
-    if (d_comm_) {
-        Buffer symm_buf      = args.at("symm_buf").buffer();
-        global_hidden_states = {symm_buf.view(dtype), {global_token_num, (int)hidden_units_}};
-    }
-    else {
-        global_hidden_states = {{global_token_num, (int)hidden_units_}, local_residual.dtype(), kDEVICE};
-    }
-
-    Tensor local_hidden_states;
-    if (attn_dp_size_ > 1) {  // Offset hidden states buffer for mixed DP
-        TM_CHECK_EQ(local_token_nums.size(), attn_dp_size_);
-        std::vector offsets(attn_dp_size_ + 1, 0);
-        std::inclusive_scan(local_token_nums.data(), local_token_nums.data() + attn_dp_size_, offsets.begin() + 1);
-        const int offset    = offsets[attn_dp_rank_];
-        local_hidden_states = global_hidden_states.slice({offset, 0}, {local_token_num, -1});
-
-        // dbg(attn_dp_size_, attn_dp_rank_, local_token_nums, local_token_num, global_token_num);
-    }
-    else {
-        local_hidden_states = global_hidden_states;
-    }
-
     TM_DEBUG_TENSOR(local_residual, "res", 1);
     TM_DEBUG_TENSOR(weights.at(0)->self_attn_norm, "norm_weight", 2);
 
@@ -184,6 +206,16 @@ void UnifiedDecoder::Forward(int phase, TensorMap& args, const std::vector<Weigh
 
     TM_DEBUG_TENSOR(local_hidden_states, Concat("norm0", 0), 2);
 
+    FusedRMSNormLayerForwardParam rmsnorm_fwd_param{global_hidden_states,
+                                                    local_hidden_states,
+                                                    local_residual,
+                                                    local_token_nums,
+                                                    (int)global_token_num,
+                                                    layout.partial_hidden_states,
+                                                    layout.partial_local_residual,
+                                                    layout.token_nums,
+                                                    layout.counts};
+
     // auto stack_alloc{core::Context::device_alloc().adapt<core::StackAllocatorImpl>()};
     // core::ContextGuard ctx{Allocator{stack_alloc}};
 
@@ -222,14 +254,10 @@ void UnifiedDecoder::Forward(int phase, TensorMap& args, const std::vector<Weigh
             out_bias = weights.at(layer)->self_attn_weights->output.bias;
         }
 
-        AllreduceResidualRMSnorm(global_hidden_states,
-                                 local_residual,
-                                 out_bias,
-                                 weights.at(layer)->ffn_norm,
-                                 local_token_num,
-                                 attn_tp_group_,
-                                 0,
-                                 local_token_nums.data());
+        fused_rmsnorm_layer_->forward(rmsnorm_fwd_param,  //
+                                      weights.at(layer)->ffn_norm,
+                                      out_bias,
+                                      FusedRMSNormLayerStage::kAttn);
 
         TM_DEBUG_TENSOR(local_residual, Concat("residual0", layer), 2);
         TM_DEBUG_TENSOR(local_hidden_states, Concat("norm1", layer), 2);
@@ -240,37 +268,33 @@ void UnifiedDecoder::Forward(int phase, TensorMap& args, const std::vector<Weigh
         std::optional<MoeFfnLayer::ForwardParam> moe_fwd_param;
 
         if (weights.at(layer)->moe_weights) {
-            moe_fwd_param = MoeFfnLayer::ForwardParam{global_hidden_states,
-                                                      global_hidden_states,
+            moe_fwd_param = MoeFfnLayer::ForwardParam{ffn_input,  //
+                                                      ffn_input,
                                                       weights.at(layer)->moe_weights.get(),
                                                       ffn_layer_ ? 1.f : 0.f,
+                                                      layout.max_tokens_per_rank,
                                                       layer};
             moe_ffn_layer_->Forward(*moe_fwd_param);
         }
 
-        if (weights.at(layer)->ffn_weights) {
-            ffn_layer_->forward(
-                {global_hidden_states, global_hidden_states, weights.at(layer)->ffn_weights.get(), (int)layer});
+        if (weights.at(layer)->ffn_weights && ffn_input.shape(0) > 0) {
+            ffn_layer_->forward({ffn_input, ffn_input, weights.at(layer)->ffn_weights.get(), (int)layer});
         }
 
         if (moe_fwd_param) {
             moe_ffn_layer_->Combine(*moe_fwd_param);
         }
 
-        TM_DEBUG_TENSOR(global_hidden_states, Concat("ffn_block", layer), 2);
+        TM_DEBUG_TENSOR(ffn_input, Concat("ffn_block", layer), 2);
 
         const bool last = layer == layer_num_ - 1;
 
         auto& scale_weight = !last ? weights.at(layer + 1)->self_attn_norm : args.at("output_norm_weight");
 
-        AllreduceResidualRMSnorm(global_hidden_states,
-                                 local_residual,
-                                 {},
-                                 scale_weight,
-                                 local_token_num,
-                                 0,
-                                 attn_tp_group_,
-                                 local_token_nums.data());
+        fused_rmsnorm_layer_->forward(rmsnorm_fwd_param,  //
+                                      scale_weight,
+                                      {},
+                                      FusedRMSNormLayerStage::kFfn);
         sync_check_cuda_error();
 
         TM_DEBUG_TENSOR(local_residual, Concat("residual1", layer), 2);
diff --git a/src/turbomind/models/llama/unified_decoder.h b/src/turbomind/models/llama/unified_decoder.h
index 05e9ea73a4..a40b303eb6 100644
--- a/src/turbomind/models/llama/unified_decoder.h
+++ b/src/turbomind/models/llama/unified_decoder.h
@@ -1,6 +1,7 @@
 #pragma once
 
 #include "src/turbomind/comm/device_comm.h"
+#include "src/turbomind/models/llama/FusedRMSNormLayer.h"
 #include "src/turbomind/models/llama/GatedDeltaNetLayer.h"
 #include "src/turbomind/models/llama/LlamaDecoderLayerWeight.h"
 #include "src/turbomind/models/llama/LlamaFfnLayer.h"
@@ -34,8 +35,9 @@ class UnifiedDecoder {
     const int attn_dp_size_;
     const int attn_dp_rank_;
     const int mlp_tp_size_;
+    const int ep_size_;
 
-    const int attn_tp_group_;
+    const int attn_tp_group_;  // attn_tp x attn_cp
 
     const float rmsnorm_eps_;
 
@@ -49,15 +51,10 @@ class UnifiedDecoder {
     std::unique_ptr<GatedDeltaNetLayer>    linear_attn_layer_;
     std::unique_ptr<LlamaFfnLayer>         ffn_layer_;
     std::unique_ptr<MoeFfnLayer>           moe_ffn_layer_;
+    std::unique_ptr<FusedRMSNormLayer>     fused_rmsnorm_layer_;
 
-    void AllreduceResidualRMSnorm(Tensor&       hidden_states,
-                                  Tensor&       residual,
-                                  const Tensor& bias,
-                                  const Tensor& weight,
-                                  int           token_num,
-                                  int           t0,
-                                  int           t1,
-                                  const int*    local_token_nums);
+    struct HiddenStateLayout;
+    HiddenStateLayout CreateHiddenStateLayout(TensorMap& env);
 };
 
 }  // namespace turbomind
diff --git a/src/turbomind/turbomind.cc b/src/turbomind/turbomind.cc
index 5911e1d379..e7672cc22c 100644
--- a/src/turbomind/turbomind.cc
+++ b/src/turbomind/turbomind.cc
@@ -6,6 +6,7 @@
 
 #include "src/turbomind/turbomind.h"
 
+#include "src/turbomind/comm/device_comm.h"
 #include "src/turbomind/comm/host_comm.h"
 #include "src/turbomind/core/check.h"
 #include "src/turbomind/core/context.h"
@@ -459,6 +460,7 @@ TurboMind::Impl::Impl(string model_dir, string config, FFICtxFactory ffi_ctx_fac
     engine_param_.attn_dp_size = engine["attn_dp_size"].as<int>();
     engine_param_.attn_tp_size = engine["attn_tp_size"].as<int>();
     engine_param_.attn_cp_size = engine["attn_cp_size"].as<int>();
+    engine_param_.ep_size      = engine["ep"].as<int>();
 
     engine_param_.mlp_tp_size = engine["mlp_tp_size"].as<int>();
 
@@ -493,6 +495,7 @@ TurboMind::Impl::Impl(string model_dir, string config, FFICtxFactory ffi_ctx_fac
     for (auto it = expert_num.begin(); it != expert_num.end(); ++it) {
         moe_param_.expert_num.push_back(it->as<int>());
     }
+    moe_param_.ll_max_tokens_per_rank = model["ll_max_tokens_per_rank"].as<int>(-1);  // -1 means not use low latency
 
     HandleMissingParams();
 
@@ -536,6 +539,8 @@ void TurboMind::Impl::CreateContext(int index)
 
     auto& ctx = contexts_[index] = std::make_shared<Context>(p.devices[index]);
 
+    core::ContextGuard guard{ctx->core_stream, ctx->allocator};
+
     // Layout: (outer, dp, tp, cp)
 
     const int global_rank = global_rank_[index];
@@ -553,7 +558,7 @@ void TurboMind::Impl::CreateContext(int index)
 
     auto& c = ctx->comm;
 
-    c.h_global = group_id_->CreateCommunicator(comm_size_, global_rank, p.node_rank);
+    c.h_global = group_id_->CreateCommunicator(comm_size_ * p.outer_dp_size, global_rank, p.node_rank);
 
     c.h_comm = c.h_global->Split(outer_rank, 0);
 
@@ -578,6 +583,18 @@ void TurboMind::Impl::CreateContext(int index)
 
         p.attn_tp_rank = c.d_comm->rank(c.d_tp_group) / p.attn_cp_size;
         p.mlp_tp_rank  = c.d_comm->rank(0);
+
+        if (p.ep_size > 1) {
+            p.ep_rank = inner_rank;
+
+            const int max_expert_num = *std::max_element(moe_param_.expert_num.begin(), moe_param_.expert_num.end());
+            const int ll_max_tokens_per_rank = moe_param_.ll_max_tokens_per_rank;
+            comm::EpConfig cfg{engine_param_.nnodes,  //
+                               max_expert_num,
+                               (int)model_param_.hidden_units,
+                               ll_max_tokens_per_rank};
+            c.d_comm->InitializeEp(cfg);
+        }
     }
 
     if (c.h_tp_group->rank() == 0) {

From 2769bd0cd8fbb5a7fdaa7290e3013dbb38e32bc7 Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Fri, 27 Mar 2026 11:47:51 +0000
Subject: [PATCH 02/21] internode normal kernels

---
 src/turbomind/comm/nccl/CMakeLists.txt        |    1 +
 src/turbomind/comm/nccl/deep_ep/deep_ep.cpp   |  489 ++-
 src/turbomind/comm/nccl/deep_ep/deep_ep.hpp   |   47 +
 .../comm/nccl/deep_ep/kernels/api.cuh         |   25 +-
 .../comm/nccl/deep_ep/kernels/internode.cu    | 2611 +++++++++++++++++
 .../comm/nccl/deep_ep/kernels/internode_ll.cu |    1 -
 .../comm/nccl/deep_ep/kernels/layout.cu       |    1 +
 .../comm/nccl/deep_ep/kernels/utils.cuh       |    3 +
 src/turbomind/comm/nccl/nccl_ep.cu            |  174 +-
 9 files changed, 3303 insertions(+), 49 deletions(-)
 create mode 100644 src/turbomind/comm/nccl/deep_ep/kernels/internode.cu

diff --git a/src/turbomind/comm/nccl/CMakeLists.txt b/src/turbomind/comm/nccl/CMakeLists.txt
index 2c63c0a122..5d77e7bce6 100644
--- a/src/turbomind/comm/nccl/CMakeLists.txt
+++ b/src/turbomind/comm/nccl/CMakeLists.txt
@@ -8,6 +8,7 @@ set(DEEP_EP_SOURCE_FILES
     deep_ep/kernels/runtime.cu
     deep_ep/kernels/layout.cu
     deep_ep/kernels/intranode.cu
+    deep_ep/kernels/internode.cu
     deep_ep/kernels/internode_ll.cu
 )
 
diff --git a/src/turbomind/comm/nccl/deep_ep/deep_ep.cpp b/src/turbomind/comm/nccl/deep_ep/deep_ep.cpp
index ee2b469176..ad29f696d5 100644
--- a/src/turbomind/comm/nccl/deep_ep/deep_ep.cpp
+++ b/src/turbomind/comm/nccl/deep_ep/deep_ep.cpp
@@ -388,7 +388,7 @@ void Buffer::destroy()
     }
 
     // Free NVSHMEM
-    if (is_available()) {
+    if (is_available() && comm != nullptr) {
         turbomind::core::Context::stream().Sync();
         if (num_rdma_bytes > 0) {
             internode::free(rdma_buffer_ptr, comm.get());
@@ -1074,6 +1074,493 @@ Buffer::low_latency_combine(const Tensor&                x,
     return {combined_x};
 }
 
+std::tuple<Tensor,
+           std::optional<Tensor>,
+           std::optional<Tensor>,
+           std::optional<Tensor>,
+           std::vector<int>,
+           Tensor,
+           Tensor,
+           Tensor,
+           std::optional<Tensor>,
+           Tensor,
+           std::optional<Tensor>,
+           Tensor,
+           std::optional<Tensor>,
+           std::optional<Tensor>,
+           std::optional<Tensor>>
+Buffer::internode_dispatch(const Tensor&                x,
+                           const std::optional<Tensor>& x_scales,
+                           const std::optional<Tensor>& topk_idx,
+                           const std::optional<Tensor>& topk_weights,
+                           const std::optional<Tensor>& num_tokens_per_rank,
+                           const std::optional<Tensor>& num_tokens_per_rdma_rank,
+                           const Tensor&                is_token_in_rank,
+                           const std::optional<Tensor>& num_tokens_per_expert,
+                           int                          cached_num_recv_tokens,
+                           int                          cached_num_rdma_recv_tokens,
+                           const std::optional<Tensor>& cached_rdma_channel_prefix_matrix,
+                           const std::optional<Tensor>& cached_recv_rdma_rank_prefix_sum,
+                           const std::optional<Tensor>& cached_gbl_channel_prefix_matrix,
+                           const std::optional<Tensor>& cached_recv_gbl_rank_prefix_sum,
+                           int                          expert_alignment,
+                           int                          num_worst_tokens,
+                           const Config&                config)
+{
+
+    const int num_channels = config.num_sms / 2;
+    EP_HOST_ASSERT(config.num_sms % 2 == 0);
+    EP_HOST_ASSERT(0 < get_num_rdma_ranks() and get_num_rdma_ranks() <= NUM_MAX_RDMA_PEERS);
+
+    bool cached_mode = cached_rdma_channel_prefix_matrix.has_value();
+    if (cached_mode) {
+        EP_HOST_ASSERT(cached_rdma_channel_prefix_matrix.has_value());
+        EP_HOST_ASSERT(cached_recv_rdma_rank_prefix_sum.has_value());
+        EP_HOST_ASSERT(cached_gbl_channel_prefix_matrix.has_value());
+        EP_HOST_ASSERT(cached_recv_gbl_rank_prefix_sum.has_value());
+    }
+    else {
+        EP_HOST_ASSERT(num_tokens_per_rank.has_value());
+        EP_HOST_ASSERT(num_tokens_per_rdma_rank.has_value());
+        EP_HOST_ASSERT(num_tokens_per_expert.has_value());
+    }
+
+    // Type checks
+    if (cached_mode) {
+        EP_HOST_ASSERT(cached_rdma_channel_prefix_matrix->dtype() == turbomind::kInt32);
+        EP_HOST_ASSERT(cached_recv_rdma_rank_prefix_sum->dtype() == turbomind::kInt32);
+        EP_HOST_ASSERT(cached_gbl_channel_prefix_matrix->dtype() == turbomind::kInt32);
+        EP_HOST_ASSERT(cached_recv_gbl_rank_prefix_sum->dtype() == turbomind::kInt32);
+    }
+    else {
+        EP_HOST_ASSERT(num_tokens_per_rank->dtype() == turbomind::kInt32);
+        EP_HOST_ASSERT(num_tokens_per_rdma_rank->dtype() == turbomind::kInt32);
+        EP_HOST_ASSERT(num_tokens_per_expert->dtype() == turbomind::kInt32);
+    }
+
+    // Shape and contiguous checks
+    EP_HOST_ASSERT(x.ndim() == 2 and x.is_contiguous());
+    EP_HOST_ASSERT((x.shape(1) * byte_size(x.dtype())) % sizeof(int4) == 0);
+    if (cached_mode) {
+        EP_HOST_ASSERT(cached_rdma_channel_prefix_matrix->ndim() == 2
+                       and cached_rdma_channel_prefix_matrix->is_contiguous());
+        EP_HOST_ASSERT(cached_rdma_channel_prefix_matrix->shape(0) == num_rdma_ranks
+                       and cached_rdma_channel_prefix_matrix->shape(1) == num_channels);
+        EP_HOST_ASSERT(cached_recv_rdma_rank_prefix_sum->ndim() == 1
+                       and cached_recv_rdma_rank_prefix_sum->is_contiguous());
+        EP_HOST_ASSERT(cached_recv_rdma_rank_prefix_sum->shape(0) == num_rdma_ranks);
+        EP_HOST_ASSERT(cached_gbl_channel_prefix_matrix->ndim() == 2
+                       and cached_gbl_channel_prefix_matrix->is_contiguous());
+        EP_HOST_ASSERT(cached_gbl_channel_prefix_matrix->shape(0) == num_ranks
+                       and cached_gbl_channel_prefix_matrix->shape(1) == num_channels);
+        EP_HOST_ASSERT(cached_recv_gbl_rank_prefix_sum->ndim() == 1
+                       and cached_recv_gbl_rank_prefix_sum->is_contiguous());
+        EP_HOST_ASSERT(cached_recv_gbl_rank_prefix_sum->shape(0) == num_ranks);
+    }
+    else {
+        EP_HOST_ASSERT(num_tokens_per_rank->ndim() == 1 and num_tokens_per_rank->is_contiguous());
+        EP_HOST_ASSERT(num_tokens_per_rdma_rank->ndim() == 1 and num_tokens_per_rdma_rank->is_contiguous());
+        EP_HOST_ASSERT(num_tokens_per_expert->ndim() == 1 and num_tokens_per_expert->is_contiguous());
+        EP_HOST_ASSERT(num_tokens_per_rank->shape(0) == num_ranks);
+        EP_HOST_ASSERT(num_tokens_per_rdma_rank->shape(0) == num_rdma_ranks);
+        EP_HOST_ASSERT(num_tokens_per_expert->shape(0) % num_ranks == 0);
+        EP_HOST_ASSERT(num_tokens_per_expert->shape(0) / num_ranks <= NUM_MAX_LOCAL_EXPERTS);
+    }
+
+    auto num_tokens        = static_cast<int>(x.shape(0));
+    auto hidden            = static_cast<int>(x.shape(1));
+    auto hidden_int4       = static_cast<int>(x.shape(1) * byte_size(x.dtype()) / sizeof(int4));
+    auto num_experts       = cached_mode ? 0 : static_cast<int>(num_tokens_per_expert->shape(0));
+    auto num_local_experts = num_experts / num_ranks;
+
+    // Top-k checks
+    int               num_topk         = 0;
+    const topk_idx_t* topk_idx_ptr     = nullptr;
+    const float*      topk_weights_ptr = nullptr;
+    EP_HOST_ASSERT(topk_idx.has_value() == topk_weights.has_value());
+    if (topk_idx.has_value()) {
+        num_topk = static_cast<int>(topk_idx->shape(1));
+        EP_HOST_ASSERT(num_experts > 0);
+        EP_HOST_ASSERT(topk_idx->ndim() == 2 and topk_idx->is_contiguous());
+        EP_HOST_ASSERT(topk_weights->ndim() == 2 and topk_weights->is_contiguous());
+        EP_HOST_ASSERT(num_tokens == topk_idx->shape(0) and num_tokens == topk_weights->shape(0));
+        EP_HOST_ASSERT(num_topk == topk_weights->shape(1));
+        EP_HOST_ASSERT(topk_weights->dtype() == turbomind::kFloat32);
+        topk_idx_ptr     = topk_idx->data_or((topk_idx_t*)nullptr);
+        topk_weights_ptr = topk_weights->data_or((float*)nullptr);
+    }
+
+    // FP8 scales checks
+    const float* x_scales_ptr        = nullptr;
+    int          num_scales          = 0;
+    int          scale_token_stride  = 0;
+    int          scale_hidden_stride = 0;
+    if (x_scales.has_value()) {
+        EP_HOST_ASSERT(byte_size(x.dtype()) == 1);
+        EP_HOST_ASSERT(x_scales->dtype() == turbomind::kFloat32 or x_scales->dtype() == turbomind::kInt32);
+        EP_HOST_ASSERT(x_scales->ndim() == 2);
+        EP_HOST_ASSERT(x_scales->shape(0) == num_tokens);
+        num_scales          = x_scales->ndim() == 1 ? 1 : static_cast<int>(x_scales->shape(1));
+        x_scales_ptr        = x_scales->data_or((float*)nullptr);
+        scale_token_stride  = static_cast<int>(x_scales->stride(0));
+        scale_hidden_stride = static_cast<int>(x_scales->stride(1));
+    }
+
+    // Create handles (only return for non-cached mode)
+    int              num_recv_tokens = -1, num_rdma_recv_tokens = -1;
+    auto             rdma_channel_prefix_matrix = Tensor();
+    auto             recv_rdma_rank_prefix_sum  = Tensor();
+    auto             gbl_channel_prefix_matrix  = Tensor();
+    auto             recv_gbl_rank_prefix_sum   = Tensor();
+    std::vector<int> num_recv_tokens_per_expert_list;
+
+    // used to compute offsets in MoeFfnLayer
+    auto moe_recv_expert_counter_ten = Tensor({num_local_experts}, turbomind::kInt32, turbomind::kDEVICE);
+
+    auto dev_comm     = comm->get_device_communicator(false);
+    auto nccl_win     = comm->get_device_nccl_window(rdma_buffer_ptr);
+    auto signals_base = comm->get_signals_base(0, false);
+    auto gin_base_ptr = rdma_buffer_ptr;
+
+    if (cached_mode) {
+        EP_HOST_ASSERT(not cached_mode);
+    }
+    else {
+        rdma_channel_prefix_matrix = Tensor({num_rdma_ranks, num_channels}, turbomind::kInt32, turbomind::kDEVICE);
+        recv_rdma_rank_prefix_sum  = Tensor({num_rdma_ranks}, turbomind::kInt32, turbomind::kDEVICE);
+        gbl_channel_prefix_matrix  = Tensor({num_ranks, num_channels}, turbomind::kInt32, turbomind::kDEVICE);
+        recv_gbl_rank_prefix_sum   = Tensor({num_ranks}, turbomind::kInt32, turbomind::kDEVICE);
+
+        // Send sizes
+        *moe_recv_counter = -1, *moe_recv_rdma_counter = -1;
+        for (int i = 0; i < num_local_experts; ++i)
+            moe_recv_expert_counter[i] = -1;
+        internode::notify_dispatch(num_tokens_per_rank->data<int>(),
+                                   moe_recv_counter_mapped,
+                                   num_ranks,
+                                   num_tokens_per_rdma_rank->data<int>(),
+                                   moe_recv_rdma_counter_mapped,
+                                   num_tokens_per_expert->data<int>(),
+                                   moe_recv_expert_counter_mapped,
+                                   moe_recv_expert_counter_ten.data<int>(),
+                                   num_experts,
+                                   is_token_in_rank.data_or((bool*)nullptr),
+                                   num_tokens,
+                                   num_worst_tokens,
+                                   num_channels,
+                                   hidden_int4,
+                                   num_scales,
+                                   num_topk,
+                                   expert_alignment,
+                                   rdma_channel_prefix_matrix.data<int>(),
+                                   recv_rdma_rank_prefix_sum.data<int>(),
+                                   gbl_channel_prefix_matrix.data<int>(),
+                                   recv_gbl_rank_prefix_sum.data<int>(),
+                                   rdma_buffer_ptr,
+                                   config.num_max_rdma_chunked_recv_tokens,
+                                   buffer_ptrs_gpu,
+                                   config.num_max_nvl_chunked_recv_tokens,
+                                   barrier_signal_ptrs_gpu,
+                                   rank,
+                                   turbomind::core::Context::stream().handle(),
+                                   config.get_rdma_buffer_size_hint(hidden_int4 * sizeof(int4), num_ranks),
+                                   num_nvl_bytes,
+                                   low_latency_mode,
+                                   gin_base_ptr,
+                                   dev_comm,
+                                   nccl_win,
+                                   signals_base);
+
+        // Synchronize total received tokens and tokens per expert
+        if (num_worst_tokens > 0) {
+            num_recv_tokens      = num_worst_tokens;
+            num_rdma_recv_tokens = num_worst_tokens;
+        }
+        else {
+            auto start_time = std::chrono::high_resolution_clock::now();
+            while (true) {
+                // Read total count
+                num_recv_tokens      = static_cast<int>(*moe_recv_counter);
+                num_rdma_recv_tokens = static_cast<int>(*moe_recv_rdma_counter);
+
+                // Read per-expert count
+                bool ready = (num_recv_tokens >= 0) and (num_rdma_recv_tokens >= 0);
+                for (int i = 0; i < num_local_experts and ready; ++i)
+                    ready &= moe_recv_expert_counter[i] >= 0;
+
+                if (ready)
+                    break;
+
+                // Timeout check
+                if (std::chrono::duration_cast<std::chrono::seconds>(std::chrono::high_resolution_clock::now()
+                                                                     - start_time)
+                        .count()
+                    > NUM_CPU_TIMEOUT_SECS) {
+                    printf("Global rank: %d, num_recv_tokens: %d, num_rdma_recv_tokens: %d\n",
+                           rank,
+                           num_recv_tokens,
+                           num_rdma_recv_tokens);
+                    for (int i = 0; i < num_local_experts; ++i)
+                        printf("moe_recv_expert_counter[%d]: %d\n", i, moe_recv_expert_counter[i]);
+                    throw std::runtime_error("DeepEP error: timeout (dispatch CPU)");
+                }
+            }
+            num_recv_tokens_per_expert_list =
+                std::vector<int>(moe_recv_expert_counter, moe_recv_expert_counter + num_local_experts);
+        }
+    }
+
+    // Allocate new tensors
+    auto recv_x                          = Tensor({num_recv_tokens, hidden}, x.dtype(), turbomind::kDEVICE);
+    auto recv_topk_idx                   = std::optional<Tensor>();
+    auto recv_topk_weights               = std::optional<Tensor>();
+    auto recv_x_scales                   = std::optional<Tensor>();
+    auto recv_src_meta                   = std::optional<Tensor>();
+    auto recv_rdma_channel_prefix_matrix = std::optional<Tensor>();
+    auto recv_gbl_channel_prefix_matrix  = std::optional<Tensor>();
+    auto send_rdma_head                  = std::optional<Tensor>();
+    auto send_nvl_head                   = std::optional<Tensor>();
+    if (not cached_mode) {
+        recv_src_meta =
+            Tensor({num_recv_tokens, internode::get_source_meta_bytes()}, turbomind::kUint8, turbomind::kDEVICE);
+        recv_rdma_channel_prefix_matrix = Tensor({num_rdma_ranks, num_channels}, turbomind::kInt32, turbomind::kDEVICE);
+        recv_gbl_channel_prefix_matrix  = Tensor({num_ranks, num_channels}, turbomind::kInt32, turbomind::kDEVICE);
+        send_rdma_head                  = Tensor({num_tokens, num_rdma_ranks}, turbomind::kInt32, turbomind::kDEVICE);
+        send_nvl_head = Tensor({num_rdma_recv_tokens, NUM_MAX_NVL_PEERS}, turbomind::kInt32, turbomind::kDEVICE);
+    }
+
+    // Assign pointers
+    topk_idx_t* recv_topk_idx_ptr     = nullptr;
+    float*      recv_topk_weights_ptr = nullptr;
+    float*      recv_x_scales_ptr     = nullptr;
+    if (topk_idx.has_value()) {
+        recv_topk_idx         = Tensor({num_recv_tokens, num_topk}, topk_idx->dtype(), turbomind::kDEVICE);
+        recv_topk_weights     = Tensor({num_recv_tokens, num_topk}, topk_weights->dtype(), turbomind::kDEVICE);
+        recv_topk_idx_ptr     = recv_topk_idx->data_or((topk_idx_t*)nullptr);
+        recv_topk_weights_ptr = recv_topk_weights->data_or((float*)nullptr);
+    }
+    if (x_scales.has_value()) {
+        recv_x_scales     = x_scales->ndim() == 1 ?
+                                Tensor({num_recv_tokens}, x_scales->dtype(), turbomind::kDEVICE) :
+                                Tensor({num_recv_tokens, num_scales}, x_scales->dtype(), turbomind::kDEVICE);
+        recv_x_scales_ptr = recv_x_scales->data_or((float*)nullptr);
+    }
+
+    // Launch data dispatch
+    // NOTES: the buffer size checks are moved into the `.cu` file
+    internode::dispatch(recv_x.data_or((void*)nullptr),
+                        recv_x_scales_ptr,
+                        recv_topk_idx_ptr,
+                        recv_topk_weights_ptr,
+                        cached_mode ? nullptr : recv_src_meta->data_or((void*)nullptr),
+                        x.data_or((void*)nullptr),
+                        x_scales_ptr,
+                        topk_idx_ptr,
+                        topk_weights_ptr,
+                        cached_mode ? nullptr : send_rdma_head->data_or((int*)nullptr),
+                        cached_mode ? nullptr : send_nvl_head->data_or((int*)nullptr),
+                        cached_mode ? nullptr : recv_rdma_channel_prefix_matrix->data<int>(),
+                        cached_mode ? nullptr : recv_gbl_channel_prefix_matrix->data<int>(),
+                        rdma_channel_prefix_matrix.data<int>(),
+                        recv_rdma_rank_prefix_sum.data<int>(),
+                        gbl_channel_prefix_matrix.data<int>(),
+                        recv_gbl_rank_prefix_sum.data<int>(),
+                        is_token_in_rank.data_or((bool*)nullptr),
+                        num_tokens,
+                        num_worst_tokens,
+                        hidden_int4,
+                        num_scales,
+                        num_topk,
+                        num_experts,
+                        scale_token_stride,
+                        scale_hidden_stride,
+                        rdma_buffer_ptr,
+                        config.num_max_rdma_chunked_send_tokens,
+                        config.num_max_rdma_chunked_recv_tokens,
+                        buffer_ptrs_gpu,
+                        config.num_max_nvl_chunked_send_tokens,
+                        config.num_max_nvl_chunked_recv_tokens,
+                        rank,
+                        num_ranks,
+                        cached_mode,
+                        turbomind::core::Context::stream().handle(),
+                        num_channels,
+                        low_latency_mode,
+                        gin_base_ptr,
+                        dev_comm,
+                        nccl_win,
+                        signals_base);
+
+    // Return values
+    return {recv_x,
+            recv_x_scales,
+            recv_topk_idx,
+            recv_topk_weights,
+            num_recv_tokens_per_expert_list,
+            moe_recv_expert_counter_ten,
+            rdma_channel_prefix_matrix,
+            gbl_channel_prefix_matrix,
+            recv_rdma_channel_prefix_matrix,
+            recv_rdma_rank_prefix_sum,
+            recv_gbl_channel_prefix_matrix,
+            recv_gbl_rank_prefix_sum,
+            recv_src_meta,
+            send_rdma_head,
+            send_nvl_head};
+}
+
+std::tuple<Tensor, std::optional<Tensor>>  //
+Buffer::internode_combine(const Tensor&                x,
+                          const std::optional<Tensor>& topk_weights,
+                          const std::optional<Tensor>& bias_0,
+                          const std::optional<Tensor>& bias_1,
+                          const Tensor&                src_meta,
+                          const Tensor&                is_combined_token_in_rank,
+                          const Tensor&                rdma_channel_prefix_matrix,
+                          const Tensor&                rdma_rank_prefix_sum,
+                          const Tensor&                gbl_channel_prefix_matrix,
+                          Tensor&                      combined_rdma_head,
+                          Tensor&                      combined_nvl_head,
+                          const Config&                config)
+{
+    const int num_channels = config.num_sms / 2;
+    EP_HOST_ASSERT(config.num_sms % 2 == 0);
+
+    // Shape and contiguous checks
+    EP_HOST_ASSERT(x.ndim() == 2 and x.is_contiguous());
+    EP_HOST_ASSERT(src_meta.ndim() == 2 and src_meta.is_contiguous() and src_meta.dtype() == turbomind::kUint8);
+    EP_HOST_ASSERT(is_combined_token_in_rank.ndim() == 2 and is_combined_token_in_rank.is_contiguous()
+                   and is_combined_token_in_rank.dtype() == turbomind::kBool);
+    EP_HOST_ASSERT(rdma_channel_prefix_matrix.ndim() == 2 and rdma_channel_prefix_matrix.is_contiguous()
+                   and rdma_channel_prefix_matrix.dtype() == turbomind::kInt32);
+    EP_HOST_ASSERT(rdma_rank_prefix_sum.ndim() == 1 and rdma_rank_prefix_sum.is_contiguous()
+                   and rdma_rank_prefix_sum.dtype() == turbomind::kInt32);
+    EP_HOST_ASSERT(gbl_channel_prefix_matrix.ndim() == 2 and gbl_channel_prefix_matrix.is_contiguous()
+                   and gbl_channel_prefix_matrix.dtype() == turbomind::kInt32);
+    EP_HOST_ASSERT(combined_rdma_head.ndim() == 2 and combined_rdma_head.is_contiguous()
+                   and combined_rdma_head.dtype() == turbomind::kInt32);
+    EP_HOST_ASSERT(combined_nvl_head.ndim() == 2 and combined_nvl_head.is_contiguous()
+                   and combined_nvl_head.dtype() == turbomind::kInt32);
+
+    auto num_tokens          = static_cast<int>(x.shape(0));
+    auto hidden              = static_cast<int>(x.shape(1));
+    auto hidden_int4         = static_cast<int>(x.shape(1) * byte_size(x.dtype()) / sizeof(int4));
+    auto num_combined_tokens = static_cast<int>(is_combined_token_in_rank.shape(0));
+    EP_HOST_ASSERT((hidden * byte_size(x.dtype())) % sizeof(int4) == 0);
+    EP_HOST_ASSERT(src_meta.shape(1) == internode::get_source_meta_bytes());
+    EP_HOST_ASSERT(is_combined_token_in_rank.shape(1) == num_ranks);
+    EP_HOST_ASSERT(rdma_channel_prefix_matrix.shape(0) == num_rdma_ranks
+                   and rdma_channel_prefix_matrix.shape(1) == num_channels);
+    EP_HOST_ASSERT(rdma_rank_prefix_sum.shape(0) == num_rdma_ranks);
+    EP_HOST_ASSERT(gbl_channel_prefix_matrix.shape(0) == num_ranks
+                   and gbl_channel_prefix_matrix.shape(1) == num_channels);
+    EP_HOST_ASSERT(combined_rdma_head.ndim() == 2 and combined_rdma_head.shape(0) == num_combined_tokens
+                   and combined_rdma_head.shape(1) == num_rdma_ranks);
+    EP_HOST_ASSERT(combined_nvl_head.ndim() == 2 and combined_nvl_head.shape(1) == NUM_MAX_NVL_PEERS);
+
+    // Top-k checks
+    int          num_topk                  = 0;
+    auto         combined_topk_weights     = std::optional<Tensor>();
+    const float* topk_weights_ptr          = nullptr;
+    float*       combined_topk_weights_ptr = nullptr;
+    if (topk_weights.has_value()) {
+        EP_HOST_ASSERT(topk_weights->ndim() == 2 and topk_weights->is_contiguous());
+        EP_HOST_ASSERT(topk_weights->shape(0) == num_tokens);
+        EP_HOST_ASSERT(topk_weights->dtype() == turbomind::kFloat32);
+        num_topk                  = static_cast<int>(topk_weights->shape(1));
+        topk_weights_ptr          = topk_weights->data_or((float*)nullptr);
+        combined_topk_weights     = Tensor({num_combined_tokens, num_topk}, turbomind::kFloat32, turbomind::kDEVICE);
+        combined_topk_weights_ptr = combined_topk_weights->data_or((float*)nullptr);
+    }
+
+    // Extra check for avoid-dead-lock design
+    EP_HOST_ASSERT(config.num_max_nvl_chunked_recv_tokens % num_rdma_ranks == 0);
+    EP_HOST_ASSERT(config.num_max_nvl_chunked_send_tokens <= config.num_max_nvl_chunked_recv_tokens / num_rdma_ranks);
+
+    auto gin_base_ptr = rdma_buffer_ptr;
+    auto dev_comm     = comm->get_device_communicator(false);
+    auto nccl_win     = comm->get_device_nccl_window(rdma_buffer_ptr);
+    auto signals_base = comm->get_signals_base(0, false);
+
+    // Launch barrier and reset queue head and tail
+    internode::cached_notify(hidden_int4,
+                             0,
+                             0,
+                             num_topk,
+                             num_ranks,
+                             num_channels,
+                             num_combined_tokens,
+                             combined_rdma_head.data_or((int*)nullptr),
+                             rdma_channel_prefix_matrix.data<int>(),
+                             rdma_rank_prefix_sum.data<int>(),
+                             combined_nvl_head.data_or((int*)nullptr),
+                             rdma_buffer_ptr,
+                             config.num_max_rdma_chunked_recv_tokens,
+                             buffer_ptrs_gpu,
+                             config.num_max_nvl_chunked_recv_tokens,
+                             barrier_signal_ptrs_gpu,
+                             rank,
+                             turbomind::core::Context::stream().handle(),
+                             config.get_rdma_buffer_size_hint(hidden_int4 * sizeof(int4), num_ranks),
+                             num_nvl_bytes,
+                             false,
+                             low_latency_mode,
+                             gin_base_ptr,
+                             dev_comm,
+                             nccl_win,
+                             signals_base);
+
+    // Assign bias pointers
+    auto  bias_opts    = std::vector<std::optional<Tensor>>({bias_0, bias_1});
+    void* bias_ptrs[2] = {nullptr, nullptr};
+    for (int i = 0; i < 2; ++i)
+        if (bias_opts[i].has_value()) {
+            auto bias = bias_opts[i].value();
+            EP_HOST_ASSERT(bias.ndim() == 2 and bias.is_contiguous());
+            EP_HOST_ASSERT(bias.dtype() == x.dtype());
+            EP_HOST_ASSERT(bias.shape(0) == num_combined_tokens and bias.shape(1) == hidden);
+            bias_ptrs[i] = bias.data_or((void*)nullptr);
+        }
+
+    // Launch data combine
+    auto combined_x = Tensor({num_combined_tokens, hidden}, x.dtype(), turbomind::kDEVICE);
+    internode::combine(CUDA_R_16BF,
+                       combined_x.data_or((void*)nullptr),
+                       combined_topk_weights_ptr,
+                       is_combined_token_in_rank.data_or((bool*)nullptr),
+                       x.data_or((void*)nullptr),
+                       topk_weights_ptr,
+                       bias_ptrs[0],
+                       bias_ptrs[1],
+                       combined_rdma_head.data_or((int*)nullptr),
+                       combined_nvl_head.data_or((int*)nullptr),
+                       src_meta.data_or((void*)nullptr),
+                       rdma_channel_prefix_matrix.data<int>(),
+                       rdma_rank_prefix_sum.data<int>(),
+                       gbl_channel_prefix_matrix.data<int>(),
+                       num_tokens,
+                       num_combined_tokens,
+                       hidden,
+                       num_topk,
+                       rdma_buffer_ptr,
+                       config.num_max_rdma_chunked_send_tokens,
+                       config.num_max_rdma_chunked_recv_tokens,
+                       buffer_ptrs_gpu,
+                       config.num_max_nvl_chunked_send_tokens,
+                       config.num_max_nvl_chunked_recv_tokens,
+                       rank,
+                       num_ranks,
+                       turbomind::core::Context::stream().handle(),
+                       num_channels,
+                       low_latency_mode,
+                       gin_base_ptr,
+                       dev_comm,
+                       nccl_win,
+                       signals_base);
+
+    return {combined_x, combined_topk_weights};
+}
+
 Config Buffer::get_dispatch_config()
 {
     static std::unordered_map<int, Config> config_map = {
diff --git a/src/turbomind/comm/nccl/deep_ep/deep_ep.hpp b/src/turbomind/comm/nccl/deep_ep/deep_ep.hpp
index 2015030336..8f3a221b1b 100644
--- a/src/turbomind/comm/nccl/deep_ep/deep_ep.hpp
+++ b/src/turbomind/comm/nccl/deep_ep/deep_ep.hpp
@@ -217,6 +217,53 @@ class Buffer {
                         bool                         zero_copy,
                         const std::optional<Tensor>& out = std::nullopt);
 
+    std::tuple<Tensor,
+               std::optional<Tensor>,
+               std::optional<Tensor>,
+               std::optional<Tensor>,
+               std::vector<int>,
+               Tensor,
+               Tensor,
+               Tensor,
+               std::optional<Tensor>,
+               Tensor,
+               std::optional<Tensor>,
+               Tensor,
+               std::optional<Tensor>,
+               std::optional<Tensor>,
+               std::optional<Tensor>>
+    internode_dispatch(const Tensor&                x,
+                       const std::optional<Tensor>& x_scales,
+                       const std::optional<Tensor>& topk_idx,
+                       const std::optional<Tensor>& topk_weights,
+                       const std::optional<Tensor>& num_tokens_per_rank,
+                       const std::optional<Tensor>& num_tokens_per_rdma_rank,
+                       const Tensor&                is_token_in_rank,
+                       const std::optional<Tensor>& num_tokens_per_expert,
+                       int                          cached_num_recv_tokens,
+                       int                          cached_num_rdma_recv_tokens,
+                       const std::optional<Tensor>& cached_rdma_channel_prefix_matrix,
+                       const std::optional<Tensor>& cached_recv_rdma_rank_prefix_sum,
+                       const std::optional<Tensor>& cached_gbl_channel_prefix_matrix,
+                       const std::optional<Tensor>& cached_recv_gbl_rank_prefix_sum,
+                       int                          expert_alignment,
+                       int                          num_worst_tokens,
+                       const Config&                config);
+
+    std::tuple<Tensor, std::optional<Tensor>>  //
+    internode_combine(const Tensor&                x,
+                      const std::optional<Tensor>& topk_weights,
+                      const std::optional<Tensor>& bias_0,
+                      const std::optional<Tensor>& bias_1,
+                      const Tensor&                src_meta,
+                      const Tensor&                is_combined_token_in_rank,
+                      const Tensor&                rdma_channel_prefix_matrix,
+                      const Tensor&                rdma_rank_prefix_sum,
+                      const Tensor&                gbl_channel_prefix_matrix,
+                      Tensor&                      combined_rdma_head,
+                      Tensor&                      combined_nvl_head,
+                      const Config&                config);
+
     Config get_dispatch_config();
 
     Config get_combine_config();
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/api.cuh b/src/turbomind/comm/nccl/deep_ep/kernels/api.cuh
index fe0d734a61..282aa8480d 100644
--- a/src/turbomind/comm/nccl/deep_ep/kernels/api.cuh
+++ b/src/turbomind/comm/nccl/deep_ep/kernels/api.cuh
@@ -165,6 +165,7 @@ void notify_dispatch(const int*   num_tokens_per_rank,
                      int*         moe_recv_rdma_counter_mapped,
                      const int*   num_tokens_per_expert,
                      int*         moe_recv_expert_counter_mapped,
+                     int*         moe_recv_expert_counter_ten,
                      int          num_experts,
                      const bool*  is_token_in_rank,
                      int          num_tokens,
@@ -187,7 +188,11 @@ void notify_dispatch(const int*   num_tokens_per_rank,
                      cudaStream_t stream,
                      int64_t      num_rdma_bytes,
                      int64_t      num_nvl_bytes,
-                     bool         low_latency_mode);
+                     bool         low_latency_mode,
+                     void*        gin_base_ptr,
+                     ncclDevComm  dev_comm,
+                     ncclWindow_t nccl_win,
+                     unsigned     signals_base);
 
 void dispatch(void*             recv_x,
               float*            recv_x_scales,
@@ -226,7 +231,11 @@ void dispatch(void*             recv_x,
               bool              is_cached_dispatch,
               cudaStream_t      stream,
               int               num_channels,
-              bool              low_latency_mode);
+              bool              low_latency_mode,
+              void*             gin_base_ptr,
+              ncclDevComm       dev_comm,
+              ncclWindow_t      nccl_win,
+              unsigned          signals_base);
 
 void cached_notify(int          hidden_int4,
                    int          num_scales,
@@ -249,7 +258,11 @@ void cached_notify(int          hidden_int4,
                    int64_t      num_rdma_bytes,
                    int64_t      num_nvl_bytes,
                    bool         is_cached_dispatch,
-                   bool         low_latency_mode);
+                   bool         low_latency_mode,
+                   void*        gin_base_ptr,
+                   ncclDevComm  dev_comm,
+                   ncclWindow_t nccl_win,
+                   unsigned     signals_base);
 
 void combine(cudaDataType_t type,
              void*          combined_x,
@@ -279,7 +292,11 @@ void combine(cudaDataType_t type,
              int            num_ranks,
              cudaStream_t   stream,
              int            num_channels,
-             bool           low_latency_mode);
+             bool           low_latency_mode,
+             void*          gin_base_ptr,
+             ncclDevComm    dev_comm,
+             ncclWindow_t   nccl_win,
+             unsigned       signals_base);
 
 }  // namespace internode
 
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/internode.cu b/src/turbomind/comm/nccl/deep_ep/kernels/internode.cu
new file mode 100644
index 0000000000..f8a8b9d185
--- /dev/null
+++ b/src/turbomind/comm/nccl/deep_ep/kernels/internode.cu
@@ -0,0 +1,2611 @@
+// clang-format off
+#include <functional>
+#include <optional>
+
+#include "buffer.cuh"
+#include "configs.cuh"
+
+#include <cooperative_groups.h>
+#include <cuda/atomic>
+#include "exception.cuh"
+#include "launch.cuh"
+#include "utils.cuh"
+
+#include <nccl_device/gin/gin_device_api.h>
+#include "src/turbomind/comm/nccl/deep_ep/gin_backend.h"
+
+
+using namespace cooperative_groups;
+
+namespace deep_ep {
+
+namespace internode {
+
+struct SourceMeta {
+    int src_rdma_rank, is_token_in_nvl_rank_bits;
+
+    EP_STATIC_ASSERT(NUM_MAX_NVL_PEERS == 8, "Invalid number of maximum NVL peers");
+
+    __forceinline__ SourceMeta() = default;
+
+    // TODO: faster encoding
+    __device__ __forceinline__ SourceMeta(int rdma_rank, const bool* is_token_in_nvl_ranks) {
+        src_rdma_rank = rdma_rank;
+        is_token_in_nvl_rank_bits = is_token_in_nvl_ranks[0];
+        #pragma unroll
+        for (int i = 1; i < NUM_MAX_NVL_PEERS; ++i)
+            is_token_in_nvl_rank_bits |= is_token_in_nvl_ranks[i] << i;
+    }
+
+    __device__ __forceinline__ bool is_token_in_nvl_rank(int nvl_rank) const { return (is_token_in_nvl_rank_bits >> nvl_rank) & 1; }
+};
+
+EP_STATIC_ASSERT(sizeof(SourceMeta) % sizeof(int) == 0, "Invalid size of `SourceMeta`");
+
+int get_source_meta_bytes() {
+    return sizeof(SourceMeta);
+}
+
+__host__ __device__ __forceinline__ int get_num_bytes_per_token(int hidden_int4, int num_scales, int num_topk_idx, int num_topk_weights) {
+    return static_cast<int>(align_up(hidden_int4 * sizeof(int4) + sizeof(SourceMeta) + num_scales * sizeof(float) +
+                                            num_topk_idx * sizeof(int) + num_topk_weights * sizeof(float),
+                                        sizeof(int4)));
+}
+
+__host__ __device__ __forceinline__ std::pair<int, int> get_rdma_clean_meta(int hidden_int4,
+                                                                            int num_scales,
+                                                                            int num_topk_idx,
+                                                                            int num_topk_weights,
+                                                                            int num_rdma_ranks,
+                                                                            int num_rdma_recv_buffer_tokens,
+                                                                            int num_channels) {
+    // Return `int32_t` offset and count to clean
+    return {(get_num_bytes_per_token(hidden_int4, num_scales, num_topk_idx, num_topk_weights) * num_rdma_recv_buffer_tokens *
+                num_rdma_ranks * 2 * num_channels) /
+                sizeof(int),
+            (NUM_MAX_NVL_PEERS * 2 + 4) * num_rdma_ranks * 2 * num_channels};
+}
+
+__host__ __device__ __forceinline__ std::pair<int, int> get_nvl_clean_meta(int hidden_int4,
+                                                                            int num_scales,
+                                                                            int num_topk_idx,
+                                                                            int num_topk_weights,
+                                                                            int num_rdma_ranks,
+                                                                            int num_nvl_ranks,
+                                                                            int num_nvl_recv_buffer_tokens,
+                                                                            int num_channels,
+                                                                            bool is_dispatch) {
+    // Return `int32_t` offset and to clean
+    EP_STATIC_ASSERT(sizeof(SourceMeta) % sizeof(int) == 0, "Invalid size of `SourceMeta`");
+
+    return {
+        (num_nvl_recv_buffer_tokens * get_num_bytes_per_token(hidden_int4, num_scales, num_topk_idx, num_topk_weights) * num_nvl_ranks *
+            num_channels) /
+            sizeof(int),
+        num_nvl_ranks * (2 * num_rdma_ranks + 2) * num_channels,
+    };
+}
+
+template <bool kLowLatencyMode>
+__forceinline__ __device__ int translate_dst_rdma_rank(const int dst_rdma_rank, const int nvl_rank) {
+    return kLowLatencyMode ? (dst_rdma_rank * NUM_MAX_NVL_PEERS + nvl_rank) : dst_rdma_rank;
+}
+
+template <bool kLowLatencyMode>
+__forceinline__ __device__ void sync_with_same_gpu_idx(ncclDevComm& dev_comm) {
+    // Barrier before cleaning (in case of unfinished chunked EP)
+    ncclGin net(dev_comm, 0);
+
+    if (kLowLatencyMode) {
+        // Use rank as session ID for symmetric synchronization
+        // This ensures each rank has a unique session ID for symmetric barriers
+        int session_id = dev_comm.lsaRank;
+
+        // Use GIN barrier session directly with symmetric team
+        ncclGinBarrierSession<ncclCoopThread> barrier(ncclCoopThread(), net, ncclTeamTagRail(), session_id);
+        barrier.sync(ncclCoopThread(), cuda::memory_order_relaxed, ncclGinFenceLevel::Relaxed);
+    } else {
+        // World barrier - synchronizes all ranks
+        ncclBarrierSession<ncclCoopThread> barrier(ncclCoopThread(), ncclTeamTagWorld(), net, 0);
+        barrier.sync(ncclCoopThread(), cuda::memory_order_relaxed, ncclGinFenceLevel::Relaxed);
+    }
+}
+
+template <bool kLowLatencyMode, int kNumRDMARanks>
+__global__ void notify_dispatch(const int* num_tokens_per_rank,
+                                int* moe_recv_counter_mapped,
+                                int num_ranks,
+                                const int* num_tokens_per_rdma_rank,
+                                int* moe_recv_rdma_counter_mapped,
+                                const int* num_tokens_per_expert,
+                                int* moe_recv_expert_counter_mapped,
+                                int* moe_recv_expert_counter_ten,
+                                int num_experts,
+                                const bool* is_token_in_rank,
+                                int num_tokens,
+                                int num_worst_tokens,
+                                int num_channels,
+                                int expert_alignment,
+                                const int rdma_clean_offset,
+                                const int rdma_num_int_clean,
+                                const int nvl_clean_offset,
+                                const int nvl_num_int_clean,
+                                int* rdma_channel_prefix_matrix,
+                                int* recv_rdma_rank_prefix_sum,
+                                int* gbl_channel_prefix_matrix,
+                                int* recv_gbl_rank_prefix_sum,
+                                void* rdma_buffer_ptr,
+                                void** buffer_ptrs,
+                                int** barrier_signal_ptrs,
+                                int rank,
+                                void* gin_base_ptr,
+                                ncclDevComm dev_comm,
+                                const ncclWindow_t nccl_win,
+                                unsigned signals_base
+) {
+    auto sm_id = static_cast<int>(blockIdx.x);
+    auto thread_id = static_cast<int>(threadIdx.x), warp_id = thread_id / 32, lane_id = get_lane_id();
+    auto num_threads = static_cast<int>(blockDim.x), num_warps = num_threads / 32;
+
+    auto rdma_rank = rank / NUM_MAX_NVL_PEERS, nvl_rank = rank % NUM_MAX_NVL_PEERS;
+    auto num_rdma_experts = num_experts / kNumRDMARanks, num_nvl_experts = num_rdma_experts / NUM_MAX_NVL_PEERS;
+
+    if (sm_id == 0) {
+        // Communication with others
+        // Global barrier: the first warp does intra-node sync, the second warp does internode sync
+        EP_DEVICE_ASSERT(num_warps > 1);
+        EP_DEVICE_ASSERT(kNumRDMARanks <= num_threads);
+
+        // waiting for all previous inflight wrs to complete,
+        // in case of rewriting cleared rdma_buffer
+        for (int i = thread_id; i < dev_comm.ginConnectionCount; i += num_threads) {
+            ncclGin net(dev_comm, i);
+            net.flush(ncclCoopThread(), cuda::std::memory_order_acquire);
+        }
+        __syncthreads();
+        if (thread_id == 32)
+            sync_with_same_gpu_idx<kLowLatencyMode>(dev_comm);
+
+        barrier_block<NUM_MAX_NVL_PEERS, true>(barrier_signal_ptrs, nvl_rank);
+
+        // Send numbers of tokens per rank/expert to RDMA ranks
+        auto rdma_buffer_ptr_int = static_cast<int*>(rdma_buffer_ptr);
+        auto rdma_recv_num_tokens_mixed = SymBuffer<int>(rdma_buffer_ptr, NUM_MAX_NVL_PEERS + num_rdma_experts + 1, kNumRDMARanks);
+
+        // Clean up for later data dispatch
+        EP_DEVICE_ASSERT(rdma_recv_num_tokens_mixed.total_bytes <= rdma_clean_offset * sizeof(int));
+        #pragma unroll
+        for (int i = thread_id; i < rdma_num_int_clean; i += num_threads)
+            rdma_buffer_ptr_int[rdma_clean_offset + i] = 0;
+
+        // Clean signals here
+        // For each channel we have kNumRDMARanks head and tail signals
+        int num_signals = kNumRDMARanks * num_channels * 2;
+        EP_DEVICE_ASSERT(num_signals <= num_threads);
+        EP_DEVICE_ASSERT(num_channels * 2 <= dev_comm.ginConnectionCount);
+
+        // NCCL backend use signal to update head/tail
+        // Each thread handles one specific signal across all contexts
+        if (thread_id < num_signals) {
+            auto signal_id = signals_base + thread_id;
+
+            // Derive channel_id from signal_id
+            // Signal layout: [all head signals][all tail signals]
+            int signal_offset = thread_id;
+            int head_signal_count = kNumRDMARanks * num_channels;
+            bool is_head_signal = (signal_offset < head_signal_count);
+            int channel_id = is_head_signal ? signal_offset / kNumRDMARanks : (signal_offset - head_signal_count) / kNumRDMARanks;
+
+            auto context_id = is_head_signal ? channel_id + num_channels : channel_id ;
+            ncclGin net(dev_comm, context_id);
+            net.resetSignal(signal_id);
+        }
+        __syncthreads();
+
+        // Copy to send buffer
+        #pragma unroll
+        for (int i = thread_id; i < num_ranks; i += num_threads)
+            rdma_recv_num_tokens_mixed.send_buffer(i / NUM_MAX_NVL_PEERS)[i % NUM_MAX_NVL_PEERS] = num_tokens_per_rank[i];
+        #pragma unroll
+        for (int i = thread_id; i < num_experts; i += num_threads)
+            rdma_recv_num_tokens_mixed.send_buffer(i / num_rdma_experts)[NUM_MAX_NVL_PEERS + i % num_rdma_experts] =
+                num_tokens_per_expert[i];
+        if (thread_id < kNumRDMARanks)
+            rdma_recv_num_tokens_mixed.send_buffer(thread_id)[NUM_MAX_NVL_PEERS + num_rdma_experts] = num_tokens_per_rdma_rank[thread_id];
+        __syncthreads();
+
+        // Issue send
+        // TODO: more light fence or barrier or signaling
+        // TODO: overlap EP barrier and NVL cleaning
+        for (int i = warp_id; i < kNumRDMARanks; i += num_warps) {
+            if (i != rdma_rank) {
+                // Distribute work across GIN contexts
+                int dst_rank = translate_dst_rdma_rank<kLowLatencyMode>(i, nvl_rank);
+                size_t src_offset =
+                    reinterpret_cast<size_t>(rdma_recv_num_tokens_mixed.send_buffer(i)) - reinterpret_cast<size_t>(gin_base_ptr);
+                size_t dst_offset = reinterpret_cast<size_t>(rdma_recv_num_tokens_mixed.recv_buffer(rdma_rank)) -
+                    reinterpret_cast<size_t>(gin_base_ptr);
+                size_t bytes = (NUM_MAX_NVL_PEERS + num_rdma_experts + 1) * sizeof(int);
+
+                ncclGin net(dev_comm, 0);
+                ncclTeam world = ncclTeamWorld(dev_comm);
+                net.put(world,
+                        dst_rank,
+                        nccl_win,
+                        dst_offset,
+                        nccl_win,
+                        src_offset,
+                        bytes,
+                        ncclGin_None{},  // no signal
+                        ncclGin_None{},  // no counter
+                        ncclCoopWarp());
+            } else {
+                UNROLLED_WARP_COPY(1,
+                                   lane_id,
+                                   NUM_MAX_NVL_PEERS + num_rdma_experts + 1,
+                                   rdma_recv_num_tokens_mixed.recv_buffer(rdma_rank),
+                                   rdma_recv_num_tokens_mixed.send_buffer(i),
+                                   ld_volatile_global,
+                                   st_na_global);
+            }
+        }
+        __syncthreads();
+
+        // Wait previous operations to be finished
+        // Flush all contexts
+        ncclGin net(dev_comm, 0);
+        net.flush(ncclCoopCta(), cuda::std::memory_order_acquire);
+
+        // Barrier
+        if (thread_id == 0)
+            sync_with_same_gpu_idx<kLowLatencyMode>(dev_comm);
+        __syncthreads();
+
+        // NVL buffers
+        auto nvl_send_buffer = thread_id < NUM_MAX_NVL_PEERS ? buffer_ptrs[thread_id] : nullptr;
+        auto nvl_recv_buffer = buffer_ptrs[nvl_rank];
+        auto nvl_reduced_num_tokens_per_expert = Buffer<int>(nvl_recv_buffer, num_rdma_experts).advance_also(nvl_send_buffer);
+        auto nvl_send_num_tokens_per_rank = AsymBuffer<int>(nvl_send_buffer, kNumRDMARanks, NUM_MAX_NVL_PEERS);
+        auto nvl_send_num_tokens_per_expert = AsymBuffer<int>(nvl_send_buffer, num_nvl_experts, NUM_MAX_NVL_PEERS);
+        auto nvl_recv_num_tokens_per_rank = AsymBuffer<int>(nvl_recv_buffer, kNumRDMARanks, NUM_MAX_NVL_PEERS);
+        auto nvl_recv_num_tokens_per_expert = AsymBuffer<int>(nvl_recv_buffer, num_nvl_experts, NUM_MAX_NVL_PEERS);
+
+        // Clean up for later data dispatch
+        auto nvl_buffer_ptr_int = static_cast<int*>(buffer_ptrs[nvl_rank]);
+        EP_DEVICE_ASSERT(nvl_reduced_num_tokens_per_expert.total_bytes + nvl_send_num_tokens_per_rank.total_bytes +
+                             nvl_send_num_tokens_per_expert.total_bytes <=
+                         nvl_clean_offset * sizeof(int));
+        #pragma unroll
+        for (int i = thread_id; i < nvl_num_int_clean; i += num_threads)
+            nvl_buffer_ptr_int[nvl_clean_offset + i] = 0;
+
+        // Reduce number of tokens per expert into the NVL send buffer
+        // TODO: may use NVSHMEM reduction
+        EP_DEVICE_ASSERT(num_rdma_experts <= num_threads);
+        if (thread_id < num_rdma_experts) {
+            int sum = 0;
+            #pragma unroll
+            for (int i = 0; i < kNumRDMARanks; ++i)
+                sum += rdma_recv_num_tokens_mixed.recv_buffer(i)[NUM_MAX_NVL_PEERS + thread_id];
+            nvl_reduced_num_tokens_per_expert[thread_id] = sum;
+        }
+        __syncthreads();
+
+        // Reduce RDMA received tokens
+        if (thread_id == 0) {
+            int sum = 0;
+            #pragma unroll
+            for (int i = 0; i < kNumRDMARanks; ++i) {
+                sum += rdma_recv_num_tokens_mixed.recv_buffer(i)[NUM_MAX_NVL_PEERS + num_rdma_experts];
+                recv_rdma_rank_prefix_sum[i] = sum;
+            }
+            if (num_worst_tokens == 0) {
+                while (ld_volatile_global(moe_recv_rdma_counter_mapped) != -1)
+                    ;
+                *moe_recv_rdma_counter_mapped = sum;
+            }
+        }
+
+        // Send numbers of tokens per rank/expert to NVL ranks
+        EP_DEVICE_ASSERT(NUM_MAX_NVL_PEERS <= num_threads);
+        if (thread_id < NUM_MAX_NVL_PEERS) {
+            #pragma unroll
+            for (int i = 0; i < kNumRDMARanks; ++i)
+                nvl_send_num_tokens_per_rank.buffer(nvl_rank)[i] = rdma_recv_num_tokens_mixed.recv_buffer(i)[thread_id];
+            #pragma unroll
+            for (int i = 0; i < num_nvl_experts; ++i)
+                nvl_send_num_tokens_per_expert.buffer(nvl_rank)[i] = nvl_reduced_num_tokens_per_expert[thread_id * num_nvl_experts + i];
+        }
+        barrier_block<NUM_MAX_NVL_PEERS>(barrier_signal_ptrs, nvl_rank);
+
+        // Reduce the number of tokens per rank/expert
+        EP_DEVICE_ASSERT(num_nvl_experts <= num_threads);
+        if (thread_id == 0) {
+            int sum = 0;
+            #pragma unroll
+            for (int i = 0; i < num_ranks; ++i) {
+                int src_rdma_rank = i / NUM_MAX_NVL_PEERS, src_nvl_rank = i % NUM_MAX_NVL_PEERS;
+                sum += nvl_recv_num_tokens_per_rank.buffer(src_nvl_rank)[src_rdma_rank];
+                recv_gbl_rank_prefix_sum[i] = sum;
+            }
+            if (num_worst_tokens == 0) {
+                while (ld_volatile_global(moe_recv_counter_mapped) != -1)
+                    ;
+                *moe_recv_counter_mapped = sum;
+            }
+        }
+        if (thread_id < num_nvl_experts) {
+            int sum = 0;
+            #pragma unroll
+            for (int i = 0; i < NUM_MAX_NVL_PEERS; ++i)
+                sum += nvl_recv_num_tokens_per_expert.buffer(i)[thread_id];
+            sum = (sum + expert_alignment - 1) / expert_alignment * expert_alignment;
+            if (num_worst_tokens == 0) {
+                while (ld_volatile_global(moe_recv_expert_counter_mapped + thread_id) != -1)
+                    ;
+                moe_recv_expert_counter_mapped[thread_id] = sum;
+                moe_recv_expert_counter_ten[thread_id] = sum;
+            }
+        }
+
+        // Finally barrier
+        if (thread_id == 32)
+            sync_with_same_gpu_idx<kLowLatencyMode>(dev_comm);
+        barrier_block<NUM_MAX_NVL_PEERS>(barrier_signal_ptrs, nvl_rank);
+    } else {
+        // Calculate meta data
+        int dst_rdma_rank = sm_id - 1;
+        for (int channel_id = warp_id; channel_id < num_channels; channel_id += num_warps) {
+            int token_start_idx, token_end_idx;
+            get_channel_task_range(num_tokens, num_channels, channel_id, token_start_idx, token_end_idx);
+
+            // Iterate over tokens
+            int total_count = 0, per_nvl_rank_count[NUM_MAX_NVL_PEERS] = {0};
+            for (int64_t i = token_start_idx + lane_id; i < token_end_idx; i += 32) {
+                EP_STATIC_ASSERT(NUM_MAX_NVL_PEERS * sizeof(bool) == sizeof(uint64_t), "Invalid number of NVL peers");
+                auto is_token_in_rank_uint64 =
+                    *reinterpret_cast<const uint64_t*>(is_token_in_rank + i * num_ranks + dst_rdma_rank * NUM_MAX_NVL_PEERS);
+                auto is_token_in_rank_values = reinterpret_cast<const bool*>(&is_token_in_rank_uint64);
+                #pragma unroll
+                for (int j = 0; j < NUM_MAX_NVL_PEERS; ++j)
+                    per_nvl_rank_count[j] += is_token_in_rank_values[j];
+                total_count += (is_token_in_rank_uint64 != 0);
+            }
+
+            // Warp reduce
+            total_count = warp_reduce_sum(total_count);
+            #pragma unroll
+            for (int i = 0; i < NUM_MAX_NVL_PEERS; ++i)
+                per_nvl_rank_count[i] = warp_reduce_sum(per_nvl_rank_count[i]);
+
+            // Write into channel matrix
+            if (elect_one_sync()) {
+                #pragma unroll
+                for (int i = 0; i < NUM_MAX_NVL_PEERS; ++i)
+                    gbl_channel_prefix_matrix[(dst_rdma_rank * NUM_MAX_NVL_PEERS + i) * num_channels + channel_id] = per_nvl_rank_count[i];
+                rdma_channel_prefix_matrix[dst_rdma_rank * num_channels + channel_id] = total_count;
+            }
+        }
+
+        // Calculate prefix sum
+        __syncthreads();
+        if (thread_id == 0) {
+            auto prefix_row = rdma_channel_prefix_matrix + dst_rdma_rank * num_channels;
+            #pragma unroll
+            for (int i = 1; i < num_channels; ++i)
+                prefix_row[i] += prefix_row[i - 1];
+        }
+
+        EP_STATIC_ASSERT(NUM_MAX_NVL_PEERS <= 32, "Invalid number of NVL peers");
+        if (thread_id < NUM_MAX_NVL_PEERS) {
+            auto prefix_row = gbl_channel_prefix_matrix + (dst_rdma_rank * NUM_MAX_NVL_PEERS + thread_id) * num_channels;
+            #pragma unroll
+            for (int i = 1; i < num_channels; ++i)
+                prefix_row[i] += prefix_row[i - 1];
+        }
+    }
+}
+
+void notify_dispatch(const int*   num_tokens_per_rank,
+                     int*         moe_recv_counter_mapped,
+                     int          num_ranks,
+                     const int*   num_tokens_per_rdma_rank,
+                     int*         moe_recv_rdma_counter_mapped,
+                     const int*   num_tokens_per_expert,
+                     int*         moe_recv_expert_counter_mapped,
+                     int*         moe_recv_expert_counter_ten,
+                     int          num_experts,
+                     const bool*  is_token_in_rank,
+                     int          num_tokens,
+                     int          num_worst_tokens,
+                     int          num_channels,
+                     int          hidden_int4,
+                     int          num_scales,
+                     int          num_topk,
+                     int          expert_alignment,
+                     int*         rdma_channel_prefix_matrix,
+                     int*         recv_rdma_rank_prefix_sum,
+                     int*         gbl_channel_prefix_matrix,
+                     int*         recv_gbl_rank_prefix_sum,
+                     void*        rdma_buffer_ptr,
+                     int          num_max_rdma_chunked_recv_tokens,
+                     void**       buffer_ptrs,
+                     int          num_max_nvl_chunked_recv_tokens,
+                     int**        barrier_signal_ptrs,
+                     int          rank,
+                     cudaStream_t stream,
+                     int64_t      num_rdma_bytes,
+                     int64_t      num_nvl_bytes,
+                     bool         low_latency_mode,
+                     void*        gin_base_ptr,
+                     ncclDevComm  dev_comm,
+                     ncclWindow_t nccl_win,
+                     unsigned     signals_base)
+{
+#define NOTIFY_DISPATCH_LAUNCH_CASE(num_rdma_ranks)                                                                    \
+    {                                                                                                                  \
+        auto notify_dispatch_func =                                                                                    \
+            low_latency_mode ? notify_dispatch<true, num_rdma_ranks> : notify_dispatch<false, num_rdma_ranks>;         \
+        LAUNCH_KERNEL(&cfg,                                                                                            \
+                      notify_dispatch_func,                                                                            \
+                      num_tokens_per_rank,                                                                             \
+                      moe_recv_counter_mapped,                                                                         \
+                      num_ranks,                                                                                       \
+                      num_tokens_per_rdma_rank,                                                                        \
+                      moe_recv_rdma_counter_mapped,                                                                    \
+                      num_tokens_per_expert,                                                                           \
+                      moe_recv_expert_counter_mapped,                                                                  \
+                      moe_recv_expert_counter_ten,                                                                     \
+                      num_experts,                                                                                     \
+                      is_token_in_rank,                                                                                \
+                      num_tokens,                                                                                      \
+                      num_worst_tokens,                                                                                \
+                      num_channels,                                                                                    \
+                      expert_alignment,                                                                                \
+                      rdma_clean_meta.first,                                                                           \
+                      rdma_clean_meta.second,                                                                          \
+                      nvl_clean_meta.first,                                                                            \
+                      nvl_clean_meta.second,                                                                           \
+                      rdma_channel_prefix_matrix,                                                                      \
+                      recv_rdma_rank_prefix_sum,                                                                       \
+                      gbl_channel_prefix_matrix,                                                                       \
+                      recv_gbl_rank_prefix_sum,                                                                        \
+                      rdma_buffer_ptr,                                                                                 \
+                      buffer_ptrs,                                                                                     \
+                      barrier_signal_ptrs,                                                                             \
+                      rank,                                                                                            \
+                      gin_base_ptr,                                                                                    \
+                      dev_comm,                                                                                        \
+                      nccl_win,                                                                                        \
+                      signals_base);                                                                                   \
+    }                                                                                                                  \
+    break
+
+    constexpr int kNumThreads    = 512;
+    const auto    num_rdma_ranks = num_ranks / NUM_MAX_NVL_PEERS;
+
+    // Get clean meta
+    auto rdma_clean_meta = get_rdma_clean_meta(
+        hidden_int4, num_scales, num_topk, num_topk, num_rdma_ranks, num_max_rdma_chunked_recv_tokens, num_channels);
+    auto nvl_clean_meta = get_nvl_clean_meta(hidden_int4,
+                                             num_scales,
+                                             num_topk,
+                                             num_topk,
+                                             num_rdma_ranks,
+                                             NUM_MAX_NVL_PEERS,
+                                             num_max_nvl_chunked_recv_tokens,
+                                             num_channels,
+                                             true);
+    EP_HOST_ASSERT((rdma_clean_meta.first + rdma_clean_meta.second) * sizeof(int) <= num_rdma_bytes);
+    EP_HOST_ASSERT((nvl_clean_meta.first + nvl_clean_meta.second) * sizeof(int) <= num_nvl_bytes);
+    EP_HOST_ASSERT(num_rdma_bytes < std::numeric_limits<int>::max());
+    EP_HOST_ASSERT(num_nvl_bytes < std::numeric_limits<int>::max());
+
+    // Launch kernel
+    SETUP_LAUNCH_CONFIG(1 + num_rdma_ranks, kNumThreads, stream);
+    SWITCH_RDMA_RANKS(NOTIFY_DISPATCH_LAUNCH_CASE);
+#undef NOTIFY_DISPATCH_LAUNCH_CASE
+}
+
+// At most 8 RDMA ranks to be sent
+constexpr int get_num_topk_rdma_ranks(int num_rdma_ranks) {
+    return num_rdma_ranks < 8 ? num_rdma_ranks : 8;
+}
+
+template <bool kLowLatencyMode,
+          int kNumRDMARanks,
+          bool kCachedMode,
+          int kNumTMABytesPerWarp,
+          int kNumDispatchRDMASenderWarps,
+          int kNumTopkRDMARanks = get_num_topk_rdma_ranks(kNumRDMARanks)>
+__global__ void __launch_bounds__(((kNumDispatchRDMASenderWarps + 1 + NUM_MAX_NVL_PEERS) * 32), 1)
+    dispatch(int4* recv_x,
+             float* recv_x_scales,
+             topk_idx_t* recv_topk_idx,
+             float* recv_topk_weights,
+             SourceMeta* recv_src_meta,
+             const int4* x,
+             const float* x_scales,
+             const topk_idx_t* topk_idx,
+             const float* topk_weights,
+             int* send_rdma_head,
+             int* send_nvl_head,
+             int* recv_rdma_channel_prefix_matrix,
+             int* recv_gbl_channel_prefix_matrix,
+             const int* rdma_channel_prefix_matrix,
+             const int* recv_rdma_rank_prefix_sum,
+             const int* gbl_channel_prefix_matrix,
+             const int* recv_gbl_rank_prefix_sum,
+             const bool* is_token_in_rank,
+             int num_tokens,
+             int num_worst_tokens,
+             int hidden_int4,
+             int num_scales,
+             int num_topk,
+             int num_experts,
+             int scale_token_stride,
+             int scale_hidden_stride,
+             void* rdma_buffer_ptr,
+             int num_max_rdma_chunked_send_tokens,
+             int num_max_rdma_chunked_recv_tokens,
+             void** buffer_ptrs,
+             int num_max_nvl_chunked_send_tokens,
+             int num_max_nvl_chunked_recv_tokens,
+             int rank,
+             int num_ranks,
+             void* gin_base_ptr,
+             ncclDevComm dev_comm,
+             ncclWindow_t nccl_win,
+             unsigned signals_base
+    ) {
+    enum class WarpRole { kRDMASender, kRDMASenderCoordinator, kRDMAAndNVLForwarder, kForwarderCoordinator, kNVLReceivers };
+
+    const auto num_sms = static_cast<int>(gridDim.x);
+    const auto sm_id = static_cast<int>(blockIdx.x);
+    const auto num_threads = static_cast<int>(blockDim.x), num_warps = num_threads / 32;
+    const auto thread_id = static_cast<int>(threadIdx.x), warp_id = thread_id / 32, lane_id = get_lane_id();
+    const auto num_channels = num_sms / 2, channel_id = sm_id / 2;
+    const bool is_forwarder = sm_id % 2 == 0;
+    const auto rdma_rank = rank / NUM_MAX_NVL_PEERS, nvl_rank = rank % NUM_MAX_NVL_PEERS;
+
+    const auto role_meta = [=]() -> std::pair<WarpRole, int> {
+        if (is_forwarder) {
+            if (warp_id < NUM_MAX_NVL_PEERS) {
+                return {WarpRole::kRDMAAndNVLForwarder, (warp_id + channel_id) % NUM_MAX_NVL_PEERS};
+            } else {
+                return {WarpRole::kForwarderCoordinator, warp_id - NUM_MAX_NVL_PEERS};
+            }
+        } else if (warp_id < kNumDispatchRDMASenderWarps) {
+            return {WarpRole::kRDMASender, -1};
+        } else if (warp_id == kNumDispatchRDMASenderWarps) {
+            return {WarpRole::kRDMASenderCoordinator, -1};
+        } else {
+            return {WarpRole::kNVLReceivers, (warp_id + channel_id - kNumDispatchRDMASenderWarps) % NUM_MAX_NVL_PEERS};
+        }
+    }();
+    auto warp_role = role_meta.first;
+    auto target_rank = role_meta.second;  // Not applicable for RDMA senders
+    EP_DEVICE_ASSERT(num_warps == kNumDispatchRDMASenderWarps + 1 + NUM_MAX_NVL_PEERS);
+
+    // Data checks
+    EP_DEVICE_ASSERT(num_topk <= 32);
+
+    // RDMA symmetric layout
+    EP_STATIC_ASSERT(NUM_MAX_NVL_PEERS * sizeof(bool) == sizeof(uint64_t), "Invalid number of NVL peers");
+    auto hidden_bytes = hidden_int4 * sizeof(int4);
+    auto scale_bytes = num_scales * sizeof(float);
+    auto num_bytes_per_token = get_num_bytes_per_token(hidden_int4, num_scales, num_topk, num_topk);
+    auto rdma_channel_data = SymBuffer<uint8_t>(
+        rdma_buffer_ptr, num_max_rdma_chunked_recv_tokens * num_bytes_per_token, kNumRDMARanks, channel_id, num_channels);
+    auto rdma_channel_meta = SymBuffer<int>(rdma_buffer_ptr, NUM_MAX_NVL_PEERS * 2 + 2, kNumRDMARanks, channel_id, num_channels);
+    auto rdma_channel_head = SymBuffer<uint64_t, false>(rdma_buffer_ptr, 1, kNumRDMARanks, channel_id, num_channels);
+    auto rdma_channel_tail = SymBuffer<uint64_t, false>(rdma_buffer_ptr, 1, kNumRDMARanks, channel_id, num_channels);
+
+    // Using signals for RDMA head and tail instead with gin_signals
+    auto gin_signals_head = signals_base + kNumRDMARanks * channel_id;  // move the signals to the corresponding channel
+    auto gin_signals_tail = signals_base + kNumRDMARanks * num_channels +
+        kNumRDMARanks * channel_id;  // move the signals to the corresponding channel after passing all head signals
+
+    // Use a diff GIN context and window for each channel/SM
+    ncclGin net(dev_comm, channel_id);
+    ncclTeam world = ncclTeamWorld(dev_comm);
+    // Using different communicator for reading/writing head pointers
+    ncclGin net_head(dev_comm, channel_id + num_channels);
+    ncclTeam world_head = ncclTeamWorld(dev_comm);
+
+
+    // NVL buffer layouts
+    // NOTES: `rs_wr_buffer_ptr` means "Read for Senders, Write for Receivers", `ws_rr_buffer_ptr` means "Write for Senders, Read for
+    // Receivers"
+    void *rs_wr_buffer_ptr = nullptr, *ws_rr_buffer_ptr = nullptr;
+    int rs_wr_rank = 0, ws_rr_rank = 0;
+    if (warp_role == WarpRole::kRDMAAndNVLForwarder)
+        rs_wr_buffer_ptr = buffer_ptrs[nvl_rank], ws_rr_buffer_ptr = buffer_ptrs[target_rank], rs_wr_rank = nvl_rank,
+        ws_rr_rank = target_rank;
+    if (warp_role == WarpRole::kNVLReceivers)
+        rs_wr_buffer_ptr = buffer_ptrs[target_rank], ws_rr_buffer_ptr = buffer_ptrs[nvl_rank], rs_wr_rank = target_rank,
+        ws_rr_rank = nvl_rank;
+
+    // Allocate buffers
+    auto nvl_channel_x = AsymBuffer<uint8_t>(ws_rr_buffer_ptr,
+                                             num_max_nvl_chunked_recv_tokens * num_bytes_per_token,
+                                             NUM_MAX_NVL_PEERS,
+                                             channel_id,
+                                             num_channels,
+                                             rs_wr_rank)
+                             .advance_also(rs_wr_buffer_ptr);
+    auto nvl_channel_prefix_start =
+        AsymBuffer<int>(ws_rr_buffer_ptr, kNumRDMARanks, NUM_MAX_NVL_PEERS, channel_id, num_channels, rs_wr_rank)
+            .advance_also(rs_wr_buffer_ptr);
+    auto nvl_channel_prefix_end = AsymBuffer<int>(ws_rr_buffer_ptr, kNumRDMARanks, NUM_MAX_NVL_PEERS, channel_id, num_channels, rs_wr_rank)
+                                      .advance_also(rs_wr_buffer_ptr);
+    auto nvl_channel_head =
+        AsymBuffer<int>(rs_wr_buffer_ptr, 1, NUM_MAX_NVL_PEERS, channel_id, num_channels, ws_rr_rank).advance_also(ws_rr_buffer_ptr);
+    auto nvl_channel_tail =
+        AsymBuffer<int>(ws_rr_buffer_ptr, 1, NUM_MAX_NVL_PEERS, channel_id, num_channels, rs_wr_rank).advance_also(rs_wr_buffer_ptr);
+
+    // RDMA sender warp synchronization
+    // NOTES: `rdma_send_channel_tail` means the latest released tail
+    // NOTES: `rdma_send_channel_window` means the ongoing 32 transactions' status
+    __shared__ int rdma_send_channel_lock[kNumRDMARanks];
+    __shared__ int rdma_send_channel_tail[kNumRDMARanks];
+    __shared__ uint32_t rdma_send_channel_window[kNumRDMARanks];
+    auto sync_rdma_sender_smem = []() { asm volatile("barrier.sync 0, %0;" ::"r"((kNumDispatchRDMASenderWarps + 1) * 32)); };
+
+    // TMA stuffs
+    extern __shared__ __align__(1024) uint8_t smem_tma_buffer[];
+    auto tma_buffer = smem_tma_buffer + target_rank * kNumTMABytesPerWarp;
+    auto tma_mbarrier = reinterpret_cast<uint64_t*>(tma_buffer + num_bytes_per_token);
+    uint32_t tma_phase = 0;
+    if ((warp_role == WarpRole::kRDMAAndNVLForwarder or warp_role == WarpRole::kNVLReceivers) and elect_one_sync()) {
+        mbarrier_init(tma_mbarrier, 1);
+        fence_barrier_init();
+        EP_DEVICE_ASSERT(num_bytes_per_token + sizeof(uint64_t) <= kNumTMABytesPerWarp);
+    }
+    __syncwarp();
+
+    // Forward warp synchronization
+    __shared__ volatile int forward_channel_head[NUM_MAX_NVL_PEERS][kNumRDMARanks];
+    __shared__ volatile bool forward_channel_retired[NUM_MAX_NVL_PEERS];
+    auto sync_forwarder_smem = []() { asm volatile("barrier.sync 1, %0;" ::"r"((NUM_MAX_NVL_PEERS + 1) * 32)); };
+
+    if (warp_role == WarpRole::kRDMASender) {
+        // Get tasks
+        int token_start_idx, token_end_idx;
+        get_channel_task_range(num_tokens, num_channels, channel_id, token_start_idx, token_end_idx);
+
+        // Send number of tokens in this channel by `-value - 1`
+        EP_STATIC_ASSERT(NUM_MAX_NVL_PEERS * 2 + 2 <= 32, "Invalid number of NVL peers");
+        for (int dst_rdma_rank = warp_id; dst_rdma_rank < kNumRDMARanks; dst_rdma_rank += kNumDispatchRDMASenderWarps) {
+            auto dst_ptr =
+                dst_rdma_rank == rdma_rank ? rdma_channel_meta.recv_buffer(dst_rdma_rank) : rdma_channel_meta.send_buffer(dst_rdma_rank);
+            if (lane_id < NUM_MAX_NVL_PEERS) {
+                dst_ptr[lane_id] =
+                    -(channel_id == 0
+                          ? 0
+                          : gbl_channel_prefix_matrix[(dst_rdma_rank * NUM_MAX_NVL_PEERS + lane_id) * num_channels + channel_id - 1]) -
+                    1;
+            } else if (lane_id < NUM_MAX_NVL_PEERS * 2) {
+                dst_ptr[lane_id] =
+                    -gbl_channel_prefix_matrix[(dst_rdma_rank * NUM_MAX_NVL_PEERS + lane_id - NUM_MAX_NVL_PEERS) * num_channels +
+                                               channel_id] -
+                    1;
+            } else if (lane_id == NUM_MAX_NVL_PEERS * 2) {
+                dst_ptr[lane_id] = -(channel_id == 0 ? 0 : rdma_channel_prefix_matrix[dst_rdma_rank * num_channels + channel_id - 1]) - 1;
+            } else if (lane_id == NUM_MAX_NVL_PEERS * 2 + 1) {
+                dst_ptr[lane_id] = -rdma_channel_prefix_matrix[dst_rdma_rank * num_channels + channel_id] - 1;
+            }
+            __syncwarp();
+
+            // Issue RDMA for non-local ranks
+            if (dst_rdma_rank != rdma_rank) {
+                // kRDMASender: These are channel-specific routing metadata
+                int dst_rank = translate_dst_rdma_rank<kLowLatencyMode>(dst_rdma_rank, nvl_rank);
+                size_t src_offset =
+                    reinterpret_cast<size_t>(rdma_channel_meta.send_buffer(dst_rdma_rank)) - reinterpret_cast<size_t>(gin_base_ptr);
+                size_t dst_offset =
+                    reinterpret_cast<size_t>(rdma_channel_meta.recv_buffer(rdma_rank)) - reinterpret_cast<size_t>(gin_base_ptr);
+                size_t bytes = sizeof(int) * (NUM_MAX_NVL_PEERS * 2 + 2);
+
+                net.put(world,
+                        dst_rank,
+                        nccl_win,
+                        dst_offset,
+                        nccl_win,
+                        src_offset,
+                        bytes,
+                        ncclGin_None{},  // no signal
+                        ncclGin_None{},  // no counter
+                        ncclCoopWarp());
+            }
+        }
+        sync_rdma_sender_smem();
+
+        // Iterate over tokens and copy into buffer
+        int64_t token_idx;
+        int cached_rdma_channel_head = 0, global_rdma_tail_idx = 0;
+        auto send_buffer = lane_id == rdma_rank ? rdma_channel_data.recv_buffer(lane_id) : rdma_channel_data.send_buffer(lane_id);
+        for (token_idx = token_start_idx; token_idx < token_end_idx; ++token_idx) {
+            // Read RDMA rank existence
+            uint64_t is_token_in_rank_uint64 = 0;
+            if (lane_id < kNumRDMARanks) {
+                is_token_in_rank_uint64 =
+                    __ldg(reinterpret_cast<const uint64_t*>(is_token_in_rank + token_idx * num_ranks + lane_id * NUM_MAX_NVL_PEERS));
+                global_rdma_tail_idx += (is_token_in_rank_uint64 != 0);
+            }
+            __syncwarp();
+
+            // Skip the token which does not belong to this warp
+            if ((token_idx - token_start_idx) % kNumDispatchRDMASenderWarps != warp_id)
+                continue;
+            auto rdma_tail_idx = is_token_in_rank_uint64 == 0 ? -1 : global_rdma_tail_idx - 1;
+
+            // Wait the remote buffer to be released
+            auto start_time = clock64();
+            while (is_token_in_rank_uint64 != 0 and rdma_tail_idx - cached_rdma_channel_head >= num_max_rdma_chunked_recv_tokens) {
+                // kRDMASender: Check available space with head pointers to avoid overflow
+                auto signal_id = gin_signals_head + lane_id;
+                uint64_t signal_value = net_head.readSignal(signal_id);
+                cached_rdma_channel_head = static_cast<int>(signal_value);
+
+                // Timeout check
+                if (clock64() - start_time >= NUM_TIMEOUT_CYCLES) {
+                    printf("DeepEP dispatch RDMA sender timeout, channel: %d, RDMA: %d, nvl: %d, dst RDMA lane: %d, head: %d, tail: %d\n",
+                           channel_id,
+                           rdma_rank,
+                           nvl_rank,
+                           lane_id,
+                           cached_rdma_channel_head,
+                           rdma_tail_idx);
+                    trap();
+                }
+            }
+            __syncwarp();
+
+            // Store RDMA head for combine
+            if (lane_id < kNumRDMARanks and not kCachedMode)
+                send_rdma_head[token_idx * kNumRDMARanks + lane_id] = rdma_tail_idx;
+
+            // Broadcast tails
+            SourceMeta src_meta;
+            int num_topk_ranks = 0, topk_ranks[kNumTopkRDMARanks];
+            void* dst_send_buffers[kNumTopkRDMARanks];
+            #pragma unroll
+            for (int i = 0, slot_idx; i < kNumRDMARanks; ++i)
+                if ((slot_idx = __shfl_sync(0xffffffff, rdma_tail_idx, i)) >= 0) {
+                    slot_idx = slot_idx % num_max_rdma_chunked_recv_tokens;
+                    topk_ranks[num_topk_ranks] = i;
+                    auto recv_is_token_in_rank_uint64 = broadcast(is_token_in_rank_uint64, i);
+                    auto recv_is_token_in_rank_values = reinterpret_cast<const bool*>(&recv_is_token_in_rank_uint64);
+                    if (lane_id == num_topk_ranks)
+                        src_meta = SourceMeta(rdma_rank, recv_is_token_in_rank_values);
+                    dst_send_buffers[num_topk_ranks++] =
+                        reinterpret_cast<uint8_t*>(broadcast(send_buffer, i)) + slot_idx * num_bytes_per_token;
+                }
+            EP_DEVICE_ASSERT(num_topk_ranks <= kNumTopkRDMARanks);
+
+            // Copy `x` into symmetric send buffer
+            auto st_broadcast = [=](const int key, const int4& value) {
+                #pragma unroll
+                for (int j = 0; j < num_topk_ranks; ++j)
+                    st_na_global(reinterpret_cast<int4*>(dst_send_buffers[j]) + key, value);
+            };
+            UNROLLED_WARP_COPY(5, lane_id, hidden_int4, 0, x + token_idx * hidden_int4, ld_nc_global, st_broadcast);
+            #pragma unroll
+            for (int i = 0; i < num_topk_ranks; ++i)
+                dst_send_buffers[i] = reinterpret_cast<int4*>(dst_send_buffers[i]) + hidden_int4;
+
+            // Copy `x_scales` into symmetric send buffer
+            #pragma unroll
+            for (int i = lane_id; i < num_scales; i += 32) {
+                auto offset = token_idx * scale_token_stride + i * scale_hidden_stride;
+                auto value = ld_nc_global(x_scales + offset);
+                #pragma unroll
+                for (int j = 0; j < num_topk_ranks; ++j)
+                    st_na_global(reinterpret_cast<float*>(dst_send_buffers[j]) + i, value);
+            }
+            #pragma unroll
+            for (int i = 0; i < num_topk_ranks; ++i)
+                dst_send_buffers[i] = reinterpret_cast<float*>(dst_send_buffers[i]) + num_scales;
+
+            // Copy source metadata into symmetric send buffer
+            if (lane_id < num_topk_ranks)
+                st_na_global(reinterpret_cast<SourceMeta*>(dst_send_buffers[lane_id]), src_meta);
+            #pragma unroll
+            for (int i = 0; i < num_topk_ranks; ++i)
+                dst_send_buffers[i] = reinterpret_cast<SourceMeta*>(dst_send_buffers[i]) + 1;
+
+            // Copy `topk_idx` and `topk_weights` into symmetric send buffer
+            #pragma unroll
+            for (int i = lane_id; i < num_topk * num_topk_ranks; i += 32) {
+                auto rank_idx = i / num_topk, copy_idx = i % num_topk;
+                auto idx_value = static_cast<int>(ld_nc_global(topk_idx + token_idx * num_topk + copy_idx));
+                auto weight_value = ld_nc_global(topk_weights + token_idx * num_topk + copy_idx);
+                st_na_global(reinterpret_cast<int*>(dst_send_buffers[rank_idx]) + copy_idx, idx_value);
+                st_na_global(reinterpret_cast<float*>(dst_send_buffers[rank_idx]) + num_topk + copy_idx, weight_value);
+            }
+            __syncwarp();
+
+            // Release the transaction in the window
+            if (is_token_in_rank_uint64 != 0) {
+                // Acquire lock first
+                acquire_lock(rdma_send_channel_lock + lane_id);
+                auto latest_tail = rdma_send_channel_tail[lane_id];
+                auto offset = rdma_tail_idx - latest_tail;
+                while (offset >= 32) {
+                    release_lock(rdma_send_channel_lock + lane_id);
+                    acquire_lock(rdma_send_channel_lock + lane_id);
+                    latest_tail = rdma_send_channel_tail[lane_id];
+                    offset = rdma_tail_idx - latest_tail;
+                }
+
+                // Release the transaction slot
+                // Add the bit and move the ones if possible
+                auto window = rdma_send_channel_window[lane_id] | (1u << offset);
+                if (offset == 0) {
+                    auto num_empty_slots = (~window) == 0 ? 32 : __ffs(~window) - 1;
+                    st_release_cta(rdma_send_channel_tail + lane_id, latest_tail + num_empty_slots);
+                    window >>= num_empty_slots;
+                }
+                rdma_send_channel_window[lane_id] = window;
+
+                // Release lock
+                release_lock(rdma_send_channel_lock + lane_id);
+            }
+            __syncwarp();
+        }
+    } else if (warp_role == WarpRole::kRDMASenderCoordinator) {
+        // NOTES: in case of splitting, the issued put at the end of the buffer
+        EP_DEVICE_ASSERT(num_max_rdma_chunked_recv_tokens % num_max_rdma_chunked_send_tokens == 0);
+
+        // Clean shared memory
+        EP_STATIC_ASSERT(kNumRDMARanks <= 32, "Invalid number of RDMA ranks");
+        (lane_id < kNumRDMARanks) ? (rdma_send_channel_lock[lane_id] = 0) : 0;
+        (lane_id < kNumRDMARanks) ? (rdma_send_channel_tail[lane_id] = 0) : 0;
+        (lane_id < kNumRDMARanks) ? (rdma_send_channel_window[lane_id] = 0) : 0;
+
+        // Synchronize shared memory
+        sync_rdma_sender_smem();
+
+        // Get number of tokens to send for each RDMA rank
+        int num_tokens_to_send = 0;
+        if (lane_id < kNumRDMARanks) {
+            num_tokens_to_send = rdma_channel_prefix_matrix[lane_id * num_channels + channel_id];
+            if (channel_id > 0)
+                num_tokens_to_send -= rdma_channel_prefix_matrix[lane_id * num_channels + channel_id - 1];
+        }
+
+        // Iterate all RDMA ranks
+        int last_issued_tail = 0;
+        auto start_time = clock64();
+        while (__any_sync(0xffffffff, num_tokens_to_send > 0)) {
+            // Timeout check
+            if (clock64() - start_time > NUM_TIMEOUT_CYCLES and lane_id < kNumRDMARanks) {
+                printf("DeepEP RDMA sender coordinator timeout, channel: %d, IB: %d, nvl %d, dst IB: %d, tail: %d, remaining: %d\n",
+                       channel_id,
+                       rdma_rank,
+                       nvl_rank,
+                       lane_id,
+                       last_issued_tail,
+                       num_tokens_to_send);
+                trap();
+            }
+
+            // TODO: try thread-level `put_nbi`?
+            for (int i = 0, synced_num_tokens_to_send; i < kNumRDMARanks; ++i) {
+                // To mitigate incast congestion, shuffle the starting index of target rank for different ranks and channels
+                int dst_rdma_rank = (i + channel_id + rdma_rank) % kNumRDMARanks;
+                synced_num_tokens_to_send = __shfl_sync(0xffffffff, num_tokens_to_send, dst_rdma_rank);
+                if (synced_num_tokens_to_send == 0)
+                    continue;
+
+                // Read the latest progress
+                // NOTES: `rdma_send_channel_tail` does not need to be protected by lock
+                auto processed_tail =
+                    __shfl_sync(0xffffffff, ld_acquire_cta(const_cast<const int*>(rdma_send_channel_tail + dst_rdma_rank)), 0);
+                auto synced_last_issued_tail = __shfl_sync(0xffffffff, last_issued_tail, dst_rdma_rank);
+                auto num_tokens_processed = processed_tail - synced_last_issued_tail;
+                if (num_tokens_processed != synced_num_tokens_to_send and num_tokens_processed < num_max_rdma_chunked_send_tokens)
+                    continue;
+
+                // Issue RDMA send
+                auto num_tokens_to_issue = min(num_tokens_processed, num_max_rdma_chunked_send_tokens);
+                EP_DEVICE_ASSERT(num_tokens_to_issue >= 0 and num_tokens_to_issue <= synced_num_tokens_to_send);
+                if (dst_rdma_rank != rdma_rank) {
+                    auto dst_slot_idx = synced_last_issued_tail % num_max_rdma_chunked_recv_tokens;
+                    EP_DEVICE_ASSERT(dst_slot_idx + num_tokens_to_issue <= num_max_rdma_chunked_recv_tokens);
+                    const size_t num_bytes_per_msg = num_bytes_per_token * num_tokens_to_issue;
+                    const auto dst_ptr =
+                        reinterpret_cast<uint64_t>(rdma_channel_data.recv_buffer(rdma_rank) + dst_slot_idx * num_bytes_per_token);
+                    const auto src_ptr =
+                        reinterpret_cast<uint64_t>(rdma_channel_data.send_buffer(dst_rdma_rank) + dst_slot_idx * num_bytes_per_token);
+                    // kRDMASenderCoordinator: Send tokens to remote RDMA ranks
+                    int dst_rank = translate_dst_rdma_rank<kLowLatencyMode>(dst_rdma_rank, nvl_rank);
+                    size_t src_offset =
+                        reinterpret_cast<size_t>(rdma_channel_data.send_buffer(dst_rdma_rank) + dst_slot_idx * num_bytes_per_token) -
+                        reinterpret_cast<size_t>(gin_base_ptr);
+                    size_t dst_offset =
+                        reinterpret_cast<size_t>(rdma_channel_data.recv_buffer(rdma_rank) + dst_slot_idx * num_bytes_per_token) -
+                        reinterpret_cast<size_t>(gin_base_ptr);
+                    net.put(world,
+                            dst_rank,
+                            nccl_win,
+                            dst_offset,
+                            nccl_win,
+                            src_offset,
+                            num_bytes_per_msg,
+                            ncclGin_None{},  // no signal
+                            ncclGin_None{},  // no counter
+                            ncclCoopWarp());
+                } else {
+                    // Lighter fence for local RDMA rank
+                    memory_fence();
+                }
+                __syncwarp();
+
+                // Update tails
+                if (lane_id == dst_rdma_rank) {
+                    last_issued_tail += num_tokens_to_issue;
+                    num_tokens_to_send -= num_tokens_to_issue;
+                    // kRDMASenderCoordinator:Update tails
+                    auto dst_rank = translate_dst_rdma_rank<kLowLatencyMode>(dst_rdma_rank, nvl_rank);
+                    auto signal_id = gin_signals_tail + rdma_rank;
+
+                    net.signal(world,                                                        // team
+                               dst_rank,                                                     // destination rank
+                               ncclGin_SignalAdd{signal_id, (uint64_t)num_tokens_to_issue},  // signal + value
+                               ncclCoopThread(),                                             // cooperation scope (default)
+                               ncclGin_None{},                                               // no descriptor (default)
+                               cuda::thread_scope_thread,                                    // alreadyReleased (default)
+                               cuda::thread_scope_thread                                     // expected_scope (default)
+                    );
+                }
+                __syncwarp();
+            }
+        }
+    } else if (warp_role == WarpRole::kRDMAAndNVLForwarder) {
+        // RDMA consumers and NVL producers
+        const auto dst_nvl_rank = target_rank;
+
+        // Wait counters to arrive
+        int num_tokens_to_recv_from_rdma = 0, src_rdma_channel_prefix = 0;
+        EP_DEVICE_ASSERT(kNumRDMARanks <= 32);
+        auto start_time = clock64();
+        if (lane_id < kNumRDMARanks) {
+            while (true) {
+                auto meta_0 = ld_volatile_global(rdma_channel_meta.recv_buffer(lane_id) + dst_nvl_rank);
+                auto meta_1 = ld_volatile_global(rdma_channel_meta.recv_buffer(lane_id) + NUM_MAX_NVL_PEERS + dst_nvl_rank);
+                auto meta_2 = ld_volatile_global(rdma_channel_meta.recv_buffer(lane_id) + NUM_MAX_NVL_PEERS * 2);
+                auto meta_3 = ld_volatile_global(rdma_channel_meta.recv_buffer(lane_id) + NUM_MAX_NVL_PEERS * 2 + 1);
+                if (meta_0 < 0 and meta_1 < 0 and meta_2 < 0 and meta_3 < 0) {
+                    // Notify NVL ranks
+                    int start_sum = -meta_0 - 1, end_sum = -meta_1 - 1;
+                    EP_DEVICE_ASSERT(start_sum >= 0 and end_sum >= 0 and end_sum >= start_sum);
+                    st_relaxed_sys_global(nvl_channel_prefix_start.buffer() + lane_id, -start_sum - 1);
+                    st_relaxed_sys_global(nvl_channel_prefix_end.buffer() + lane_id, -end_sum - 1);
+
+                    // Save RDMA channel received token count
+                    src_rdma_channel_prefix = -meta_2 - 1;
+                    auto src_rdma_channel_prefix_1 = -meta_3 - 1;
+                    num_tokens_to_recv_from_rdma = src_rdma_channel_prefix_1 - src_rdma_channel_prefix;
+                    if (not kCachedMode)
+                        recv_rdma_channel_prefix_matrix[lane_id * num_channels + channel_id] = src_rdma_channel_prefix_1;
+                    src_rdma_channel_prefix += lane_id == 0 ? 0 : recv_rdma_rank_prefix_sum[lane_id - 1];
+                    EP_DEVICE_ASSERT(num_tokens_to_recv_from_rdma >= 0);
+                    break;
+                }
+
+                // Timeout check
+                if (clock64() - start_time > NUM_TIMEOUT_CYCLES) {
+                    printf(
+                        "DeepEP dispatch forwarder timeout (RDMA meta), channel: %d, RDMA: %d, nvl: %d, src RDMA lane: %d, dst NVL: %d, "
+                        "meta: %d, %d, %d, %d\n",
+                        channel_id,
+                        rdma_rank,
+                        nvl_rank,
+                        lane_id,
+                        dst_nvl_rank,
+                        meta_0,
+                        meta_1,
+                        meta_2,
+                        meta_3);
+                    trap();
+                }
+            }
+        }
+        __syncwarp();
+
+        // Shift cached head
+        send_nvl_head += src_rdma_channel_prefix * NUM_MAX_NVL_PEERS + dst_nvl_rank;
+
+        // Wait shared memory to be cleaned
+        sync_forwarder_smem();
+
+        // Forward tokens from RDMA buffer
+        // NOTES: always start from the local rank
+        int src_rdma_rank = sm_id % kNumRDMARanks;
+        int cached_rdma_channel_head = 0, cached_rdma_channel_tail = 0;
+        int cached_nvl_channel_head = 0, cached_nvl_channel_tail = 0, rdma_nvl_token_idx = 0;
+        while (__any_sync(0xffffffff, num_tokens_to_recv_from_rdma > 0)) {
+            // Check destination queue emptiness, or wait a buffer to be released
+            start_time = clock64();
+            while (true) {
+                const int num_used_slots = cached_nvl_channel_tail - cached_nvl_channel_head;
+                if (num_max_nvl_chunked_recv_tokens - num_used_slots >= num_max_nvl_chunked_send_tokens)
+                    break;
+                cached_nvl_channel_head = __shfl_sync(0xffffffffu, ld_volatile_global(nvl_channel_head.buffer()), 0);
+
+                // Timeout check
+                if (elect_one_sync() and clock64() - start_time > NUM_TIMEOUT_CYCLES) {
+                    printf(
+                        "DeepEP dispatch forwarder timeout (NVL check), channel: %d, RDMA: %d, nvl: %d, dst NVL: %d, head: %d, tail: %d\n",
+                        channel_id,
+                        rdma_rank,
+                        nvl_rank,
+                        dst_nvl_rank,
+                        ld_volatile_global(nvl_channel_head.buffer()),
+                        cached_nvl_channel_tail);
+                    trap();
+                }
+            }
+
+            // Find next source RDMA rank (round-robin)
+            start_time = clock64();
+            while (true) {
+                src_rdma_rank = (src_rdma_rank + 1) % kNumRDMARanks;
+                if (__shfl_sync(0xffffffff, num_tokens_to_recv_from_rdma, src_rdma_rank) > 0) {
+                    if (lane_id == src_rdma_rank and cached_rdma_channel_head == cached_rdma_channel_tail) {
+                        // kRDMAAndNVLForwarder: Read local tail for availability
+                        auto signal_id = gin_signals_tail + src_rdma_rank;
+                        uint64_t signal_value = net.readSignal(signal_id);
+                        cached_rdma_channel_tail = static_cast<int>(signal_value);
+                    }
+
+                    if (__shfl_sync(0xffffffff, cached_rdma_channel_tail > cached_rdma_channel_head, src_rdma_rank))
+                        break;
+                }
+
+                // Timeout check
+                if (clock64() - start_time > NUM_TIMEOUT_CYCLES and lane_id < kNumRDMARanks) {
+                    printf(
+                        "DeepEP dispatch forwarder timeout (RDMA check), channel: %d, RDMA: %d, nvl: %d, dst NVL: %d, src RDMA lane: %d, "
+                        "head: %d, tail: %d, expected: %d\n",
+                        channel_id,
+                        rdma_rank,
+                        nvl_rank,
+                        dst_nvl_rank,
+                        lane_id,
+                        cached_rdma_channel_head,
+                        cached_rdma_channel_tail,
+                        num_tokens_to_recv_from_rdma);
+                    trap();
+                }
+            }
+            auto src_rdma_head = __shfl_sync(0xffffffff, cached_rdma_channel_head, src_rdma_rank);
+            auto src_rdma_tail = __shfl_sync(0xffffffff, cached_rdma_channel_tail, src_rdma_rank);
+
+            // Iterate over every token from the RDMA buffer
+            for (int i = src_rdma_head, num_tokens_sent = 0; i < src_rdma_tail; ++i) {
+                auto rdma_slot_idx = i % num_max_rdma_chunked_recv_tokens;
+                auto shifted = rdma_channel_data.recv_buffer(src_rdma_rank) + rdma_slot_idx * num_bytes_per_token;
+                auto src_meta = ld_nc_global(reinterpret_cast<SourceMeta*>(shifted + hidden_bytes + scale_bytes));
+                lane_id == src_rdma_rank ? (num_tokens_to_recv_from_rdma -= 1) : 0;
+                bool is_in_dst_nvl_rank = src_meta.is_token_in_nvl_rank(dst_nvl_rank);
+                if (lane_id == src_rdma_rank) {
+                    auto cached_head = is_in_dst_nvl_rank ? rdma_nvl_token_idx : -1;
+                    rdma_nvl_token_idx += is_in_dst_nvl_rank;
+                    if (not kCachedMode)
+                        send_nvl_head[i * NUM_MAX_NVL_PEERS] = cached_head;
+                }
+                if (not is_in_dst_nvl_rank)
+                    continue;
+
+                // Get an empty slot
+                int dst_slot_idx = (cached_nvl_channel_tail++) % num_max_nvl_chunked_recv_tokens;
+                auto dst_shifted = nvl_channel_x.buffer() + dst_slot_idx * num_bytes_per_token;
+
+                // Copy data
+                if (elect_one_sync()) {
+                    tma_load_1d(tma_buffer, shifted, tma_mbarrier, num_bytes_per_token, false);
+                    mbarrier_arrive_and_expect_tx(tma_mbarrier, num_bytes_per_token);
+                }
+                __syncwarp();
+                mbarrier_wait(tma_mbarrier, tma_phase);
+                if (elect_one_sync())
+                    tma_store_1d(tma_buffer, dst_shifted, num_bytes_per_token);
+                __syncwarp();
+
+                // In case of insufficient NVL buffers, early stopping
+                if ((++num_tokens_sent) == num_max_nvl_chunked_send_tokens)
+                    src_rdma_tail = i + 1;
+
+                // Wait TMA to be finished
+                tma_store_wait<0>();
+                __syncwarp();
+            }
+
+            // Sync head index
+            if (lane_id == src_rdma_rank)
+                forward_channel_head[dst_nvl_rank][src_rdma_rank] = (cached_rdma_channel_head = src_rdma_tail);
+
+            // Move tail index
+            __syncwarp();
+            if (elect_one_sync())
+                st_release_sys_global(nvl_channel_tail.buffer(), cached_nvl_channel_tail);
+        }
+
+        // Retired
+        __syncwarp();
+        if (elect_one_sync())
+            forward_channel_retired[dst_nvl_rank] = true;
+    } else if (warp_role == WarpRole::kForwarderCoordinator) {
+        // Extra warps for forwarder coordinator should exit directly
+        if (target_rank > 0)
+            return;
+
+        // Forward warp coordinator
+        EP_STATIC_ASSERT(kNumRDMARanks <= 32, "Invalid number of RDMA peers");
+
+        // Clean shared memory
+        EP_STATIC_ASSERT(NUM_MAX_NVL_PEERS <= 32, "Invalid number of NVL peers");
+        #pragma unroll
+        for (int i = lane_id; i < kNumRDMARanks * NUM_MAX_NVL_PEERS; i += 32)
+            forward_channel_head[i % NUM_MAX_NVL_PEERS][i / NUM_MAX_NVL_PEERS] = 0;
+        if (lane_id < NUM_MAX_NVL_PEERS)
+            forward_channel_retired[lane_id] = false;
+        sync_forwarder_smem();
+
+        int last_head = 0, target_rdma = lane_id < kNumRDMARanks ? lane_id : 0;
+        while (true) {
+            // Find minimum head
+            int min_head = std::numeric_limits<int>::max();
+            #pragma unroll
+            for (int i = 0; i < NUM_MAX_NVL_PEERS; ++i)
+                if (not forward_channel_retired[i])
+                    min_head = min(min_head, forward_channel_head[i][target_rdma]);
+            if (__all_sync(0xffffffff, min_head == std::numeric_limits<int>::max()))
+                break;
+
+            // Update remote head
+            if (min_head != std::numeric_limits<int>::max() and min_head >= last_head + num_max_rdma_chunked_send_tokens and
+                lane_id < kNumRDMARanks) {
+                // kForwarderCoordinator: Update remote head
+                auto dst_rank = translate_dst_rdma_rank<kLowLatencyMode>(lane_id, nvl_rank);
+                auto signal_id = gin_signals_head + rdma_rank;
+                net_head.signal(world_head,                                                              // team
+                                dst_rank,                                                                // destination rank
+                                ncclGin_SignalAdd{signal_id, (uint64_t)min_head - (uint64_t)last_head},  // signal + value
+                                ncclCoopThread(),                                                        // cooperation scope (default)
+                                ncclGin_None{},                                                          // no descriptor (default)
+                                cuda::thread_scope_thread,                                               // alreadyReleased (default)
+                                cuda::thread_scope_thread                                                // expected_scope (default)
+                );
+                last_head = min_head;
+            }
+
+            // Nanosleep and let other warps work
+            __nanosleep(NUM_WAIT_NANOSECONDS);
+        }
+    } else {
+        // NVL consumers
+        // Retrieve rank offset from barrier results (each lane's register stores an RDMA rank)
+        int src_nvl_rank = target_rank, total_offset = 0;
+        const int local_expert_begin = rank * (num_experts / num_ranks);
+        const int local_expert_end = local_expert_begin + (num_experts / num_ranks);
+
+        EP_STATIC_ASSERT(kNumRDMARanks <= 32, "Invalid number of RDMA peers");
+        if (lane_id < kNumRDMARanks and lane_id * NUM_MAX_NVL_PEERS + src_nvl_rank > 0)
+            total_offset = recv_gbl_rank_prefix_sum[lane_id * NUM_MAX_NVL_PEERS + src_nvl_rank - 1];
+
+        // Receive channel offsets
+        int start_offset = 0, end_offset = 0, num_tokens_to_recv;
+        auto start_time = clock64();
+        while (lane_id < kNumRDMARanks) {
+            start_offset = ld_volatile_global(nvl_channel_prefix_start.buffer() + lane_id);
+            end_offset = ld_volatile_global(nvl_channel_prefix_end.buffer() + lane_id);
+            if (start_offset < 0 and end_offset < 0) {
+                start_offset = -start_offset - 1, end_offset = -end_offset - 1;
+                total_offset += start_offset;
+                break;
+            }
+
+            // Timeout check
+            if (clock64() - start_time > NUM_TIMEOUT_CYCLES) {
+                printf(
+                    "DeepEP dispatch NVL receiver timeout, channel: %d, RDMA: %d, nvl: %d, src RDMA: %d, src nvl: %d, start: %d, end: %d\n",
+                    channel_id,
+                    rdma_rank,
+                    nvl_rank,
+                    lane_id,
+                    src_nvl_rank,
+                    start_offset,
+                    end_offset);
+                trap();
+            }
+        }
+        num_tokens_to_recv = warp_reduce_sum(end_offset - start_offset);
+
+        // Save for combine usage
+        if (lane_id < kNumRDMARanks and not kCachedMode)
+            recv_gbl_channel_prefix_matrix[(lane_id * NUM_MAX_NVL_PEERS + src_nvl_rank) * num_channels + channel_id] = total_offset;
+        __syncwarp();
+
+        int cached_channel_head_idx = 0, cached_channel_tail_idx = 0;
+        while (num_tokens_to_recv > 0) {
+            // Check channel status by lane 0
+            start_time = clock64();
+            while (true) {
+                // Ready to copy
+                if (cached_channel_head_idx != cached_channel_tail_idx)
+                    break;
+                cached_channel_tail_idx = __shfl_sync(0xffffffff, ld_acquire_sys_global(nvl_channel_tail.buffer()), 0);
+
+                // Timeout check
+                if (elect_one_sync() and clock64() - start_time > NUM_TIMEOUT_CYCLES) {
+                    printf("DeepEP dispatch NVL receiver timeout, channel: %d, RDMA: %d, nvl: %d, src NVL: %d, head: %d, tail: %d\n",
+                           channel_id,
+                           rdma_rank,
+                           nvl_rank,
+                           src_nvl_rank,
+                           cached_channel_head_idx,
+                           cached_channel_tail_idx);
+                    trap();
+                }
+            }
+
+            // Copy data
+            int num_recv_tokens = cached_channel_tail_idx - cached_channel_head_idx;
+            for (int chunk_idx = 0; chunk_idx < num_recv_tokens; ++chunk_idx, --num_tokens_to_recv) {
+                int token_idx_in_buffer = (cached_channel_head_idx++) % num_max_nvl_chunked_recv_tokens;
+                auto shifted = nvl_channel_x.buffer() + token_idx_in_buffer * num_bytes_per_token;
+                auto meta = ld_nc_global(reinterpret_cast<SourceMeta*>(shifted + hidden_bytes + scale_bytes));
+                int64_t recv_token_idx = __shfl_sync(0xffffffff, total_offset, meta.src_rdma_rank);
+                (lane_id == meta.src_rdma_rank) ? (total_offset += 1) : 0;
+
+                bool scale_aligned = (scale_bytes % 16 == 0);
+                auto tma_load_bytes = hidden_bytes + (scale_aligned ? scale_bytes : 0);
+
+                // Copy data
+                if (elect_one_sync()) {
+                    tma_load_1d(tma_buffer, shifted, tma_mbarrier, tma_load_bytes);
+                    mbarrier_arrive_and_expect_tx(tma_mbarrier, tma_load_bytes);
+                }
+                __syncwarp();
+                mbarrier_wait(tma_mbarrier, tma_phase);
+                if (elect_one_sync()) {
+                    tma_store_1d(tma_buffer, recv_x + recv_token_idx * hidden_int4, hidden_bytes, false);
+                    if (scale_aligned)
+                        tma_store_1d(tma_buffer + hidden_bytes, recv_x_scales + recv_token_idx * num_scales, scale_bytes, false);
+                }
+                __syncwarp();
+                shifted += hidden_bytes;
+
+                // Copy scales
+                // TODO: make it as templated
+                if (not scale_aligned) {
+                    UNROLLED_WARP_COPY(1,
+                                       lane_id,
+                                       num_scales,
+                                       recv_x_scales + recv_token_idx * num_scales,
+                                       reinterpret_cast<float*>(shifted),
+                                       ld_nc_global,
+                                       st_na_global);
+                }
+                shifted += scale_bytes;
+
+                // Copy source meta
+                if (not kCachedMode and elect_one_sync())
+                    st_na_global(recv_src_meta + recv_token_idx, meta);
+                shifted += sizeof(SourceMeta);
+
+                // Copy `topk_idx` and `topk_weights`
+                if (lane_id < num_topk) {
+                    // Read
+                    auto idx_value = static_cast<topk_idx_t>(ld_nc_global(reinterpret_cast<int*>(shifted) + lane_id));
+                    auto weight_value = ld_nc_global(reinterpret_cast<float*>(shifted + sizeof(int) * num_topk) + lane_id);
+                    auto recv_idx = recv_token_idx * num_topk + lane_id;
+
+                    // Transform and write
+                    idx_value = (idx_value >= local_expert_begin and idx_value < local_expert_end) ? idx_value - local_expert_begin : -1;
+                    weight_value = idx_value >= 0 ? weight_value : 0.0f;
+                    st_na_global(recv_topk_idx + recv_idx, idx_value);
+                    st_na_global(recv_topk_weights + recv_idx, weight_value);
+                }
+
+                // Wait TMA to be finished
+                tma_store_wait<0>();
+                __syncwarp();
+            }
+
+            // Move queue
+            if (elect_one_sync())
+                st_relaxed_sys_global(nvl_channel_head.buffer(), cached_channel_head_idx);
+        }
+    }
+
+    // Clean unused `recv_topk_idx` as -1
+    if (num_worst_tokens > 0) {
+        if (is_forwarder)
+            return;
+        // get the actual number of num_recv_tokens on the current rank
+        int num_recv_tokens = recv_gbl_rank_prefix_sum[num_ranks - 1];
+        // some ForwarderCoordinator threads exit early, so we only use non-forwarder in clean-up
+        // channel_id * num_threads is the offset of the current non-forwarder sms
+        const auto clean_start = num_recv_tokens * num_topk + channel_id * num_threads;
+        const auto clean_end = num_worst_tokens * num_topk;
+        const auto clean_stride = num_channels * num_threads;
+        #pragma unroll
+        for (int i = clean_start + thread_id; i < clean_end; i += clean_stride)
+            recv_topk_idx[i] = -1;
+    }
+}
+
+void dispatch(void*             recv_x,
+              float*            recv_x_scales,
+              topk_idx_t*       recv_topk_idx,
+              float*            recv_topk_weights,
+              void*             recv_src_meta,
+              const void*       x,
+              const float*      x_scales,
+              const topk_idx_t* topk_idx,
+              const float*      topk_weights,
+              int*              send_rdma_head,
+              int*              send_nvl_head,
+              int*              recv_rdma_channel_prefix_matrix,
+              int*              recv_gbl_channel_prefix_matrix,
+              const int*        rdma_channel_prefix_matrix,
+              const int*        recv_rdma_rank_prefix_sum,
+              const int*        gbl_channel_prefix_matrix,
+              const int*        recv_gbl_rank_prefix_sum,
+              const bool*       is_token_in_rank,
+              int               num_tokens,
+              int               num_worst_tokens,
+              int               hidden_int4,
+              int               num_scales,
+              int               num_topk,
+              int               num_experts,
+              int               scale_token_stride,
+              int               scale_hidden_stride,
+              void*             rdma_buffer_ptr,
+              int               num_max_rdma_chunked_send_tokens,
+              int               num_max_rdma_chunked_recv_tokens,
+              void**            buffer_ptrs,
+              int               num_max_nvl_chunked_send_tokens,
+              int               num_max_nvl_chunked_recv_tokens,
+              int               rank,
+              int               num_ranks,
+              bool              is_cached_dispatch,
+              cudaStream_t      stream,
+              int               num_channels,
+              bool              low_latency_mode,
+              void*             gin_base_ptr,
+              ncclDevComm       dev_comm,
+              ncclWindow_t      nccl_win,
+              unsigned          signals_base)
+{
+    constexpr int kNumDispatchRDMASenderWarps = 7;
+    constexpr int kNumTMABytesPerWarp         = 16384;
+    constexpr int smem_size                   = kNumTMABytesPerWarp * NUM_MAX_NVL_PEERS;
+
+    // Make sure never OOB
+    EP_HOST_ASSERT(static_cast<int64_t>(num_scales) * scale_hidden_stride < std::numeric_limits<int>::max());
+
+#define DISPATCH_LAUNCH_CASE(num_rdma_ranks)                                                                           \
+    {                                                                                                                  \
+        auto dispatch_func =                                                                                           \
+            low_latency_mode ?                                                                                         \
+                (is_cached_dispatch ?                                                                                  \
+                     dispatch<true, num_rdma_ranks, true, kNumTMABytesPerWarp, kNumDispatchRDMASenderWarps> :          \
+                     dispatch<true, num_rdma_ranks, false, kNumTMABytesPerWarp, kNumDispatchRDMASenderWarps>) :        \
+                (is_cached_dispatch ?                                                                                  \
+                     dispatch<false, num_rdma_ranks, true, kNumTMABytesPerWarp, kNumDispatchRDMASenderWarps> :         \
+                     dispatch<false, num_rdma_ranks, false, kNumTMABytesPerWarp, kNumDispatchRDMASenderWarps>);        \
+        SET_SHARED_MEMORY_FOR_TMA(dispatch_func);                                                                      \
+        LAUNCH_KERNEL(&cfg,                                                                                            \
+                      dispatch_func,                                                                                   \
+                      reinterpret_cast<int4*>(recv_x),                                                                 \
+                      recv_x_scales,                                                                                   \
+                      recv_topk_idx,                                                                                   \
+                      recv_topk_weights,                                                                               \
+                      reinterpret_cast<SourceMeta*>(recv_src_meta),                                                    \
+                      reinterpret_cast<const int4*>(x),                                                                \
+                      x_scales,                                                                                        \
+                      topk_idx,                                                                                        \
+                      topk_weights,                                                                                    \
+                      send_rdma_head,                                                                                  \
+                      send_nvl_head,                                                                                   \
+                      recv_rdma_channel_prefix_matrix,                                                                 \
+                      recv_gbl_channel_prefix_matrix,                                                                  \
+                      rdma_channel_prefix_matrix,                                                                      \
+                      recv_rdma_rank_prefix_sum,                                                                       \
+                      gbl_channel_prefix_matrix,                                                                       \
+                      recv_gbl_rank_prefix_sum,                                                                        \
+                      is_token_in_rank,                                                                                \
+                      num_tokens,                                                                                      \
+                      num_worst_tokens,                                                                                \
+                      hidden_int4,                                                                                     \
+                      num_scales,                                                                                      \
+                      num_topk,                                                                                        \
+                      num_experts,                                                                                     \
+                      scale_token_stride,                                                                              \
+                      scale_hidden_stride,                                                                             \
+                      rdma_buffer_ptr,                                                                                 \
+                      num_max_rdma_chunked_send_tokens,                                                                \
+                      num_max_rdma_chunked_recv_tokens,                                                                \
+                      buffer_ptrs,                                                                                     \
+                      num_max_nvl_chunked_send_tokens,                                                                 \
+                      num_max_nvl_chunked_recv_tokens,                                                                 \
+                      rank,                                                                                            \
+                      num_ranks,                                                                                       \
+                      gin_base_ptr,                                                                                    \
+                      dev_comm,                                                                                        \
+                      nccl_win,                                                                                        \
+                      signals_base);                                                                                   \
+    }                                                                                                                  \
+    break
+
+    EP_HOST_ASSERT((topk_idx == nullptr) == (topk_weights == nullptr));
+    EP_HOST_ASSERT((recv_topk_idx == nullptr) == (recv_topk_weights == nullptr));
+
+    SETUP_LAUNCH_CONFIG(num_channels * 2, (kNumDispatchRDMASenderWarps + 1 + NUM_MAX_NVL_PEERS) * 32, stream);
+    SWITCH_RDMA_RANKS(DISPATCH_LAUNCH_CASE);
+#undef DISPATCH_LAUNCH_CASE
+}
+
+template <bool kLowLatencyMode, int kNumTMABytesPerWarp>
+__global__ void cached_notify(const int rdma_clean_offset,
+                              const int rdma_num_int_clean,
+                              const int nvl_clean_offset,
+                              const int nvl_num_int_clean,
+                              int* combined_rdma_head,
+                              int num_combined_tokens,
+                              int num_channels,
+                              const int* rdma_channel_prefix_matrix,
+                              const int* rdma_rank_prefix_sum,
+                              int* combined_nvl_head,
+                              void* rdma_buffer_ptr,
+                              void** buffer_ptrs,
+                              int** barrier_signal_ptrs,
+                              int rank,
+                              int num_ranks,
+                              bool is_cached_dispatch,
+                              void* gin_base_ptr,
+                              ncclDevComm dev_comm,
+                              ncclWindow_t nccl_win,
+                              unsigned signals_base
+) {
+    auto sm_id = static_cast<int>(blockIdx.x);
+    auto thread_id = static_cast<int>(threadIdx.x);
+    auto num_threads = static_cast<int>(blockDim.x);
+    auto num_warps = num_threads / 32;
+    auto warp_id = thread_id / 32;
+    auto lane_id = get_lane_id();
+
+    auto nvl_rank = rank % NUM_MAX_NVL_PEERS;
+    auto num_rdma_ranks = num_ranks / NUM_MAX_NVL_PEERS;
+
+    // Using two SMs, which clean the RDMA/NVL buffer respectively
+    if (sm_id == 0) {
+        for (int i = thread_id; i < dev_comm.ginConnectionCount; i += num_threads) {
+            ncclGin net(dev_comm, i);
+            net.flush(ncclCoopThread(), cuda::std::memory_order_acquire);
+        }
+        __syncthreads();
+
+        // Barrier for RDMA
+        if (thread_id == 32)
+            sync_with_same_gpu_idx<kLowLatencyMode>(dev_comm);
+        //  Barrier for NVL
+        barrier_block<NUM_MAX_NVL_PEERS, true>(barrier_signal_ptrs, nvl_rank);
+
+        // Clean RDMA buffer
+        auto rdma_buffer_ptr_int = static_cast<int*>(rdma_buffer_ptr);
+        #pragma unroll
+        for (int i = thread_id; i < rdma_num_int_clean; i += num_threads)
+            rdma_buffer_ptr_int[rdma_clean_offset + i] = 0;
+
+        // Clean signals here
+        // For each channel we have num_rdma_ranks head and tail signals
+        int num_signals = num_rdma_ranks * num_channels * 2;
+        EP_DEVICE_ASSERT(num_signals <= num_threads);
+
+        // Each thread handles one specific signal across all contexts
+        if (thread_id < num_signals) {
+            auto signal_id = signals_base + thread_id;
+
+            // Derive channel_id from signal_id
+            // Signal layout: [all head signals][all tail signals]
+            int signal_offset = thread_id;
+            int head_signal_count = num_rdma_ranks * num_channels;
+            bool is_head_signal = (signal_offset < head_signal_count);
+            int channel_id = is_head_signal ? signal_offset / num_rdma_ranks : (signal_offset - head_signal_count) / num_rdma_ranks;
+
+            auto context_id = is_head_signal ? channel_id + num_channels : channel_id ;
+            ncclGin net(dev_comm, context_id);
+            net.resetSignal(signal_id);
+        }
+        __syncthreads();
+
+        // Clean NVL buffer
+        auto nvl_buffer_ptr_int = static_cast<int*>(buffer_ptrs[nvl_rank]);
+        #pragma unroll
+        for (int i = thread_id; i < nvl_num_int_clean; i += num_threads)
+            nvl_buffer_ptr_int[nvl_clean_offset + i] = 0;
+        __syncthreads();
+
+        // Barrier again
+        if (thread_id == 32)
+            sync_with_same_gpu_idx<kLowLatencyMode>(dev_comm);
+        barrier_block<NUM_MAX_NVL_PEERS>(barrier_signal_ptrs, nvl_rank);
+    } else if (sm_id == 1) {
+        if (is_cached_dispatch)
+            return;
+
+        EP_DEVICE_ASSERT(num_warps >= num_channels);
+        EP_DEVICE_ASSERT(num_rdma_ranks <= 32);
+
+        // Iterate in reverse order
+        if (lane_id < num_rdma_ranks and warp_id < num_channels) {
+            int token_start_idx, token_end_idx;
+            get_channel_task_range(num_combined_tokens, num_channels, warp_id, token_start_idx, token_end_idx);
+
+            // NOTES: `1 << 25` is a heuristic large number
+            int last_head = 1 << 25;
+            for (int token_idx = token_end_idx - 1; token_idx >= token_start_idx; --token_idx) {
+                auto current_head = __ldg(combined_rdma_head + token_idx * num_rdma_ranks + lane_id);
+                if (current_head < 0) {
+                    combined_rdma_head[token_idx * num_rdma_ranks + lane_id] = -last_head - 1;
+                } else {
+                    last_head = current_head;
+                }
+            }
+        }
+    } else {
+        if (is_cached_dispatch)
+            return;
+
+        EP_DEVICE_ASSERT(num_warps >= num_channels);
+        EP_DEVICE_ASSERT(rdma_channel_prefix_matrix != nullptr and rdma_rank_prefix_sum != nullptr);
+        EP_STATIC_ASSERT(NUM_MAX_NVL_PEERS <= 32, "Too many NVL peers");
+
+        if (warp_id < num_channels) {
+            constexpr int tma_batch_size = kNumTMABytesPerWarp - sizeof(uint64_t);
+            constexpr int num_bytes_per_token = sizeof(int) * NUM_MAX_NVL_PEERS;
+            constexpr int num_tokens_per_batch = tma_batch_size / num_bytes_per_token;
+            EP_STATIC_ASSERT(num_bytes_per_token % 16 == 0, "num_bytes_per_token should be divisible by 16");
+
+            // TMA stuffs
+            extern __shared__ __align__(1024) uint8_t smem_tma_buffer[];
+            auto tma_buffer = smem_tma_buffer + warp_id * kNumTMABytesPerWarp;
+            auto tma_mbarrier = reinterpret_cast<uint64_t*>(tma_buffer + tma_batch_size);
+            uint32_t tma_phase = 0;
+            if (elect_one_sync()) {
+                mbarrier_init(tma_mbarrier, 1);
+                fence_barrier_init();
+            }
+            __syncwarp();
+
+            for (int dst_rdma_rank = sm_id - 2; dst_rdma_rank < num_rdma_ranks; dst_rdma_rank += num_channels * 2 - 2) {
+                // Iterate in reverse order
+                int token_start_idx = warp_id == 0 ? 0 : rdma_channel_prefix_matrix[dst_rdma_rank * num_channels + warp_id - 1];
+                int token_end_idx = rdma_channel_prefix_matrix[dst_rdma_rank * num_channels + warp_id];
+                int shift = dst_rdma_rank == 0 ? 0 : rdma_rank_prefix_sum[dst_rdma_rank - 1];
+                token_start_idx += shift, token_end_idx += shift;
+
+                // NOTES: `1 << 25` is a heuristic large number
+                int last_head = 1 << 25;
+                for (int batch_end_idx = token_end_idx; batch_end_idx > token_start_idx; batch_end_idx -= num_tokens_per_batch) {
+                    auto batch_start_idx = max(token_start_idx, batch_end_idx - num_tokens_per_batch);
+
+                    if (elect_one_sync()) {
+                        tma_load_1d(tma_buffer,
+                                    combined_nvl_head + batch_start_idx * NUM_MAX_NVL_PEERS,
+                                    tma_mbarrier,
+                                    (batch_end_idx - batch_start_idx) * num_bytes_per_token);
+                        mbarrier_arrive_and_expect_tx(tma_mbarrier, (batch_end_idx - batch_start_idx) * num_bytes_per_token);
+                    }
+                    mbarrier_wait(tma_mbarrier, tma_phase);
+                    __syncwarp();
+
+                    for (int token_idx = batch_end_idx - 1; token_idx >= batch_start_idx; --token_idx) {
+                        if (lane_id < NUM_MAX_NVL_PEERS) {
+                            auto current_head =
+                                reinterpret_cast<int*>(tma_buffer)[(token_idx - batch_start_idx) * NUM_MAX_NVL_PEERS + lane_id];
+                            if (current_head < 0) {
+                                reinterpret_cast<int*>(tma_buffer)[(token_idx - batch_start_idx) * NUM_MAX_NVL_PEERS + lane_id] =
+                                    -last_head - 1;
+                            } else {
+                                last_head = current_head;
+                            }
+                        }
+                    }
+                    tma_store_fence();
+                    __syncwarp();
+
+                    if (elect_one_sync())
+                        tma_store_1d(tma_buffer,
+                                     combined_nvl_head + batch_start_idx * NUM_MAX_NVL_PEERS,
+                                     (batch_end_idx - batch_start_idx) * num_bytes_per_token);
+                    tma_store_wait<0>();
+                    __syncwarp();
+                }
+            }
+        }
+    }
+}
+
+void cached_notify(int hidden_int4,
+                   int num_scales,
+                   int num_topk_idx,
+                   int num_topk_weights,
+                   int num_ranks,
+                   int num_channels,
+                   int num_combined_tokens,
+                   int* combined_rdma_head,
+                   const int* rdma_channel_prefix_matrix,
+                   const int* rdma_rank_prefix_sum,
+                   int* combined_nvl_head,
+                   void* rdma_buffer_ptr,
+                   int num_max_rdma_chunked_recv_tokens,
+                   void** buffer_ptrs,
+                   int num_max_nvl_chunked_recv_tokens,
+                   int** barrier_signal_ptrs,
+                   int rank,
+                   cudaStream_t stream,
+                   int64_t num_rdma_bytes,
+                   int64_t num_nvl_bytes,
+                   bool is_cached_dispatch,
+                   bool low_latency_mode,
+                   void* gin_base_ptr,
+                   ncclDevComm dev_comm,
+                   ncclWindow_t nccl_win,
+                   unsigned signals_base) {
+    const int num_threads = std::max(128, 32 * num_channels);
+    const int num_warps = num_threads / 32;
+    const auto num_rdma_ranks = num_ranks / NUM_MAX_NVL_PEERS;
+    const int kNumTMABytesPerWarp = 8192;
+    const int smem_size = kNumTMABytesPerWarp * num_warps;
+
+    // Get clean meta
+    auto rdma_clean_meta = get_rdma_clean_meta(
+        hidden_int4, num_scales, num_topk_idx, num_topk_weights, num_rdma_ranks, num_max_rdma_chunked_recv_tokens, num_channels);
+    auto nvl_clean_meta = get_nvl_clean_meta(hidden_int4,
+                                             num_scales,
+                                             num_topk_idx,
+                                             num_topk_weights,
+                                             num_rdma_ranks,
+                                             NUM_MAX_NVL_PEERS,
+                                             num_max_nvl_chunked_recv_tokens,
+                                             num_channels,
+                                             is_cached_dispatch);
+    EP_HOST_ASSERT((rdma_clean_meta.first + rdma_clean_meta.second) * sizeof(int) <= num_rdma_bytes);
+    EP_HOST_ASSERT((nvl_clean_meta.first + nvl_clean_meta.second) * sizeof(int) <= num_nvl_bytes);
+    EP_HOST_ASSERT(num_rdma_bytes < std::numeric_limits<int>::max());
+    EP_HOST_ASSERT(num_nvl_bytes < std::numeric_limits<int>::max());
+    EP_HOST_ASSERT(num_channels * 2 > 3);
+
+    // Launch kernel
+    auto cached_notify_func = low_latency_mode ? cached_notify<true, kNumTMABytesPerWarp> : cached_notify<false, kNumTMABytesPerWarp>;
+    SETUP_LAUNCH_CONFIG(num_channels * 2, num_threads, stream);
+    SET_SHARED_MEMORY_FOR_TMA(cached_notify_func);
+
+    LAUNCH_KERNEL(&cfg,
+                  cached_notify_func,
+                  rdma_clean_meta.first,
+                  rdma_clean_meta.second,
+                  nvl_clean_meta.first,
+                  nvl_clean_meta.second,
+                  combined_rdma_head,
+                  num_combined_tokens,
+                  num_channels,
+                  rdma_channel_prefix_matrix,
+                  rdma_rank_prefix_sum,
+                  combined_nvl_head,
+                  rdma_buffer_ptr,
+                  buffer_ptrs,
+                  barrier_signal_ptrs,
+                  rank,
+                  num_ranks,
+                  is_cached_dispatch,
+                  gin_base_ptr,
+                  dev_comm,
+                  nccl_win,
+                  signals_base);
+}
+
+template <int kNumRanks,
+          bool kMaybeWithBias,
+          typename dtype_t,
+          int kMaxNumRanks,
+          bool kUseTMA,
+          int kNumStages,
+          int kNumTMALoadBytes = 0,
+          typename GetAddrFn,
+          typename ReceiveTWFn>
+__device__ int combine_token(bool is_token_in_rank,
+                             int head_idx,
+                             int lane_id,
+                             int hidden_int4,
+                             int num_topk,
+                             int4* combined_row,
+                             float* combined_topk_weights,
+                             const int4* bias_0_int4,
+                             const int4* bias_1_int4,
+                             int num_max_recv_tokens,
+                             const GetAddrFn& get_addr_fn,
+                             const ReceiveTWFn& recv_tw_fn,
+                             uint8_t* smem_ptr,
+                             uint32_t (&tma_phase)[kNumStages]) {
+    constexpr auto kDtypePerInt4 = sizeof(int4) / sizeof(dtype_t);
+
+    // Broadcast current heads
+    // Lane `i` holds the head of rank `i` and `is_token_in_rank`
+    EP_STATIC_ASSERT(kMaxNumRanks <= 32, "Too many ranks");
+    int num_topk_ranks = 0, topk_ranks[kMaxNumRanks], slot_indices[kMaxNumRanks];
+    #pragma unroll
+    for (int i = 0; i < kNumRanks; ++i)
+        if (__shfl_sync(0xffffffff, is_token_in_rank, i)) {
+            slot_indices[num_topk_ranks] = __shfl_sync(0xffffffff, head_idx, i) % num_max_recv_tokens;
+            topk_ranks[num_topk_ranks++] = i;
+        }
+    EP_DEVICE_ASSERT(num_topk_ranks <= kMaxNumRanks);
+    EP_STATIC_ASSERT(not(kUseTMA and kMaybeWithBias), "TMA cannot be used by receiver warps");
+    EP_STATIC_ASSERT(kNumStages == 2, "Only support 2 stages now");
+
+    // Reduce data
+    if constexpr (kUseTMA) {
+        constexpr int kNumTMABufferBytesPerStage = kNumTMALoadBytes * (NUM_MAX_NVL_PEERS + 1) + 16;
+        EP_DEVICE_ASSERT(hidden_int4 % 32 == 0);
+
+        auto tma_load_buffer = [=](const int& i, const int& j) -> int4* {
+            return reinterpret_cast<int4*>(smem_ptr + i * kNumTMABufferBytesPerStage + j * kNumTMALoadBytes);
+        };
+        auto tma_store_buffer = [=](const int& i) -> int4* {
+            return reinterpret_cast<int4*>(smem_ptr + i * kNumTMABufferBytesPerStage + NUM_MAX_NVL_PEERS * kNumTMALoadBytes);
+        };
+        auto tma_mbarrier = [=](const int& i) -> uint64_t* {
+            return reinterpret_cast<uint64_t*>(smem_ptr + i * kNumTMABufferBytesPerStage + (NUM_MAX_NVL_PEERS + 1) * kNumTMALoadBytes);
+        };
+
+        // Prefetch
+        if (lane_id < num_topk_ranks)
+            tma_load_1d(
+                tma_load_buffer(0, lane_id), get_addr_fn(topk_ranks[lane_id], slot_indices[lane_id], 0), tma_mbarrier(0), kNumTMALoadBytes);
+        mbarrier_arrive_and_expect_tx(tma_mbarrier(0), lane_id < num_topk_ranks ? kNumTMALoadBytes : 0);
+        __syncwarp();
+
+        for (int shifted = 0, iter = 0; shifted < hidden_int4; shifted += 32, iter += 1) {
+            const int stage_idx = iter % kNumStages;
+            const int next_stage_idx = (iter + 1) % kNumStages;
+
+            // Prefetch next stage
+            if (shifted + 32 < hidden_int4) {
+                if (lane_id < num_topk_ranks)
+                    tma_load_1d(tma_load_buffer(next_stage_idx, lane_id),
+                                get_addr_fn(topk_ranks[lane_id], slot_indices[lane_id], shifted + 32),
+                                tma_mbarrier(next_stage_idx),
+                                kNumTMALoadBytes);
+                mbarrier_arrive_and_expect_tx(tma_mbarrier(next_stage_idx), lane_id < num_topk_ranks ? kNumTMALoadBytes : 0);
+                __syncwarp();
+            }
+
+            mbarrier_wait(tma_mbarrier(stage_idx), tma_phase[stage_idx]);
+            float values[kDtypePerInt4] = {0};
+            #pragma unroll
+            for (int j = 0; j < num_topk_ranks; ++j) {
+                auto recv_value_dtypes = reinterpret_cast<const dtype_t*>(tma_load_buffer(stage_idx, j) + lane_id);
+                #pragma unroll
+                for (int k = 0; k < kDtypePerInt4; ++k)
+                    values[k] += static_cast<float>(recv_value_dtypes[k]);
+            }
+
+            // Wait shared memory to be released
+            tma_store_wait<kNumStages - 1>();
+
+            // Copy into shared and issue TMA
+            auto out_dtypes = reinterpret_cast<dtype_t*>(tma_store_buffer(stage_idx) + lane_id);
+            #pragma unroll
+            for (int j = 0; j < kDtypePerInt4; ++j)
+                out_dtypes[j] = static_cast<dtype_t>(values[j]);
+            tma_store_fence();
+            __syncwarp();
+
+            if (elect_one_sync())
+                tma_store_1d(tma_store_buffer(stage_idx), combined_row + shifted, kNumTMALoadBytes);
+            __syncwarp();
+        }
+
+        // Flush all writes
+        tma_store_wait<0>();
+    } else {
+        #pragma unroll
+        for (int i = lane_id; i < hidden_int4; i += 32) {
+            // Read bias
+            // TODO: make it as a finer-grained template
+            int4 bias_0_value_int4, bias_1_value_int4;
+            if constexpr (kMaybeWithBias) {
+                bias_0_value_int4 = bias_0_int4 != nullptr ? ld_nc_global(bias_0_int4 + i) : make_int4(0, 0, 0, 0);
+                bias_1_value_int4 = bias_1_int4 != nullptr ? ld_nc_global(bias_1_int4 + i) : make_int4(0, 0, 0, 0);
+            }
+
+            // Read buffers
+            // TODO: maybe too many registers here
+            int4 recv_value_int4[kMaxNumRanks];
+            #pragma unroll
+            for (int j = 0; j < num_topk_ranks; ++j)
+                recv_value_int4[j] = ld_nc_global(get_addr_fn(topk_ranks[j], slot_indices[j], i));
+
+            // Clean
+            // Reduce bias
+            float values[kDtypePerInt4] = {0};
+            if constexpr (kMaybeWithBias) {
+                auto bias_0_values = reinterpret_cast<const dtype_t*>(&bias_0_value_int4);
+                auto bias_1_values = reinterpret_cast<const dtype_t*>(&bias_1_value_int4);
+                #pragma unroll
+                for (int j = 0; j < kDtypePerInt4; ++j)
+                    values[j] = static_cast<float>(bias_0_values[j]) + static_cast<float>(bias_1_values[j]);
+            }
+
+            // Reduce all-to-all results
+            #pragma unroll
+            for (int j = 0; j < num_topk_ranks; ++j) {
+                auto recv_value_dtypes = reinterpret_cast<const dtype_t*>(&recv_value_int4[j]);
+                #pragma unroll
+                for (int k = 0; k < kDtypePerInt4; ++k)
+                    values[k] += static_cast<float>(recv_value_dtypes[k]);
+            }
+
+            // Cast back to `dtype_t` and write
+            int4 out_int4;
+            auto out_dtypes = reinterpret_cast<dtype_t*>(&out_int4);
+            #pragma unroll
+            for (int j = 0; j < kDtypePerInt4; ++j)
+                out_dtypes[j] = static_cast<dtype_t>(values[j]);
+            st_na_global(combined_row + i, out_int4);
+        }
+    }
+
+    // Reduce `topk_weights`
+    if (lane_id < num_topk) {
+        float value = 0;
+        #pragma unroll
+        for (int i = 0; i < num_topk_ranks; ++i)
+            value += recv_tw_fn(topk_ranks[i], slot_indices[i], lane_id);
+        st_na_global(combined_topk_weights + lane_id, value);
+    }
+
+    // Return the minimum top-k rank
+    return topk_ranks[0];
+}
+
+template <bool kLowLatencyMode,
+          int kNumRDMARanks,
+          typename dtype_t,
+          int kNumCombineForwarderWarps,
+          int kNumTMABytesPerSenderWarp,
+          int kNumTMABytesPerForwarderWarp,
+          int kNumTopkRDMARanks = get_num_topk_rdma_ranks(kNumRDMARanks),
+          int kNumWarpsPerForwarder = (kNumCombineForwarderWarps / kNumRDMARanks > 0) ? kNumCombineForwarderWarps / kNumRDMARanks : 1,
+          int kNumForwarders = kNumRDMARanks* kNumWarpsPerForwarder,
+          int kNumRDMAReceivers = kNumForwarders - NUM_MAX_NVL_PEERS>
+__global__ void __launch_bounds__((kNumForwarders + 1) * 32, 1) combine(int4* combined_x,
+                                                                        float* combined_topk_weights,
+                                                                        const bool* is_combined_token_in_rank,
+                                                                        const int4* x,
+                                                                        const float* topk_weights,
+                                                                        const int4* bias_0,
+                                                                        const int4* bias_1,
+                                                                        const int* combined_rdma_head,
+                                                                        const int* combined_nvl_head,
+                                                                        const SourceMeta* src_meta,
+                                                                        const int* rdma_channel_prefix_matrix,
+                                                                        const int* rdma_rank_prefix_sum,
+                                                                        const int* gbl_channel_prefix_matrix,
+                                                                        int num_tokens,
+                                                                        int num_combined_tokens,
+                                                                        int hidden,
+                                                                        int num_topk,
+                                                                        void* rdma_buffer_ptr,
+                                                                        int num_max_rdma_chunked_send_tokens,
+                                                                        int num_max_rdma_chunked_recv_tokens,
+                                                                        void** buffer_ptrs,
+                                                                        int num_max_nvl_chunked_send_tokens,
+                                                                        int num_max_nvl_chunked_recv_tokens,
+                                                                        int rank,
+                                                                        int num_ranks,
+                                                                        void* gin_base_ptr,
+                                                                        ncclDevComm dev_comm,
+                                                                        ncclWindow_t nccl_win,
+                                                                        unsigned signals_base
+) {
+    enum class WarpRole { kNVLSender, kNVLAndRDMAForwarder, kRDMAReceiver, kCoordinator };
+
+    const auto sm_id = static_cast<int>(blockIdx.x);
+    const auto num_threads = static_cast<int>(blockDim.x), num_warps = num_threads / 32;
+    const auto thread_id = static_cast<int>(threadIdx.x), lane_id = get_lane_id();
+    const auto num_channels = static_cast<int>(gridDim.x) / 2, channel_id = sm_id / 2;
+    const bool is_forwarder_sm = sm_id % 2 == 1;
+
+    EP_DEVICE_ASSERT(num_topk <= 32);
+    EP_DEVICE_ASSERT(hidden % (sizeof(int4) / sizeof(dtype_t)) == 0);
+    const auto hidden_int4 = hidden / (sizeof(int4) / sizeof(dtype_t));
+    const auto hidden_bytes = hidden_int4 * sizeof(int4);
+    const auto num_bytes_per_token = get_num_bytes_per_token(hidden_int4, 0, 0, num_topk);
+
+    EP_DEVICE_ASSERT(num_channels * 2 <= dev_comm.ginConnectionCount);
+    // Use a diff GIN context for each channel/SM
+    ncclGin net(dev_comm, channel_id);
+    ncclTeam world = ncclTeamWorld(dev_comm);
+    // Using different communicator for reading/writing head pointers
+    ncclGin net_head(dev_comm, channel_id + num_channels);
+    ncclTeam world_head = ncclTeamWorld(dev_comm);
+
+    // NOTES: we decouple a channel into 2 SMs
+    const auto rdma_rank = rank / NUM_MAX_NVL_PEERS, nvl_rank = rank % NUM_MAX_NVL_PEERS;
+    auto role_meta = [=]() -> std::pair<WarpRole, int> {
+        auto warp_id = thread_id / 32;
+        if (not is_forwarder_sm) {
+            if (warp_id < NUM_MAX_NVL_PEERS) {
+                auto shuffled_warp_id = warp_id;
+                shuffled_warp_id = (shuffled_warp_id + channel_id) % NUM_MAX_NVL_PEERS;
+                return {WarpRole::kNVLSender, shuffled_warp_id};
+            } else if (warp_id < kNumForwarders) {
+                return {WarpRole::kRDMAReceiver, warp_id - NUM_MAX_NVL_PEERS};
+            } else {
+                return {WarpRole::kCoordinator, 0};
+            }
+        } else {
+            if (warp_id < kNumForwarders) {
+                auto shuffled_warp_id = (warp_id + channel_id) % kNumForwarders;
+                return {WarpRole::kNVLAndRDMAForwarder, shuffled_warp_id};
+            } else {
+                return {WarpRole::kCoordinator, 0};
+            }
+        }
+    }();
+    auto warp_role = role_meta.first;
+    auto warp_id = role_meta.second;
+
+    EP_DEVICE_ASSERT(num_warps == kNumForwarders + 1);
+    auto num_max_nvl_chunked_recv_tokens_per_rdma = num_max_nvl_chunked_recv_tokens / kNumRDMARanks;
+
+    if (warp_role == WarpRole::kNVLSender) {
+        // NVL producers
+        const auto dst_nvl_rank = warp_id;
+
+        // NVL layouts
+        // NOTES: to avoid deadlocks, we use separate NVL buffers for different RDMA sources
+        auto dst_buffer_ptr = buffer_ptrs[dst_nvl_rank], local_buffer_ptr = buffer_ptrs[nvl_rank];
+        auto nvl_channel_x = AsymBuffer<uint8_t>(dst_buffer_ptr,
+                                                 num_max_nvl_chunked_recv_tokens * num_bytes_per_token,
+                                                 NUM_MAX_NVL_PEERS,
+                                                 channel_id,
+                                                 num_channels,
+                                                 nvl_rank)
+                                 .advance_also(local_buffer_ptr);
+        auto nvl_channel_head = AsymBuffer<int>(local_buffer_ptr, kNumRDMARanks, NUM_MAX_NVL_PEERS, channel_id, num_channels, dst_nvl_rank)
+                                    .advance_also(dst_buffer_ptr);
+        auto nvl_channel_tail = AsymBuffer<int>(dst_buffer_ptr, kNumRDMARanks, NUM_MAX_NVL_PEERS, channel_id, num_channels, nvl_rank)
+                                    .advance_also(local_buffer_ptr);
+
+        // TMA stuffs
+        extern __shared__ __align__(1024) uint8_t smem_tma_buffer[];
+        auto tma_buffer = smem_tma_buffer + dst_nvl_rank * kNumTMABytesPerSenderWarp;
+        auto tma_mbarrier = reinterpret_cast<uint64_t*>(tma_buffer + num_bytes_per_token);
+        uint32_t tma_phase = 0;
+        if (elect_one_sync()) {
+            mbarrier_init(tma_mbarrier, 1);
+            fence_barrier_init();
+            EP_DEVICE_ASSERT(num_bytes_per_token + sizeof(uint64_t) <= kNumTMABytesPerSenderWarp);
+        }
+        __syncwarp();
+
+        // Get tasks for each RDMA lane
+        int token_start_idx = 0, token_end_idx = 0;
+        if (lane_id < kNumRDMARanks) {
+            int prefix_idx = (lane_id * NUM_MAX_NVL_PEERS + dst_nvl_rank) * num_channels + channel_id;
+            token_start_idx = gbl_channel_prefix_matrix[prefix_idx];
+            token_end_idx = (prefix_idx == num_channels * num_ranks - 1) ? num_tokens : gbl_channel_prefix_matrix[prefix_idx + 1];
+        }
+        __syncwarp();
+
+        // NOTES: here the cached value of each lane is only responsible for a single RDMA buffer
+        int cached_channel_head_idx = 0, cached_channel_tail_idx = 0;
+        EP_STATIC_ASSERT(kNumRDMARanks <= 32, "Invalid number of RDMA peers");
+
+        // Iterate over all tokens and send by chunks
+        int current_rdma_idx = channel_id % kNumRDMARanks;
+        while (true) {
+            // Exit if possible
+            if (__all_sync(0xffffffff, token_start_idx >= token_end_idx))
+                break;
+
+            // Decide the next RDMA buffer to send
+            bool is_lane_ready = false;
+            auto start_time = clock64();
+            while (true) {
+                int num_used_slots = cached_channel_tail_idx - cached_channel_head_idx;
+                is_lane_ready = lane_id < kNumRDMARanks and token_start_idx < token_end_idx and
+                    num_max_nvl_chunked_recv_tokens_per_rdma - num_used_slots >= num_max_nvl_chunked_send_tokens;
+                if (__any_sync(0xffffffff, is_lane_ready))
+                    break;
+
+                // Retry
+                if (lane_id < kNumRDMARanks and token_start_idx < token_end_idx)
+                    cached_channel_head_idx = ld_volatile_global(nvl_channel_head.buffer() + lane_id);
+
+                // Timeout check
+                if (clock64() - start_time > NUM_TIMEOUT_CYCLES and lane_id < kNumRDMARanks) {
+                    printf(
+                        "DeepEP combine NVL sender timeout, channel: %d, RDMA: %d, nvl: %d, dst NVL: %d, RDMA lane: %d, head: %d, tail: "
+                        "%d, start: %d, end: %d\n",
+                        channel_id,
+                        rdma_rank,
+                        nvl_rank,
+                        dst_nvl_rank,
+                        lane_id,
+                        ld_volatile_global(nvl_channel_head.buffer() + lane_id),
+                        cached_channel_tail_idx,
+                        token_start_idx,
+                        token_end_idx);
+                    trap();
+                }
+            }
+
+            // Sync token start index and count
+            for (int i = 0; i < kNumRDMARanks; ++i) {
+                current_rdma_idx = (current_rdma_idx + 1) % kNumRDMARanks;
+                if (__shfl_sync(0xffffffff, (token_start_idx >= token_end_idx) or (not is_lane_ready), current_rdma_idx))
+                    continue;
+
+                // Sync token start index
+                auto token_idx = static_cast<int64_t>(__shfl_sync(0xffffffff, token_start_idx, current_rdma_idx));
+                int num_tokens_in_chunk =
+                    __shfl_sync(0xffffffff, min(num_max_nvl_chunked_send_tokens, token_end_idx - token_start_idx), current_rdma_idx);
+
+                // Send by chunk
+                for (int chunk_idx = 0; chunk_idx < num_tokens_in_chunk; ++chunk_idx, ++token_idx) {
+                    // Get an empty slot
+                    int dst_slot_idx = 0;
+                    if (lane_id == current_rdma_idx) {
+                        dst_slot_idx = (cached_channel_tail_idx++) % num_max_nvl_chunked_recv_tokens_per_rdma;
+                        dst_slot_idx = current_rdma_idx * num_max_nvl_chunked_recv_tokens_per_rdma + dst_slot_idx;
+                    }
+                    dst_slot_idx = __shfl_sync(0xffffffff, dst_slot_idx, current_rdma_idx);
+
+                    // Load data
+                    auto shifted_x_buffers = nvl_channel_x.buffer() + dst_slot_idx * num_bytes_per_token;
+                    auto shifted_x = x + token_idx * hidden_int4;
+                    tma_store_wait<0>();
+                    if (elect_one_sync()) {
+                        tma_load_1d(tma_buffer, shifted_x, tma_mbarrier, hidden_bytes);
+                        mbarrier_arrive_and_expect_tx(tma_mbarrier, hidden_bytes);
+                    }
+                    __syncwarp();
+                    mbarrier_wait(tma_mbarrier, tma_phase);
+
+                    // Load source meta
+                    if (lane_id == num_topk)
+                        *reinterpret_cast<SourceMeta*>(tma_buffer + hidden_bytes) = ld_nc_global(src_meta + token_idx);
+
+                    // Load `topk_weights`
+                    if (lane_id < num_topk)
+                        *reinterpret_cast<float*>(tma_buffer + hidden_bytes + sizeof(SourceMeta) + lane_id * sizeof(float)) =
+                            ld_nc_global(topk_weights + token_idx * num_topk + lane_id);
+
+                    // Issue TMA store
+                    tma_store_fence();
+                    __syncwarp();
+                    if (elect_one_sync())
+                        tma_store_1d(tma_buffer, shifted_x_buffers, num_bytes_per_token, false);
+                }
+                lane_id == current_rdma_idx ? (token_start_idx = static_cast<int>(token_idx)) : 0;
+            }
+
+            // Move queue tail
+            tma_store_wait<0>();
+            __syncwarp();
+            if (lane_id < kNumRDMARanks and is_lane_ready)
+                st_release_sys_global(nvl_channel_tail.buffer() + lane_id, cached_channel_tail_idx);
+        }
+    } else {
+        // Combiners and coordinators
+        // RDMA symmetric layout
+        auto rdma_channel_data = SymBuffer<int8_t>(
+            rdma_buffer_ptr, num_max_rdma_chunked_recv_tokens * num_bytes_per_token, kNumRDMARanks, channel_id, num_channels);
+        auto rdma_channel_head = SymBuffer<uint64_t, false>(rdma_buffer_ptr, 1, kNumRDMARanks, channel_id, num_channels);
+        auto rdma_channel_tail = SymBuffer<uint64_t, false>(rdma_buffer_ptr, 1, kNumRDMARanks, channel_id, num_channels);
+        // Using signals for RDMA head and tail instead with gin_signals
+        auto gin_signals_head = signals_base + kNumRDMARanks * channel_id;  // move the signals to the corresponding channel
+        auto gin_signals_tail = signals_base + kNumRDMARanks * num_channels +
+            kNumRDMARanks * channel_id;  // move the signals to the corresponding channel after passing all head signals
+
+        // NVL layouts
+        void* local_nvl_buffer = buffer_ptrs[nvl_rank];
+        void* nvl_buffers[NUM_MAX_NVL_PEERS];
+        #pragma unroll
+        for (int i = 0; i < NUM_MAX_NVL_PEERS; ++i)
+            nvl_buffers[i] = buffer_ptrs[i];
+        auto nvl_channel_x =
+            AsymBuffer<uint8_t>(
+                local_nvl_buffer, num_max_nvl_chunked_recv_tokens * num_bytes_per_token, NUM_MAX_NVL_PEERS, channel_id, num_channels)
+                .advance_also<NUM_MAX_NVL_PEERS>(nvl_buffers);
+        auto nvl_channel_head =
+            AsymBuffer<int, NUM_MAX_NVL_PEERS>(nvl_buffers, kNumRDMARanks, NUM_MAX_NVL_PEERS, channel_id, num_channels, nvl_rank)
+                .advance_also(local_nvl_buffer);
+        auto nvl_channel_tail = AsymBuffer<int>(local_nvl_buffer, kNumRDMARanks, NUM_MAX_NVL_PEERS, channel_id, num_channels)
+                                    .advance_also<NUM_MAX_NVL_PEERS>(nvl_buffers);
+
+        // Combiner warp synchronization
+        __shared__ volatile int forwarder_nvl_head[kNumForwarders][NUM_MAX_NVL_PEERS];
+        __shared__ volatile bool forwarder_retired[kNumForwarders];
+        __shared__ volatile int rdma_receiver_rdma_head[kNumRDMAReceivers][kNumRDMARanks];
+        __shared__ volatile bool rdma_receiver_retired[kNumRDMAReceivers];
+        auto sync_forwarder_smem = [=]() { asm volatile("barrier.sync 0, %0;" ::"r"((kNumForwarders + 1) * 32)); };
+        auto sync_rdma_receiver_smem = [=]() { asm volatile("barrier.sync 1, %0;" ::"r"((kNumRDMAReceivers + 1) * 32)); };
+
+        if (warp_role == WarpRole::kNVLAndRDMAForwarder) {
+            // Receive from NVL ranks and forward to RDMA ranks
+            // NOTES: this part is using "large warps" for each RDMA ranks
+            const auto dst_rdma_rank = warp_id / kNumWarpsPerForwarder;
+            const auto sub_warp_id = warp_id % kNumWarpsPerForwarder;
+            auto send_buffer =
+                dst_rdma_rank == rdma_rank ? rdma_channel_data.recv_buffer(dst_rdma_rank) : rdma_channel_data.send_buffer(dst_rdma_rank);
+            auto sync_large_warp = [=]() {
+                if (kNumWarpsPerForwarder == 1) {
+                    __syncwarp();
+                } else {
+                    asm volatile("bar.sync %0, %1;" ::"r"(dst_rdma_rank + 2), "r"(kNumWarpsPerForwarder * 32));
+                }
+            };
+            EP_STATIC_ASSERT(kNumWarpsPerForwarder == 1 or kNumRDMARanks + 2 <= 16, "Barriers are not enough");
+
+            // TMA stuffs
+            constexpr int kNumStages = 2;
+            constexpr int kNumTMALoadBytes = sizeof(int4) * 32;
+            constexpr int kNumTMABufferBytesPerStage = kNumTMALoadBytes * (NUM_MAX_NVL_PEERS + 1) + 16;
+            EP_STATIC_ASSERT(kNumTMABufferBytesPerStage * kNumStages <= kNumTMABytesPerForwarderWarp, "TMA buffer is not larger enough");
+
+            extern __shared__ __align__(1024) uint8_t smem_buffer[];
+            auto smem_ptr = smem_buffer + warp_id * kNumStages * kNumTMABufferBytesPerStage;
+            auto tma_mbarrier = [=](const int& i) {
+                return reinterpret_cast<uint64_t*>(smem_ptr + i * kNumTMABufferBytesPerStage + kNumTMALoadBytes * (NUM_MAX_NVL_PEERS + 1));
+            };
+            uint32_t tma_phase[kNumStages] = {0};
+            if (lane_id < kNumStages) {
+                mbarrier_init(tma_mbarrier(lane_id), 32);
+                fence_barrier_init();
+            }
+            __syncwarp();
+
+            // Advance to the corresponding NVL buffer
+            nvl_channel_x.advance(dst_rdma_rank * num_max_nvl_chunked_recv_tokens_per_rdma * num_bytes_per_token);
+            nvl_channel_head.advance(dst_rdma_rank);
+            nvl_channel_tail.advance(dst_rdma_rank);
+
+            // Clean shared memory and sync
+            EP_STATIC_ASSERT(NUM_MAX_NVL_PEERS <= 32, "Invalid number of NVL peers");
+            lane_id < NUM_MAX_NVL_PEERS ? (forwarder_nvl_head[warp_id][lane_id] = 0) : 0;
+            lane_id == 0 ? (forwarder_retired[warp_id] = false) : false;
+            sync_forwarder_smem();
+
+            // Get count and cached head
+            int cached_nvl_channel_tail_idx = 0;
+            int num_tokens_to_combine = rdma_channel_prefix_matrix[dst_rdma_rank * num_channels + channel_id];
+            int num_tokens_prefix = channel_id == 0 ? 0 : rdma_channel_prefix_matrix[dst_rdma_rank * num_channels + channel_id - 1];
+            num_tokens_to_combine -= num_tokens_prefix;
+            num_tokens_prefix += dst_rdma_rank == 0 ? 0 : rdma_rank_prefix_sum[dst_rdma_rank - 1];
+            combined_nvl_head += num_tokens_prefix * NUM_MAX_NVL_PEERS;
+
+            // Iterate over all tokens and combine by chunks
+            for (int token_start_idx = 0; token_start_idx < num_tokens_to_combine; token_start_idx += num_max_rdma_chunked_send_tokens) {
+                // Check destination queue emptiness, or wait a buffer to be released
+                auto token_end_idx = min(token_start_idx + num_max_rdma_chunked_send_tokens, num_tokens_to_combine);
+                auto num_chunked_tokens = token_end_idx - token_start_idx;
+                auto start_time = clock64();
+                while (sub_warp_id == 0 and lane_id == 0) {
+                    // Inequality: `num_max_rdma_chunked_recv_tokens - (tail - head) >= num_chunked_tokens`
+                    // Here, `token_start_idx` is the actual tail
+                    // kNVLAndRDMAForwarder: Check if RDMA receive buffer has space before sending data
+                    auto signal_id = gin_signals_head + dst_rdma_rank;
+                    uint64_t signal_value = net_head.readSignal(signal_id);
+                    int num_used_slots = token_start_idx - signal_value;
+                    if (num_max_rdma_chunked_recv_tokens - num_used_slots >= num_chunked_tokens)
+                        break;
+
+                    // Timeout check
+                    if (clock64() - start_time > NUM_TIMEOUT_CYCLES) {
+                        // kNVLAndRDMAForwarder: debugging
+                        auto signal_id = gin_signals_head + dst_rdma_rank;
+                        uint64_t signal_value = net_head.readSignal(signal_id);
+                        printf(
+                            "DeepEP combine forwarder (RDMA check) timeout, channel: %d, RDMA: %d, nvl: %d, dst RDMA: %d, head: %ld, tail: "
+                            "%d, chunked: %d\n",
+                            channel_id,
+                            rdma_rank,
+                            nvl_rank,
+                            dst_rdma_rank,
+                            signal_value,
+                            token_start_idx,
+                            num_chunked_tokens);
+                        trap();
+                    }
+                }
+                sync_large_warp();
+
+                // Combine and write to the RDMA buffer
+                for (int token_idx = token_start_idx + sub_warp_id; token_idx < token_end_idx; token_idx += kNumWarpsPerForwarder) {
+                    // Read expected head
+                    EP_STATIC_ASSERT(kNumRDMARanks <= 32, "Invalid number of RDMA peers");
+                    int expected_head = -1;
+                    if (lane_id < NUM_MAX_NVL_PEERS) {
+                        expected_head = ld_nc_global(combined_nvl_head + token_idx * NUM_MAX_NVL_PEERS + lane_id);
+                        expected_head < 0 ? (forwarder_nvl_head[warp_id][lane_id] = -expected_head - 1)
+                                          : (forwarder_nvl_head[warp_id][lane_id] = expected_head);
+                    }
+
+                    // Wait lanes to be ready
+                    start_time = clock64();
+                    while (cached_nvl_channel_tail_idx <= expected_head) {
+                        cached_nvl_channel_tail_idx = ld_acquire_sys_global(nvl_channel_tail.buffer(lane_id));
+
+                        // Timeout check
+                        if (clock64() - start_time > NUM_TIMEOUT_CYCLES and lane_id < NUM_MAX_NVL_PEERS) {
+                            printf(
+                                "DeepEP combine forwarder (NVL check) timeout, channel: %d, RDMA: %d, nvl: %d, src NVL: %d, dst RDMA: %d, "
+                                "tail: %d, waiting: %d, total: %d, sub: %d, large: %d, expected: %d\n",
+                                channel_id,
+                                rdma_rank,
+                                nvl_rank,
+                                lane_id,
+                                dst_rdma_rank,
+                                cached_nvl_channel_tail_idx,
+                                token_idx,
+                                num_tokens_to_combine,
+                                sub_warp_id,
+                                kNumWarpsPerForwarder,
+                                expected_head);
+                            trap();
+                        }
+                    }
+
+                    // Combine current token
+                    auto rdma_slot_idx = token_idx % num_max_rdma_chunked_recv_tokens;
+                    void* shifted = send_buffer + rdma_slot_idx * num_bytes_per_token;
+                    auto get_addr_fn = [&](int src_nvl_rank, int slot_idx, int hidden_int4_idx) -> int4* {
+                        return reinterpret_cast<int4*>(nvl_channel_x.buffer(src_nvl_rank) + slot_idx * num_bytes_per_token) +
+                            hidden_int4_idx;
+                    };
+                    auto recv_tw_fn = [&](int src_nvl_rank, int slot_idx, int topk_idx) -> float {
+                        return ld_nc_global(reinterpret_cast<float*>(nvl_channel_x.buffer(src_nvl_rank) + slot_idx * num_bytes_per_token +
+                                                                     hidden_bytes + sizeof(SourceMeta)) +
+                                            topk_idx);
+                    };
+                    combine_token<NUM_MAX_NVL_PEERS, false, dtype_t, NUM_MAX_NVL_PEERS, true, kNumStages, kNumTMALoadBytes>(
+                        expected_head >= 0,
+                        expected_head,
+                        lane_id,
+                        hidden_int4,
+                        num_topk,
+                        static_cast<int4*>(shifted),
+                        reinterpret_cast<float*>(static_cast<int8_t*>(shifted) + hidden_bytes + sizeof(SourceMeta)),
+                        nullptr,
+                        nullptr,
+                        num_max_nvl_chunked_recv_tokens_per_rdma,
+                        get_addr_fn,
+                        recv_tw_fn,
+                        smem_ptr,
+                        tma_phase);
+
+                    // Update head
+                    if (lane_id < NUM_MAX_NVL_PEERS)
+                        expected_head < 0 ? (forwarder_nvl_head[warp_id][lane_id] = -expected_head - 1)
+                                          : (forwarder_nvl_head[warp_id][lane_id] = expected_head + 1);
+                }
+                sync_large_warp();
+
+                // Issue RDMA send
+                if (sub_warp_id == kNumWarpsPerForwarder - 1) {
+                    if (dst_rdma_rank != rdma_rank) {
+                        auto rdma_slot_idx = token_start_idx % num_max_rdma_chunked_recv_tokens;
+                        const size_t num_bytes_per_msg = num_chunked_tokens * num_bytes_per_token;
+                        const auto dst_ptr =
+                            reinterpret_cast<uint64_t>(rdma_channel_data.recv_buffer(rdma_rank) + rdma_slot_idx * num_bytes_per_token);
+                        const auto src_ptr =
+                            reinterpret_cast<uint64_t>(rdma_channel_data.send_buffer(dst_rdma_rank) + rdma_slot_idx * num_bytes_per_token);
+                        // kNVLAndRDMAForwarder: Transfer combined token data to remote RDMA rank
+                        int dst_rank = translate_dst_rdma_rank<kLowLatencyMode>(dst_rdma_rank, nvl_rank);
+                        size_t src_offset = reinterpret_cast<size_t>(rdma_channel_data.send_buffer(dst_rdma_rank) +
+                                                                     rdma_slot_idx * num_bytes_per_token) -
+                            reinterpret_cast<size_t>(gin_base_ptr);
+                        size_t dst_offset =
+                            reinterpret_cast<size_t>(rdma_channel_data.recv_buffer(rdma_rank) + rdma_slot_idx * num_bytes_per_token) -
+                            reinterpret_cast<size_t>(gin_base_ptr);
+                        net.put(world,
+                                dst_rank,
+                                nccl_win,
+                                dst_offset,
+                                nccl_win,
+                                src_offset,
+                                num_bytes_per_msg,
+                                ncclGin_None{},  // no signal
+                                ncclGin_None{},  // no counter
+                                ncclCoopWarp());
+
+                    } else {
+                        memory_fence();
+                    }
+
+                    // Write new RDMA tail
+                    __syncwarp();
+                    if (elect_one_sync()) {
+                        auto dst_rank = translate_dst_rdma_rank<kLowLatencyMode>(dst_rdma_rank, nvl_rank);
+                        auto signal_id = gin_signals_tail + rdma_rank;
+                        net.signal(world,                                                       // team
+                                   dst_rank,                                                    // destination rank
+                                   ncclGin_SignalAdd{signal_id, (uint64_t)num_chunked_tokens},  // signal + value
+                                   ncclCoopThread(),                                            // cooperation scope (default)
+                                   ncclGin_None{},                                              // no descriptor (default)
+                                   cuda::thread_scope_thread,                                   // alreadyReleased (default)
+                                   cuda::thread_scope_thread                                    // expected_scope (default)
+                        );
+                    }
+                }
+            }
+
+            // Retired
+            __syncwarp();
+            if (elect_one_sync())
+                forwarder_retired[warp_id] = true;
+        } else if (warp_role == WarpRole::kRDMAReceiver) {
+            // Receive from RDMA ranks and write to the output tensor
+            // Clean shared memory and sync
+            EP_DEVICE_ASSERT(kNumRDMARanks <= 32);
+            lane_id < kNumRDMARanks ? (rdma_receiver_rdma_head[warp_id][lane_id] = 0) : 0;
+            lane_id == 0 ? (rdma_receiver_retired[warp_id] = false) : 0;
+            sync_rdma_receiver_smem();
+
+            // The same tokens as the dispatch process
+            int token_start_idx, token_end_idx;
+            get_channel_task_range(num_combined_tokens, num_channels, channel_id, token_start_idx, token_end_idx);
+
+            // Iterate over all tokens and combine
+            int cached_channel_tail_idx = 0;
+            for (int64_t token_idx = token_start_idx + warp_id; token_idx < token_end_idx; token_idx += kNumRDMAReceivers) {
+                // Read expected head
+                EP_STATIC_ASSERT(kNumRDMARanks <= 32, "Invalid number of RDMA peers");
+                int expected_head = -1;
+                if (lane_id < kNumRDMARanks) {
+                    expected_head = ld_nc_global(combined_rdma_head + token_idx * kNumRDMARanks + lane_id);
+                    (expected_head < 0) ? (rdma_receiver_rdma_head[warp_id][lane_id] = -expected_head - 1)
+                                        : (rdma_receiver_rdma_head[warp_id][lane_id] = expected_head);
+                }
+
+                // Wait lanes to be ready
+                auto start_time = clock64();
+                while (cached_channel_tail_idx <= expected_head) {
+                    // kRDMAReceiver: Check if data is available from remote RDMA rank (check tail pointer)
+                    auto signal_id = gin_signals_tail + lane_id;
+                    uint64_t signal_value = net.readSignal(signal_id);
+                    cached_channel_tail_idx = static_cast<int>(signal_value);
+
+                    // Timeout check
+                    if (clock64() - start_time > NUM_TIMEOUT_CYCLES) {
+                        printf(
+                            "DeepEP combine RDMA receiver timeout, channel: %d, RDMA: %d, nvl: %d, src RDMA: %d, tail: %d, waiting: %ld, "
+                            "expect: %d\n",
+                            channel_id,
+                            rdma_rank,
+                            nvl_rank,
+                            lane_id,
+                            cached_channel_tail_idx,
+                            token_idx,
+                            expected_head);
+                        trap();
+                    }
+                }
+                __syncwarp();
+
+                // Combine current token
+                auto get_addr_fn = [&](int src_rdma_rank, int slot_idx, int hidden_int4_idx) -> int4* {
+                    return reinterpret_cast<int4*>(rdma_channel_data.recv_buffer(src_rdma_rank) + slot_idx * num_bytes_per_token) +
+                        hidden_int4_idx;
+                };
+                auto recv_tw_fn = [&](int src_rdma_rank, int slot_idx, int topk_idx) -> float {
+                    return ld_nc_global(reinterpret_cast<const float*>(rdma_channel_data.recv_buffer(src_rdma_rank) +
+                                                                       slot_idx * num_bytes_per_token + hidden_bytes + sizeof(SourceMeta)) +
+                                        topk_idx);
+                };
+                uint32_t dummy_tma_phases[2];
+                combine_token<kNumRDMARanks, true, dtype_t, kNumTopkRDMARanks, false, 2>(
+                    expected_head >= 0,
+                    expected_head,
+                    lane_id,
+                    hidden_int4,
+                    num_topk,
+                    combined_x + token_idx * hidden_int4,
+                    combined_topk_weights + token_idx * num_topk,
+                    bias_0 == nullptr ? nullptr : bias_0 + token_idx * hidden_int4,
+                    bias_1 == nullptr ? nullptr : bias_1 + token_idx * hidden_int4,
+                    num_max_rdma_chunked_recv_tokens,
+                    get_addr_fn,
+                    recv_tw_fn,
+                    nullptr,
+                    dummy_tma_phases);
+            }
+
+            // Retired
+            __syncwarp();
+            if (elect_one_sync())
+                rdma_receiver_retired[warp_id] = true;
+        } else {
+            // Coordinator
+            // Sync shared memory status
+            is_forwarder_sm ? sync_forwarder_smem() : sync_rdma_receiver_smem();
+            const auto num_warps_per_rdma_rank = kNumForwarders / kNumRDMARanks;
+
+            int last_rdma_head = 0;
+            int last_nvl_head[kNumRDMARanks] = {0};
+            int dst_rdma_rank = lane_id < kNumRDMARanks ? lane_id : 0;
+            int dst_nvl_rank = lane_id < NUM_MAX_NVL_PEERS ? lane_id : 0;
+            EP_STATIC_ASSERT(kNumCombineForwarderWarps <= 32, "Invalid number of forwarder warps");
+            while (true) {
+                // Retired
+                if (not is_forwarder_sm and __all_sync(0xffffffff, lane_id >= kNumRDMAReceivers or rdma_receiver_retired[lane_id]))
+                    break;
+                if (is_forwarder_sm and __all_sync(0xffffffff, lane_id >= kNumForwarders or forwarder_retired[lane_id]))
+                    break;
+
+                // Find minimum head for RDMA ranks
+                if (not is_forwarder_sm) {
+                    int min_head = std::numeric_limits<int>::max();
+                    #pragma unroll
+                    for (int i = 0; i < kNumRDMAReceivers; ++i)
+                        if (not rdma_receiver_retired[i])
+                            min_head = min(min_head, rdma_receiver_rdma_head[i][dst_rdma_rank]);
+                    if (min_head != std::numeric_limits<int>::max() and min_head >= last_rdma_head + num_max_rdma_chunked_send_tokens and
+                        lane_id < kNumRDMARanks) {
+                        // Coordinator: Notify remote rank that buffer space has been freed (update head pointer)
+                        auto dst_rank = translate_dst_rdma_rank<kLowLatencyMode>(dst_rdma_rank, nvl_rank);
+                        auto signal_id = gin_signals_head + rdma_rank;
+                        net_head.signal(world_head,                                                                   // team
+                                        dst_rank,                                                                     // destination rank
+                                        ncclGin_SignalAdd{signal_id, (uint64_t)min_head - (uint64_t)last_rdma_head},  // signal + value
+                                        ncclCoopThread(),           // cooperation scope (default)
+                                        ncclGin_None{},             // no descriptor (default)
+                                        cuda::thread_scope_thread,  // alreadyReleased (default)
+                                        cuda::thread_scope_thread   // expected_scope (default)
+                        );
+                        last_rdma_head = min_head;
+                    }
+                } else {
+                    // Find minimum head for NVL ranks
+                    #pragma unroll
+                    for (int i = 0; i < kNumRDMARanks; ++i) {
+                        int min_head = std::numeric_limits<int>::max();
+                        #pragma unroll
+                        for (int j = 0; j < num_warps_per_rdma_rank; ++j)
+                            if (not forwarder_retired[i * num_warps_per_rdma_rank + j])
+                                min_head = min(min_head, forwarder_nvl_head[i * num_warps_per_rdma_rank + j][dst_nvl_rank]);
+                        if (min_head != std::numeric_limits<int>::max() and min_head > last_nvl_head[i] and lane_id < NUM_MAX_NVL_PEERS)
+                            st_relaxed_sys_global(nvl_channel_head.buffer_by(dst_nvl_rank) + i, last_nvl_head[i] = min_head);
+                    }
+                }
+
+                // Nanosleep and let other warps work
+                __nanosleep(NUM_WAIT_NANOSECONDS);
+            }
+        }
+    }
+}
+
+void combine(cudaDataType_t type,
+             void* combined_x,
+             float* combined_topk_weights,
+             const bool* is_combined_token_in_rank,
+             const void* x,
+             const float* topk_weights,
+             const void* bias_0,
+             const void* bias_1,
+             const int* combined_rdma_head,
+             const int* combined_nvl_head,
+             const void* src_meta,
+             const int* rdma_channel_prefix_matrix,
+             const int* rdma_rank_prefix_sum,
+             const int* gbl_channel_prefix_matrix,
+             int num_tokens,
+             int num_combined_tokens,
+             int hidden,
+             int num_topk,
+             void* rdma_buffer_ptr,
+             int num_max_rdma_chunked_send_tokens,
+             int num_max_rdma_chunked_recv_tokens,
+             void** buffer_ptrs,
+             int num_max_nvl_chunked_send_tokens,
+             int num_max_nvl_chunked_recv_tokens,
+             int rank,
+             int num_ranks,
+             cudaStream_t stream,
+             int num_channels,
+             bool low_latency_mode,
+             void* gin_base_ptr,
+             ncclDevComm dev_comm,
+             ncclWindow_t nccl_win,
+             unsigned signals_base) {
+    constexpr int kNumCombineForwarderWarps = 24;
+    constexpr int kNumTMABytesPerSenderWarp = 16384;
+    constexpr int kNumTMABytesPerForwarderWarp = 9248;
+    constexpr int smem_size =
+        std::max(kNumTMABytesPerSenderWarp * NUM_MAX_NVL_PEERS, kNumTMABytesPerForwarderWarp * kNumCombineForwarderWarps);
+
+#define COMBINE_LAUNCH_CASE(num_rdma_ranks)                                           \
+    {                                                                                 \
+        auto combine_func = low_latency_mode ? combine<true,                          \
+                                                       num_rdma_ranks,                \
+                                                       nv_bfloat16,                   \
+                                                       kNumCombineForwarderWarps,     \
+                                                       kNumTMABytesPerSenderWarp,     \
+                                                       kNumTMABytesPerForwarderWarp>  \
+                                             : combine<false,                         \
+                                                       num_rdma_ranks,                \
+                                                       nv_bfloat16,                   \
+                                                       kNumCombineForwarderWarps,     \
+                                                       kNumTMABytesPerSenderWarp,     \
+                                                       kNumTMABytesPerForwarderWarp>; \
+        SET_SHARED_MEMORY_FOR_TMA(combine_func);                                      \
+        LAUNCH_KERNEL(&cfg,                                                           \
+                      combine_func,                                                   \
+                      reinterpret_cast<int4*>(combined_x),                            \
+                      combined_topk_weights,                                          \
+                      is_combined_token_in_rank,                                      \
+                      reinterpret_cast<const int4*>(x),                               \
+                      topk_weights,                                                   \
+                      reinterpret_cast<const int4*>(bias_0),                          \
+                      reinterpret_cast<const int4*>(bias_1),                          \
+                      combined_rdma_head,                                             \
+                      combined_nvl_head,                                              \
+                      reinterpret_cast<const SourceMeta*>(src_meta),                  \
+                      rdma_channel_prefix_matrix,                                     \
+                      rdma_rank_prefix_sum,                                           \
+                      gbl_channel_prefix_matrix,                                      \
+                      num_tokens,                                                     \
+                      num_combined_tokens,                                            \
+                      hidden,                                                         \
+                      num_topk,                                                       \
+                      rdma_buffer_ptr,                                                \
+                      num_max_rdma_chunked_send_tokens,                               \
+                      num_max_rdma_chunked_recv_tokens,                               \
+                      buffer_ptrs,                                                    \
+                      num_max_nvl_chunked_send_tokens,                                \
+                      num_max_nvl_chunked_recv_tokens,                                \
+                      rank,                                                           \
+                      num_ranks,                                                      \
+                      gin_base_ptr,                                                   \
+                      dev_comm,                                                       \
+                      nccl_win,                                                       \
+                      signals_base);                                                  \
+    }                                                                                 \
+    break
+
+    int num_rdma_ranks = num_ranks / NUM_MAX_NVL_PEERS;
+    auto num_warps_per_forwarder = std::max(kNumCombineForwarderWarps / num_rdma_ranks, 1);
+    int num_forwarder_warps = num_rdma_ranks * num_warps_per_forwarder;
+    EP_HOST_ASSERT(num_rdma_ranks <= kNumCombineForwarderWarps);
+    EP_HOST_ASSERT(num_forwarder_warps > NUM_MAX_NVL_PEERS and num_forwarder_warps % num_rdma_ranks == 0);
+    EP_HOST_ASSERT(num_max_nvl_chunked_recv_tokens % num_rdma_ranks == 0);
+    EP_HOST_ASSERT(num_max_nvl_chunked_recv_tokens / num_rdma_ranks >
+                   std::max(num_max_rdma_chunked_send_tokens, num_max_nvl_chunked_send_tokens));
+    EP_HOST_ASSERT(num_max_nvl_chunked_recv_tokens / num_rdma_ranks - num_warps_per_forwarder >= num_max_nvl_chunked_send_tokens);
+    EP_HOST_ASSERT(num_max_rdma_chunked_send_tokens >= num_warps_per_forwarder);
+    EP_HOST_ASSERT(type == CUDA_R_16BF);
+
+    SETUP_LAUNCH_CONFIG(num_channels * 2, (num_forwarder_warps + 1) * 32, stream);
+    SWITCH_RDMA_RANKS(COMBINE_LAUNCH_CASE);
+#undef COMBINE_LAUNCH_CASE
+}
+
+}  // namespace internode
+
+}  // namespace deep_ep
+
+// clang-format on
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/internode_ll.cu b/src/turbomind/comm/nccl/deep_ep/kernels/internode_ll.cu
index 7bae1073e9..bd1209f61b 100644
--- a/src/turbomind/comm/nccl/deep_ep/kernels/internode_ll.cu
+++ b/src/turbomind/comm/nccl/deep_ep/kernels/internode_ll.cu
@@ -11,7 +11,6 @@
 
 using namespace cooperative_groups;
 namespace cg = cooperative_groups;
-#define ENABLE_NCCL 1
 
 namespace deep_ep {
 
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/layout.cu b/src/turbomind/comm/nccl/deep_ep/kernels/layout.cu
index c3a16aed84..2fda00ecc0 100644
--- a/src/turbomind/comm/nccl/deep_ep/kernels/layout.cu
+++ b/src/turbomind/comm/nccl/deep_ep/kernels/layout.cu
@@ -1,3 +1,4 @@
+// clang-format off
 #include "configs.cuh"
 #include "exception.cuh"
 #include "launch.cuh"
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/utils.cuh b/src/turbomind/comm/nccl/deep_ep/kernels/utils.cuh
index 0c2eec020e..6129a4073c 100644
--- a/src/turbomind/comm/nccl/deep_ep/kernels/utils.cuh
+++ b/src/turbomind/comm/nccl/deep_ep/kernels/utils.cuh
@@ -1,3 +1,4 @@
+// clang-format off
 #pragma once
 
 #include "exception.cuh"
@@ -638,3 +639,5 @@ __forceinline__ __device__ T warp_reduce_or(T value) {
 }
 
 }  // namespace deep_ep
+
+// clang-format on
diff --git a/src/turbomind/comm/nccl/nccl_ep.cu b/src/turbomind/comm/nccl/nccl_ep.cu
index 6588c05826..a0d8d6a90f 100644
--- a/src/turbomind/comm/nccl/nccl_ep.cu
+++ b/src/turbomind/comm/nccl/nccl_ep.cu
@@ -28,10 +28,9 @@ void NcclCommImpl::InitializeEp(const EpConfig& config)
 
     const int num_rdma_bytes = config.num_nodes > 1 ? int(1e9) : 0;
     const int num_ll_rdma_bytes =
-        config.ll_max_tokens_per_rank > 0 ?
-            deep_ep ::get_low_latency_rdma_size_hint(
-                config.ll_max_tokens_per_rank, config.hidden, h_comm_->n_ranks(), config.num_experts) :
-            0;
+        config.ll_max_tokens_per_rank > 0 ? deep_ep ::get_low_latency_rdma_size_hint(
+            config.ll_max_tokens_per_rank, config.hidden, h_comm_->n_ranks(), config.num_experts) :
+                                            0;
 
     const int num_local_experts = config.num_experts / h_comm_->n_ranks();
     const int num_sms           = 24;
@@ -109,45 +108,13 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
             buffer_->get_dispatch_layout(input.topk_idx, ep_config_.num_experts);
         sync_check_cuda_error();
 
-        if (buffer_->get_num_rdma_ranks() > 1) {
-            // internode dispatch
-        }
-        else {
-            auto config      = buffer_->get_dispatch_config();
-            auto [recv_x,
-                  recv_x_scales,
-                  recv_topk_idx,
-                  recv_topk_weights,
-                  num_recv_tokens_per_expert_list,
-                  num_recv_tokens_per_expert,
-                  rank_prefix_matrix,
-                  channel_prefix_matrix,
-                  recv_channel_prefix_matrix,
-                  recv_src_idx,
-                  send_head] = buffer_->intranode_dispatch(input.x,
-                                                           std::nullopt,
-                                                           input.topk_idx,
-                                                           input.topk_weights,
-                                                           num_tokens_per_rank,
-                                                           is_token_in_rank,
-                                                           num_tokens_per_expert,
-                                                           0,
-                                                           std::nullopt,
-                                                           std::nullopt,
-                                                           1,
-                                                           0,
-                                                           config);
-            sync_check_cuda_error();
-
-            // Generate output
-            output.handle           = {rank_prefix_matrix,
-                                       channel_prefix_matrix,
-                                       recv_channel_prefix_matrix,
-                                       recv_src_idx,
-                                       is_token_in_rank,
-                                       send_head};
+        auto Postprocess = [&](Tensor&                 recv_x,
+                               Tensor&                 recv_topk_weights,
+                               Tensor&                 recv_topk_idx,
+                               const std::vector<int>& num_recv_tokens_per_expert_list,
+                               Tensor&                 num_recv_tokens_per_expert) {
             output.out_x            = recv_x;
-            output.out_topk_weights = recv_topk_weights.value();
+            output.out_topk_weights = recv_topk_weights;
             output.out_token_num    = recv_x.shape(0);
             output.out_expert_token_num =
                 std::accumulate(num_recv_tokens_per_expert_list.begin(), num_recv_tokens_per_expert_list.end(), 0);
@@ -179,12 +146,109 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                                              output.f2E.data(),
                                              output.en2f.data(),
                                              output.offsets.data(),
-                                             recv_topk_idx->data_or((int64_t*)nullptr),
+                                             recv_topk_idx.data_or((int64_t*)nullptr),
                                              num_recv_tokens,
                                              topk,
                                              num_local_experts,
                                              st);
             sync_check_cuda_error();
+        };
+
+        if (buffer_->get_num_rdma_ranks() > 1) {
+            // internode dispatch
+            auto config          = buffer_->get_dispatch_config();
+            auto [recv_x,
+                  recv_x_scales,
+                  recv_topk_idx,
+                  recv_topk_weights,
+                  num_recv_tokens_per_expert_list,
+                  num_recv_tokens_per_expert,
+                  rdma_channel_prefix_matrix,
+                  gbl_channel_prefix_matrix,
+                  recv_rdma_channel_prefix_matrix,
+                  recv_rdma_rank_prefix_sum,
+                  recv_gbl_channel_prefix_matrix,
+                  recv_gbl_rank_prefix_sum,
+                  recv_src_meta,
+                  send_rdma_head,
+                  send_nvl_head] = buffer_->internode_dispatch(input.x,
+                                                               std::nullopt,
+                                                               input.topk_idx,
+                                                               input.topk_weights,
+                                                               num_tokens_per_rank,
+                                                               num_tokens_per_rdma_rank,
+                                                               is_token_in_rank,
+                                                               num_tokens_per_expert,
+                                                               0,
+                                                               0,
+                                                               std::nullopt,
+                                                               std::nullopt,
+                                                               std::nullopt,
+                                                               std::nullopt,
+                                                               1,
+                                                               0,
+                                                               config);
+            sync_check_cuda_error();
+
+            // Generate output
+            output.handle = {is_token_in_rank,
+                             rdma_channel_prefix_matrix,
+                             gbl_channel_prefix_matrix,
+                             recv_rdma_channel_prefix_matrix.value(),
+                             recv_rdma_rank_prefix_sum,
+                             recv_gbl_channel_prefix_matrix.value(),
+                             recv_gbl_rank_prefix_sum,
+                             recv_src_meta.value(),
+                             send_rdma_head.value(),
+                             send_nvl_head.value()};
+
+            Postprocess(recv_x,  //
+                        recv_topk_weights.value(),
+                        recv_topk_idx.value(),
+                        num_recv_tokens_per_expert_list,
+                        num_recv_tokens_per_expert);
+        }
+        else {
+            // intranode dispatch
+            auto config      = buffer_->get_dispatch_config();
+            auto [recv_x,
+                  recv_x_scales,
+                  recv_topk_idx,
+                  recv_topk_weights,
+                  num_recv_tokens_per_expert_list,
+                  num_recv_tokens_per_expert,
+                  rank_prefix_matrix,
+                  channel_prefix_matrix,
+                  recv_channel_prefix_matrix,
+                  recv_src_idx,
+                  send_head] = buffer_->intranode_dispatch(input.x,
+                                                           std::nullopt,
+                                                           input.topk_idx,
+                                                           input.topk_weights,
+                                                           num_tokens_per_rank,
+                                                           is_token_in_rank,
+                                                           num_tokens_per_expert,
+                                                           0,
+                                                           std::nullopt,
+                                                           std::nullopt,
+                                                           1,
+                                                           0,
+                                                           config);
+            sync_check_cuda_error();
+
+            // Generate output
+            output.handle = {rank_prefix_matrix,
+                             channel_prefix_matrix,
+                             recv_channel_prefix_matrix,
+                             recv_src_idx,
+                             is_token_in_rank,
+                             send_head};
+
+            Postprocess(recv_x,  //
+                        recv_topk_weights.value(),
+                        recv_topk_idx.value(),
+                        num_recv_tokens_per_expert_list,
+                        num_recv_tokens_per_expert);
         }
     }
 }
@@ -226,6 +290,30 @@ void NcclCommImpl::Combine(const EpCombineInput& input, EpCombineOutput& output,
     else {
         if (buffer_->get_num_rdma_ranks() > 1) {
             // internode combine
+            auto config = buffer_->get_combine_config();
+
+            auto src_meta                   = input.handle[7];
+            auto is_combined_token_in_rank  = input.handle[0];
+            auto rdma_channel_prefix_matrix = input.handle[3];
+            auto rdma_rank_prefix_sum       = input.handle[4];
+            auto gbl_channel_prefix_matrix  = input.handle[5];
+            auto combined_rdma_head         = input.handle[8];
+            auto combined_nvl_head          = input.handle[9];
+
+            auto [combined_x, combined_topk_weights] = buffer_->internode_combine(input.x,
+                                                                                  input.topk_weights,
+                                                                                  std::nullopt,
+                                                                                  std::nullopt,
+                                                                                  src_meta,
+                                                                                  is_combined_token_in_rank,
+                                                                                  rdma_channel_prefix_matrix,
+                                                                                  rdma_rank_prefix_sum,
+                                                                                  gbl_channel_prefix_matrix,
+                                                                                  combined_rdma_head,
+                                                                                  combined_nvl_head,
+                                                                                  config);
+            sync_check_cuda_error();
+            output.out_x = combined_x;
         }
         else {
             // intranode combine

From 64acac6c7bfcd8f0bb1a333e416cc6d7ef7032d2 Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Mon, 30 Mar 2026 09:10:11 +0000
Subject: [PATCH 03/21] fix internode

---
 lmdeploy/turbomind/turbomind.py                      | 2 +-
 src/turbomind/comm/nccl/deep_ep/deep_ep.cpp          | 1 +
 src/turbomind/comm/nccl/deep_ep/gin_backend.cu       | 2 +-
 src/turbomind/comm/nccl/deep_ep/kernels/internode.cu | 4 ++--
 4 files changed, 5 insertions(+), 4 deletions(-)

diff --git a/lmdeploy/turbomind/turbomind.py b/lmdeploy/turbomind/turbomind.py
index d8b2b5a3b2..0e5dee45fa 100644
--- a/lmdeploy/turbomind/turbomind.py
+++ b/lmdeploy/turbomind/turbomind.py
@@ -100,7 +100,7 @@ def update_parallel_config(cfg: TurbomindEngineConfig):
         attn_dp_size = overlap
         inner_tp_size = cfg.ep // overlap
         cfg.outer_dp_size = cfg.dp // overlap
-        cfg.attn_dp_size = overlap // cfg.nnodes
+        cfg.attn_dp_size = overlap
         cfg.attn_tp_size = inner_tp_size // cfg.cp
         cfg.attn_cp_size = cfg.cp
         cfg.mlp_dp_size = 1
diff --git a/src/turbomind/comm/nccl/deep_ep/deep_ep.cpp b/src/turbomind/comm/nccl/deep_ep/deep_ep.cpp
index ad29f696d5..520739b0ca 100644
--- a/src/turbomind/comm/nccl/deep_ep/deep_ep.cpp
+++ b/src/turbomind/comm/nccl/deep_ep/deep_ep.cpp
@@ -253,6 +253,7 @@ void Buffer::allocate_sync_nvl_buffer()
     auto stream = turbomind::core::Context::stream().handle();
 
     HostComm h_nvl_comm = h_comm->Split(rdma_rank, 0);
+    TM_CHECK_EQ(h_nvl_comm->is_same_process(), true);
 
     ipc_comm = CreateDeviceCommunicator("cuda-ipc", h_nvl_comm->n_ranks(), nvl_rank, h_nvl_comm);
 
diff --git a/src/turbomind/comm/nccl/deep_ep/gin_backend.cu b/src/turbomind/comm/nccl/deep_ep/gin_backend.cu
index 4d7834c5b0..d0a64da958 100644
--- a/src/turbomind/comm/nccl/deep_ep/gin_backend.cu
+++ b/src/turbomind/comm/nccl/deep_ep/gin_backend.cu
@@ -53,7 +53,7 @@ int NCCLGINBackend::init(
     size_t single_id_size = sizeof(ncclUniqueId);
     size_t expected_ids   = gpus_per_server;
     EP_HOST_ASSERT(root_unique_id_val.size() == expected_ids * single_id_size
-                   && "Number of unique IDs doesn't match NUM_MAX_NVL_PEERS * qps_per_rank");
+                   && "Number of unique IDs doesn't match NUM_MAX_NVL_PEERS");
 
     if (rank == 0) {
         // Print NCCL version from the actually loaded library
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/internode.cu b/src/turbomind/comm/nccl/deep_ep/kernels/internode.cu
index f8a8b9d185..a8d842e9fd 100644
--- a/src/turbomind/comm/nccl/deep_ep/kernels/internode.cu
+++ b/src/turbomind/comm/nccl/deep_ep/kernels/internode.cu
@@ -182,7 +182,7 @@ __global__ void notify_dispatch(const int* num_tokens_per_rank,
         // For each channel we have kNumRDMARanks head and tail signals
         int num_signals = kNumRDMARanks * num_channels * 2;
         EP_DEVICE_ASSERT(num_signals <= num_threads);
-        EP_DEVICE_ASSERT(num_channels * 2 <= dev_comm.ginConnectionCount);
+        EP_DEVICE_ASSERT(num_channels * 2 <= dev_comm.ginContextCount);
 
         // NCCL backend use signal to update head/tail
         // Each thread handles one specific signal across all contexts
@@ -1932,7 +1932,7 @@ __global__ void __launch_bounds__((kNumForwarders + 1) * 32, 1) combine(int4* co
     const auto hidden_bytes = hidden_int4 * sizeof(int4);
     const auto num_bytes_per_token = get_num_bytes_per_token(hidden_int4, 0, 0, num_topk);
 
-    EP_DEVICE_ASSERT(num_channels * 2 <= dev_comm.ginConnectionCount);
+    EP_DEVICE_ASSERT(num_channels * 2 <= dev_comm.ginContextCount);
     // Use a diff GIN context for each channel/SM
     ncclGin net(dev_comm, channel_id);
     ncclTeam world = ncclTeamWorld(dev_comm);

From c3bb4f392a0f9558cb4a73e67f41e4e8d7006955 Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Mon, 30 Mar 2026 12:58:02 +0000
Subject: [PATCH 04/21] update build

---
 src/turbomind/comm/nccl/CMakeLists.txt | 56 +++++++++++++++++---------
 src/turbomind/comm/nccl/nccl.cu        |  4 ++
 src/turbomind/comm/nccl/nccl_comm.h    |  4 ++
 src/turbomind/comm/nccl/nccl_ep.cu     | 13 +++---
 4 files changed, 52 insertions(+), 25 deletions(-)

diff --git a/src/turbomind/comm/nccl/CMakeLists.txt b/src/turbomind/comm/nccl/CMakeLists.txt
index 5d77e7bce6..4eefb08683 100644
--- a/src/turbomind/comm/nccl/CMakeLists.txt
+++ b/src/turbomind/comm/nccl/CMakeLists.txt
@@ -2,26 +2,42 @@
 
 cmake_minimum_required(VERSION 3.11)
 
-set(DEEP_EP_SOURCE_FILES
-    deep_ep/deep_ep.cpp
-    deep_ep/gin_backend.cu
-    deep_ep/kernels/runtime.cu
-    deep_ep/kernels/layout.cu
-    deep_ep/kernels/intranode.cu
-    deep_ep/kernels/internode.cu
-    deep_ep/kernels/internode_ll.cu
-)
+add_library(nccl_comm STATIC nccl.cu)
+target_link_libraries(nccl_comm PRIVATE rms_norm core ${NCCL_LIBRARIES} logger)
+target_include_directories(nccl_comm PRIVATE ${NCCL_INCLUDE_DIRS})
 
-add_library(deepep STATIC ${DEEP_EP_SOURCE_FILES})
-target_link_libraries(deepep PRIVATE ${NCCL_LIBRARIES} CUDA::cudart)
-set_property(TARGET deepep PROPERTY CUDA_ARCHITECTURES 90)
-target_include_directories(deepep PRIVATE ${NCCL_INCLUDE_DIRS})
-set_property(TARGET deepep PROPERTY POSITION_INDEPENDENT_CODE ON)
-set_property(TARGET deepep PROPERTY CUDA_RESOLVE_DEVICE_SYMBOLS ON)
+set_property(TARGET nccl_comm PROPERTY POSITION_INDEPENDENT_CODE ON)
+set_property(TARGET nccl_comm PROPERTY CUDA_RESOLVE_DEVICE_SYMBOLS ON)
 
-add_library(nccl_comm STATIC nccl.cu nccl_ep.cu)
-target_link_libraries(nccl_comm PRIVATE rms_norm core ${NCCL_LIBRARIES} logger deepep)
-target_include_directories(nccl_comm PRIVATE ${NCCL_INCLUDE_DIRS})
+file(READ "${NCCL_INCLUDE_DIRS}/nccl.h" NCCL_HEADER_CONTENTS)
+string(REGEX MATCH "#define NCCL_MAJOR[ \t]+([0-9]+)" _ ${NCCL_HEADER_CONTENTS})
+set(NCCL_MAJOR ${CMAKE_MATCH_1})
+string(REGEX MATCH "#define NCCL_MINOR[ \t]+([0-9]+)" _ ${NCCL_HEADER_CONTENTS})
+set(NCCL_MINOR ${CMAKE_MATCH_1})
+string(REGEX MATCH "#define NCCL_PATCH[ \t]+([0-9]+)" _ ${NCCL_HEADER_CONTENTS})
+set(NCCL_PATCH ${CMAKE_MATCH_1})
+set(NCCL_VERSION_STRING "${NCCL_MAJOR}.${NCCL_MINOR}.${NCCL_PATCH}")
+message(STATUS "Detected NCCL version: ${NCCL_VERSION_STRING}")
+
+if(NOT NCCL_VERSION_STRING VERSION_LESS "2.29.7")
+  set(DEEP_EP_SOURCE_FILES
+      deep_ep/deep_ep.cpp
+      deep_ep/gin_backend.cu
+      deep_ep/kernels/runtime.cu
+      deep_ep/kernels/layout.cu
+      deep_ep/kernels/intranode.cu
+      deep_ep/kernels/internode.cu
+      deep_ep/kernels/internode_ll.cu
+      nccl_ep.cu)
+
+  add_library(deepep STATIC ${DEEP_EP_SOURCE_FILES})
+  target_link_libraries(deepep PRIVATE ${NCCL_LIBRARIES} CUDA::cudart)
+  set_property(TARGET deepep PROPERTY CUDA_ARCHITECTURES 90)
+  target_include_directories(deepep PRIVATE ${NCCL_INCLUDE_DIRS})
+  set_property(TARGET deepep PROPERTY POSITION_INDEPENDENT_CODE ON)
+  set_property(TARGET deepep PROPERTY CUDA_RESOLVE_DEVICE_SYMBOLS ON)
 
-set_property(TARGET nccl_comm PROPERTY POSITION_INDEPENDENT_CODE  ON)
-set_property(TARGET nccl_comm PROPERTY CUDA_RESOLVE_DEVICE_SYMBOLS  ON)
+  target_link_libraries(nccl_comm PRIVATE deepep)
+else()
+  message(STATUS "Skip deepep build because NCCL ${NCCL_VERSION_STRING} < 2.29.7")
+endif()
diff --git a/src/turbomind/comm/nccl/nccl.cu b/src/turbomind/comm/nccl/nccl.cu
index 36950e9d49..0d6ddf93ef 100644
--- a/src/turbomind/comm/nccl/nccl.cu
+++ b/src/turbomind/comm/nccl/nccl.cu
@@ -8,7 +8,9 @@
 
 #include <dlfcn.h>
 
+#if NCCL_VERSION_CODE >= NCCL_VERSION(2, 29, 7)
 #include "src/turbomind/comm/nccl/deep_ep/deep_ep.hpp"
+#endif
 #include "src/turbomind/core/check.h"
 #include "src/turbomind/utils/cuda_utils.h"
 #include "src/turbomind/utils/logger.h"
@@ -123,9 +125,11 @@ NcclCommImpl::~NcclCommImpl()
             TM_LOG_ERROR("[NCCL][%d] Failed to destroy communicator: %s", global_rank_, ncclGetErrorString(ec));
         }
     }
+#if NCCL_VERSION_CODE >= NCCL_VERSION(2, 29, 7)
     if (buffer_) {
         buffer_->destroy();
     }
+#endif
 }
 
 int NcclCommImpl::rank(int group) const
diff --git a/src/turbomind/comm/nccl/nccl_comm.h b/src/turbomind/comm/nccl/nccl_comm.h
index 30a30a3e52..b5e49232ff 100644
--- a/src/turbomind/comm/nccl/nccl_comm.h
+++ b/src/turbomind/comm/nccl/nccl_comm.h
@@ -88,9 +88,11 @@ class NcclCommImpl: public DeviceCommImpl {
                    int          group,
                    cudaStream_t stream) override;
 
+#if NCCL_VERSION_CODE >= NCCL_VERSION(2, 29, 7)
     void InitializeEp(const EpConfig& config) override;
     void Dispatch(const EpDispatchInput& input, EpDispatchOutput& output, int group) override;
     void Combine(const EpCombineInput& input, EpCombineOutput& output, int group) override;
+#endif
 
 private:
     void Register(int group, void* buff, size_t size);
@@ -107,7 +109,9 @@ class NcclCommImpl: public DeviceCommImpl {
 
     std::unordered_map<void*, size_t> buffers_;
 
+#if NCCL_VERSION_CODE >= NCCL_VERSION(2, 29, 7)
     std::unique_ptr<deep_ep::Buffer> buffer_;
+#endif
     EpConfig                         ep_config_;
 };
 
diff --git a/src/turbomind/comm/nccl/nccl_ep.cu b/src/turbomind/comm/nccl/nccl_ep.cu
index a0d8d6a90f..6a94259086 100644
--- a/src/turbomind/comm/nccl/nccl_ep.cu
+++ b/src/turbomind/comm/nccl/nccl_ep.cu
@@ -26,11 +26,14 @@ void NcclCommImpl::InitializeEp(const EpConfig& config)
     TM_CHECK_GE(version, NCCL_VERSION(2, 29, 7));
     ep_config_ = config;
 
-    const int num_rdma_bytes = config.num_nodes > 1 ? int(1e9) : 0;
-    const int num_ll_rdma_bytes =
-        config.ll_max_tokens_per_rank > 0 ? deep_ep ::get_low_latency_rdma_size_hint(
-            config.ll_max_tokens_per_rank, config.hidden, h_comm_->n_ranks(), config.num_experts) :
-                                            0;
+    const int num_rdma_bytes    = config.num_nodes > 1 ? int(1e9) : 0;
+    const int num_ll_rdma_bytes = [&]() -> int {
+        if (config.ll_max_tokens_per_rank > 0) {
+            return deep_ep::get_low_latency_rdma_size_hint(
+                config.ll_max_tokens_per_rank, config.hidden, h_comm_->n_ranks(), config.num_experts);
+        }
+        return 0;
+    }();
 
     const int num_local_experts = config.num_experts / h_comm_->n_ranks();
     const int num_sms           = 24;

From e83ab90c47ab4c8df50720ab15e3f86fb730316f Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Wed, 1 Apr 2026 07:33:07 +0000
Subject: [PATCH 05/21] update build

---
 lmdeploy/turbomind/turbomind.py                | 1 +
 src/turbomind/comm/device_comm.h               | 2 +-
 src/turbomind/comm/nccl/deep_ep/deep_ep.cpp    | 3 ---
 src/turbomind/comm/nccl/nccl_comm.h            | 2 +-
 src/turbomind/comm/nccl/nccl_ep.cu             | 4 ++--
 src/turbomind/models/llama/FusedRMSNormLayer.h | 2 +-
 src/turbomind/models/llama/moe_ffn_layer.cc    | 8 ++++----
 src/turbomind/models/llama/moe_ffn_layer.h     | 2 +-
 8 files changed, 11 insertions(+), 13 deletions(-)

diff --git a/lmdeploy/turbomind/turbomind.py b/lmdeploy/turbomind/turbomind.py
index 0e5dee45fa..3ef63ca1e0 100644
--- a/lmdeploy/turbomind/turbomind.py
+++ b/lmdeploy/turbomind/turbomind.py
@@ -87,6 +87,7 @@ def complete_parallel_config(cfg: TurbomindEngineConfig):
 def update_parallel_config(cfg: TurbomindEngineConfig):
     cfg.device_num = len(cfg.devices) * cfg.nnodes if cfg.devices else cfg.device_num
     if not complete_parallel_config(cfg) and cfg.ep > 1:
+        os.environ['NCCL_GIN_GDAKI_QP_DEPTH'] = '1024'
         if cfg.communicator in ['cuda-ipc', 'native']:
             assert cfg.nnodes == 1, 'TurboMind does not support multi-node with ep > 1'
         total = cfg.dp * cfg.ep
diff --git a/src/turbomind/comm/device_comm.h b/src/turbomind/comm/device_comm.h
index 0c85ac7ebf..cf0ba9ef56 100644
--- a/src/turbomind/comm/device_comm.h
+++ b/src/turbomind/comm/device_comm.h
@@ -21,7 +21,7 @@ struct EpConfig {
     int ll_max_tokens_per_rank;
 };
 
-enum EpMode
+enum class EpMode
 {
     kNull,
     kHighThroughput,
diff --git a/src/turbomind/comm/nccl/deep_ep/deep_ep.cpp b/src/turbomind/comm/nccl/deep_ep/deep_ep.cpp
index 520739b0ca..d0196b2f44 100644
--- a/src/turbomind/comm/nccl/deep_ep/deep_ep.cpp
+++ b/src/turbomind/comm/nccl/deep_ep/deep_ep.cpp
@@ -170,9 +170,6 @@ Buffer::Buffer(int      rank,
     qps_per_rank(qps_per_rank),
     h_comm(h_comm)
 {
-    // move to turbomind.py
-    setenv("NCCL_GIN_GDAKI_QP_DEPTH", "1024", 0);
-
     // Common checks
     EP_STATIC_ASSERT(NUM_BUFFER_ALIGNMENT_BYTES % sizeof(int4) == 0, "Invalid alignment");
     EP_HOST_ASSERT(num_nvl_bytes % NUM_BUFFER_ALIGNMENT_BYTES == 0
diff --git a/src/turbomind/comm/nccl/nccl_comm.h b/src/turbomind/comm/nccl/nccl_comm.h
index b5e49232ff..0b13e0aca3 100644
--- a/src/turbomind/comm/nccl/nccl_comm.h
+++ b/src/turbomind/comm/nccl/nccl_comm.h
@@ -112,7 +112,7 @@ class NcclCommImpl: public DeviceCommImpl {
 #if NCCL_VERSION_CODE >= NCCL_VERSION(2, 29, 7)
     std::unique_ptr<deep_ep::Buffer> buffer_;
 #endif
-    EpConfig                         ep_config_;
+    EpConfig ep_config_;
 };
 
 DeviceComm CreateNcclCommunicator(int n_ranks, int rank, HostComm h_comm);
diff --git a/src/turbomind/comm/nccl/nccl_ep.cu b/src/turbomind/comm/nccl/nccl_ep.cu
index 6a94259086..1f52701a24 100644
--- a/src/turbomind/comm/nccl/nccl_ep.cu
+++ b/src/turbomind/comm/nccl/nccl_ep.cu
@@ -55,7 +55,7 @@ void NcclCommImpl::InitializeEp(const EpConfig& config)
 void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& output, int group)
 {
     TM_CHECK_EQ(group, 0);
-    TM_CHECK_NE(input.mode, EpMode::kNull);
+    TM_CHECK(input.mode != EpMode::kNull);
 
     if (input.mode == EpMode::kLowLatency) {
         auto [packed_recv_x, packed_recv_x_scales, packed_recv_count, packed_recv_src_info, packed_recv_layout_range] =
@@ -259,7 +259,7 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
 void NcclCommImpl::Combine(const EpCombineInput& input, EpCombineOutput& output, int group)
 {
     TM_CHECK_EQ(group, 0);
-    TM_CHECK_NE(input.mode, EpMode::kNull);
+    TM_CHECK(input.mode != EpMode::kNull);
 
     if (input.mode == EpMode::kLowLatency) {
         const int   num_local_experts = ep_config_.num_experts / h_comm_->n_ranks();
diff --git a/src/turbomind/models/llama/FusedRMSNormLayer.h b/src/turbomind/models/llama/FusedRMSNormLayer.h
index 39d8414646..df7473e4d1 100644
--- a/src/turbomind/models/llama/FusedRMSNormLayer.h
+++ b/src/turbomind/models/llama/FusedRMSNormLayer.h
@@ -169,4 +169,4 @@ inline std::unique_ptr<FusedRMSNormLayer> CreateFusedRMSNormLayer(const FusedRMS
     return std::make_unique<FusedRMSNormLayerTp>(param);
 }
 
-};  // namespace turbomind
+}  // namespace turbomind
diff --git a/src/turbomind/models/llama/moe_ffn_layer.cc b/src/turbomind/models/llama/moe_ffn_layer.cc
index 86b67ea1f0..b035f9b112 100644
--- a/src/turbomind/models/llama/moe_ffn_layer.cc
+++ b/src/turbomind/models/llama/moe_ffn_layer.cc
@@ -165,7 +165,7 @@ void MoeFfnLayer::RouteTP(ForwardParam& p, Tensor_<float>& logits)
 
 void MoeFfnLayer::RouteEP(ForwardParam& p, Tensor_<float>& logits)
 {
-    TM_CHECK_EQ(ep_mode_, comm::EpMode::kNull);
+    TM_CHECK(ep_mode_ != comm::EpMode::kNull);
 
     const int   tokens     = p.input.shape(0);
     const auto& moe        = *p.weights;
@@ -210,7 +210,7 @@ void MoeFfnLayer::RouteEP(ForwardParam& p, Tensor_<float>& logits)
     dispatch_output_ = std::make_unique<comm::EpDispatchOutput>(dispatch_output);
 }
 
-void MoeFfnLayer::SetWarpup(ForwardParam& p)
+void MoeFfnLayer::SetWarmup(ForwardParam& p)
 {
     const int  tokens     = p.input.shape(0);
     const int  expert_num = p.weights->experts.size();
@@ -253,7 +253,7 @@ void MoeFfnLayer::Forward(ForwardParam& p)
     const auto st = core::Context::stream().handle();
 
     if (is_warm_up_) {
-        SetWarpup(p);
+        SetWarmup(p);
     }
     else if (ep_size_ == 1) {
         RouteTP(p, logits);
@@ -370,7 +370,7 @@ void MoeFfnLayer::CombineTP(ForwardParam& p)
 
 void MoeFfnLayer::CombineEP(ForwardParam& p)
 {
-    TM_CHECK_NE(ep_mode_, comm::EpMode::kNull);
+    TM_CHECK(ep_mode_ != comm::EpMode::kNull);
     auto st = core::Context::stream().handle();
     // Local reduce
     if (ep_mode_ == comm::EpMode::kHighThroughput) {
diff --git a/src/turbomind/models/llama/moe_ffn_layer.h b/src/turbomind/models/llama/moe_ffn_layer.h
index ea15f46f68..8ec3468108 100644
--- a/src/turbomind/models/llama/moe_ffn_layer.h
+++ b/src/turbomind/models/llama/moe_ffn_layer.h
@@ -31,7 +31,7 @@ class MoeFfnLayer {
 private:
     Tensor_<float> Gate(const Tensor& input, const LlamaDenseWeight& gate);
 
-    void SetWarpup(ForwardParam& p);
+    void SetWarmup(ForwardParam& p);
 
     void ForwardNative(ForwardParam& p);
 

From 03f6f09b465bb835c7cda6f3e9ca2fccbf525fd0 Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Wed, 1 Apr 2026 09:08:49 +0000
Subject: [PATCH 06/21] fix windows build

---
 src/turbomind/kernels/gemm/moe_ep_utils.cu | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/turbomind/kernels/gemm/moe_ep_utils.cu b/src/turbomind/kernels/gemm/moe_ep_utils.cu
index b4d9cb673a..5520b7029e 100644
--- a/src/turbomind/kernels/gemm/moe_ep_utils.cu
+++ b/src/turbomind/kernels/gemm/moe_ep_utils.cu
@@ -451,7 +451,7 @@ void invokeMoeLocalCombineEp(Ref<Tensor>   out_,
 
         auto invoke = [&](auto e) {
             constexpr int exp_per_tok = decltype(e)::value;
-            MoeCombineKernel<vsize, exp_per_tok, has_bias.value, threads><<<tokens, threads, 0, st>>>(  //
+            MoeCombineKernel<vsize, exp_per_tok, decltype(has_bias)::value, threads><<<tokens, threads, 0, st>>>(  //
                 out.data<T>(),
                 src.data<T>(),
                 bias.data_or((T*)nullptr),

From 70fe0e066da4207a8cbd2c29ec2c718a6d90bc81 Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Thu, 2 Apr 2026 06:12:29 +0000
Subject: [PATCH 07/21] fix windows build

---
 src/turbomind/kernels/gemm/moe_ep_utils.cu | 46 +++++++++++-----------
 src/turbomind/python/CMakeLists.txt        |  4 ++
 2 files changed, 27 insertions(+), 23 deletions(-)

diff --git a/src/turbomind/kernels/gemm/moe_ep_utils.cu b/src/turbomind/kernels/gemm/moe_ep_utils.cu
index 5520b7029e..6b02356d47 100644
--- a/src/turbomind/kernels/gemm/moe_ep_utils.cu
+++ b/src/turbomind/kernels/gemm/moe_ep_utils.cu
@@ -444,36 +444,36 @@ void invokeMoeLocalCombineEp(Ref<Tensor>   out_,
 
     const int dim = src.shape(1);
 
-    auto dispatch_topk = [&](auto has_bias, auto t) {
-        using T               = decltype(t);
-        constexpr int threads = 256;
-        constexpr int vsize   = 16 / sizeof(T);
-
-        auto invoke = [&](auto e) {
-            constexpr int exp_per_tok = decltype(e)::value;
-            MoeCombineKernel<vsize, exp_per_tok, decltype(has_bias)::value, threads><<<tokens, threads, 0, st>>>(  //
-                out.data<T>(),
-                src.data<T>(),
-                bias.data_or((T*)nullptr),
-                topk_weights,
-                en2f,
-                f2E,
-                dim,
-                tokens);
-            sync_check_cuda_error();
-        };
+    auto invoke = [&](auto t, auto e, auto has_bias_) {
+        using T                    = decltype(t);
+        constexpr int  threads     = 256;
+        constexpr int  vsize       = 16 / sizeof(T);
+        constexpr int  exp_per_tok = decltype(e)::value;
+        constexpr bool has_bias    = decltype(has_bias_)::value;
+        MoeCombineKernel<vsize, exp_per_tok, has_bias, threads><<<tokens, threads, 0, st>>>(  //
+            out.data<T>(),
+            src.data<T>(),
+            bias.data_or((T*)nullptr),
+            topk_weights,
+            en2f,
+            f2E,
+            dim,
+            tokens);
+        sync_check_cuda_error();
+    };
 
+    auto dispatch_topk = [&](auto has_bias, auto t) {
         switch (experts_per_token) {
             case 1:
-                return invoke(std::integral_constant<int, 1>{});
+                return invoke(t, std::integral_constant<int, 1>{}, has_bias);
             case 2:
-                return invoke(std::integral_constant<int, 2>{});
+                return invoke(t, std::integral_constant<int, 2>{}, has_bias);
             case 4:
-                return invoke(std::integral_constant<int, 4>{});
+                return invoke(t, std::integral_constant<int, 4>{}, has_bias);
             case 6:
-                return invoke(std::integral_constant<int, 6>{});
+                return invoke(t, std::integral_constant<int, 6>{}, has_bias);
             case 8:
-                return invoke(std::integral_constant<int, 8>{});
+                return invoke(t, std::integral_constant<int, 8>{}, has_bias);
             default:
                 TM_CHECK(0) << "unsupported experts_per_token " << experts_per_token;
         }
diff --git a/src/turbomind/python/CMakeLists.txt b/src/turbomind/python/CMakeLists.txt
index 2b4ceb557f..c2d44b2a83 100644
--- a/src/turbomind/python/CMakeLists.txt
+++ b/src/turbomind/python/CMakeLists.txt
@@ -18,6 +18,10 @@ target_link_libraries(${PROJECT_NAME} PRIVATE turbomind xgrammar)
 pybind11_add_module(_xgrammar xgrammar_bind.cpp)
 target_link_libraries(_xgrammar PRIVATE core xgrammar)
 target_compile_features(_xgrammar PRIVATE cxx_std_14)
+if(MSVC)
+    target_compile_options(${PROJECT_NAME} PRIVATE /utf-8)
+    target_compile_options(_xgrammar PRIVATE /utf-8)
+endif()
 
 if (CALL_FROM_SETUP_PY)
   string(REPLACE "." ";" _ver ${CMAKE_CUDA_COMPILER_VERSION})

From acc13a906ed4fc3d01211ff8cb41e0aed736080d Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Tue, 7 Apr 2026 14:08:03 +0000
Subject: [PATCH 08/21] move deepep to 3rdparty

---
 .../comm/nccl => 3rdparty}/deep_ep/config.hpp |  0
 .../nccl => 3rdparty}/deep_ep/deep_ep.cpp     |  2 +-
 .../nccl => 3rdparty}/deep_ep/deep_ep.hpp     |  0
 .../nccl => 3rdparty}/deep_ep/gin_backend.cu  |  6 ++---
 .../nccl => 3rdparty}/deep_ep/gin_backend.h   |  0
 .../nccl => 3rdparty}/deep_ep/kernels/api.cuh |  0
 .../deep_ep/kernels/buffer.cuh                |  0
 .../deep_ep/kernels/configs.cuh               |  0
 .../deep_ep/kernels/exception.cuh             |  0
 .../deep_ep/kernels/internode.cu              |  2 +-
 .../deep_ep/kernels/internode_ll.cu           |  0
 .../deep_ep/kernels/intranode.cu              |  0
 .../deep_ep/kernels/launch.cuh                |  0
 .../deep_ep/kernels/layout.cu                 |  0
 .../deep_ep/kernels/runtime.cu                |  2 +-
 .../deep_ep/kernels/utils.cuh                 |  0
 src/turbomind/comm/nccl/CMakeLists.txt        | 25 +++++++++++++------
 src/turbomind/comm/nccl/nccl.cu               |  2 +-
 src/turbomind/comm/nccl/nccl_ep.cu            |  2 +-
 src/turbomind/models/llama/moe_ffn_layer.cc   |  2 +-
 20 files changed, 26 insertions(+), 17 deletions(-)
 rename {src/turbomind/comm/nccl => 3rdparty}/deep_ep/config.hpp (100%)
 rename {src/turbomind/comm/nccl => 3rdparty}/deep_ep/deep_ep.cpp (99%)
 rename {src/turbomind/comm/nccl => 3rdparty}/deep_ep/deep_ep.hpp (100%)
 rename {src/turbomind/comm/nccl => 3rdparty}/deep_ep/gin_backend.cu (97%)
 rename {src/turbomind/comm/nccl => 3rdparty}/deep_ep/gin_backend.h (100%)
 rename {src/turbomind/comm/nccl => 3rdparty}/deep_ep/kernels/api.cuh (100%)
 rename {src/turbomind/comm/nccl => 3rdparty}/deep_ep/kernels/buffer.cuh (100%)
 rename {src/turbomind/comm/nccl => 3rdparty}/deep_ep/kernels/configs.cuh (100%)
 rename {src/turbomind/comm/nccl => 3rdparty}/deep_ep/kernels/exception.cuh (100%)
 rename {src/turbomind/comm/nccl => 3rdparty}/deep_ep/kernels/internode.cu (99%)
 rename {src/turbomind/comm/nccl => 3rdparty}/deep_ep/kernels/internode_ll.cu (100%)
 rename {src/turbomind/comm/nccl => 3rdparty}/deep_ep/kernels/intranode.cu (100%)
 rename {src/turbomind/comm/nccl => 3rdparty}/deep_ep/kernels/launch.cuh (100%)
 rename {src/turbomind/comm/nccl => 3rdparty}/deep_ep/kernels/layout.cu (100%)
 rename {src/turbomind/comm/nccl => 3rdparty}/deep_ep/kernels/runtime.cu (97%)
 rename {src/turbomind/comm/nccl => 3rdparty}/deep_ep/kernels/utils.cuh (100%)

diff --git a/src/turbomind/comm/nccl/deep_ep/config.hpp b/3rdparty/deep_ep/config.hpp
similarity index 100%
rename from src/turbomind/comm/nccl/deep_ep/config.hpp
rename to 3rdparty/deep_ep/config.hpp
diff --git a/src/turbomind/comm/nccl/deep_ep/deep_ep.cpp b/3rdparty/deep_ep/deep_ep.cpp
similarity index 99%
rename from src/turbomind/comm/nccl/deep_ep/deep_ep.cpp
rename to 3rdparty/deep_ep/deep_ep.cpp
index d0196b2f44..0207e91353 100644
--- a/src/turbomind/comm/nccl/deep_ep/deep_ep.cpp
+++ b/3rdparty/deep_ep/deep_ep.cpp
@@ -1,4 +1,4 @@
-#include "src/turbomind/comm/nccl/deep_ep/deep_ep.hpp"
+#include "deep_ep.hpp"
 
 #include "kernels/api.cuh"
 #include "kernels/exception.cuh"
diff --git a/src/turbomind/comm/nccl/deep_ep/deep_ep.hpp b/3rdparty/deep_ep/deep_ep.hpp
similarity index 100%
rename from src/turbomind/comm/nccl/deep_ep/deep_ep.hpp
rename to 3rdparty/deep_ep/deep_ep.hpp
diff --git a/src/turbomind/comm/nccl/deep_ep/gin_backend.cu b/3rdparty/deep_ep/gin_backend.cu
similarity index 97%
rename from src/turbomind/comm/nccl/deep_ep/gin_backend.cu
rename to 3rdparty/deep_ep/gin_backend.cu
index d0a64da958..3ac3439043 100644
--- a/src/turbomind/comm/nccl/deep_ep/gin_backend.cu
+++ b/3rdparty/deep_ep/gin_backend.cu
@@ -1,7 +1,7 @@
-#include "src/turbomind/comm/nccl/deep_ep/gin_backend.h"
+#include "gin_backend.h"
 
-#include "src/turbomind/comm/nccl/deep_ep/kernels/configs.cuh"
-#include "src/turbomind/comm/nccl/deep_ep/kernels/exception.cuh"
+#include "kernels/configs.cuh"
+#include "kernels/exception.cuh"
 #include "src/turbomind/core/check.h"
 #include "src/turbomind/core/context.h"
 #include "src/turbomind/utils/logger.h"
diff --git a/src/turbomind/comm/nccl/deep_ep/gin_backend.h b/3rdparty/deep_ep/gin_backend.h
similarity index 100%
rename from src/turbomind/comm/nccl/deep_ep/gin_backend.h
rename to 3rdparty/deep_ep/gin_backend.h
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/api.cuh b/3rdparty/deep_ep/kernels/api.cuh
similarity index 100%
rename from src/turbomind/comm/nccl/deep_ep/kernels/api.cuh
rename to 3rdparty/deep_ep/kernels/api.cuh
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/buffer.cuh b/3rdparty/deep_ep/kernels/buffer.cuh
similarity index 100%
rename from src/turbomind/comm/nccl/deep_ep/kernels/buffer.cuh
rename to 3rdparty/deep_ep/kernels/buffer.cuh
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/configs.cuh b/3rdparty/deep_ep/kernels/configs.cuh
similarity index 100%
rename from src/turbomind/comm/nccl/deep_ep/kernels/configs.cuh
rename to 3rdparty/deep_ep/kernels/configs.cuh
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/exception.cuh b/3rdparty/deep_ep/kernels/exception.cuh
similarity index 100%
rename from src/turbomind/comm/nccl/deep_ep/kernels/exception.cuh
rename to 3rdparty/deep_ep/kernels/exception.cuh
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/internode.cu b/3rdparty/deep_ep/kernels/internode.cu
similarity index 99%
rename from src/turbomind/comm/nccl/deep_ep/kernels/internode.cu
rename to 3rdparty/deep_ep/kernels/internode.cu
index a8d842e9fd..e0f7f0b2f1 100644
--- a/src/turbomind/comm/nccl/deep_ep/kernels/internode.cu
+++ b/3rdparty/deep_ep/kernels/internode.cu
@@ -12,7 +12,7 @@
 #include "utils.cuh"
 
 #include <nccl_device/gin/gin_device_api.h>
-#include "src/turbomind/comm/nccl/deep_ep/gin_backend.h"
+#include "../gin_backend.h"
 
 
 using namespace cooperative_groups;
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/internode_ll.cu b/3rdparty/deep_ep/kernels/internode_ll.cu
similarity index 100%
rename from src/turbomind/comm/nccl/deep_ep/kernels/internode_ll.cu
rename to 3rdparty/deep_ep/kernels/internode_ll.cu
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/intranode.cu b/3rdparty/deep_ep/kernels/intranode.cu
similarity index 100%
rename from src/turbomind/comm/nccl/deep_ep/kernels/intranode.cu
rename to 3rdparty/deep_ep/kernels/intranode.cu
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/launch.cuh b/3rdparty/deep_ep/kernels/launch.cuh
similarity index 100%
rename from src/turbomind/comm/nccl/deep_ep/kernels/launch.cuh
rename to 3rdparty/deep_ep/kernels/launch.cuh
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/layout.cu b/3rdparty/deep_ep/kernels/layout.cu
similarity index 100%
rename from src/turbomind/comm/nccl/deep_ep/kernels/layout.cu
rename to 3rdparty/deep_ep/kernels/layout.cu
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/runtime.cu b/3rdparty/deep_ep/kernels/runtime.cu
similarity index 97%
rename from src/turbomind/comm/nccl/deep_ep/kernels/runtime.cu
rename to 3rdparty/deep_ep/kernels/runtime.cu
index 42b9789437..8511463078 100644
--- a/src/turbomind/comm/nccl/deep_ep/kernels/runtime.cu
+++ b/3rdparty/deep_ep/kernels/runtime.cu
@@ -1,10 +1,10 @@
 #include <cstring>
 #include <vector>
 
+#include "../gin_backend.h"
 #include "configs.cuh"
 #include "exception.cuh"
 #include "launch.cuh"
-#include "src/turbomind/comm/nccl/deep_ep/gin_backend.h"
 #include "src/turbomind/core/check.h"
 #include "utils.cuh"
 
diff --git a/src/turbomind/comm/nccl/deep_ep/kernels/utils.cuh b/3rdparty/deep_ep/kernels/utils.cuh
similarity index 100%
rename from src/turbomind/comm/nccl/deep_ep/kernels/utils.cuh
rename to 3rdparty/deep_ep/kernels/utils.cuh
diff --git a/src/turbomind/comm/nccl/CMakeLists.txt b/src/turbomind/comm/nccl/CMakeLists.txt
index 4eefb08683..a799fc7fa6 100644
--- a/src/turbomind/comm/nccl/CMakeLists.txt
+++ b/src/turbomind/comm/nccl/CMakeLists.txt
@@ -21,18 +21,27 @@ message(STATUS "Detected NCCL version: ${NCCL_VERSION_STRING}")
 
 if(NOT NCCL_VERSION_STRING VERSION_LESS "2.29.7")
   set(DEEP_EP_SOURCE_FILES
-      deep_ep/deep_ep.cpp
-      deep_ep/gin_backend.cu
-      deep_ep/kernels/runtime.cu
-      deep_ep/kernels/layout.cu
-      deep_ep/kernels/intranode.cu
-      deep_ep/kernels/internode.cu
-      deep_ep/kernels/internode_ll.cu
+      ${CMAKE_SOURCE_DIR}/3rdparty/deep_ep/deep_ep.cpp
+      ${CMAKE_SOURCE_DIR}/3rdparty/deep_ep/gin_backend.cu
+      ${CMAKE_SOURCE_DIR}/3rdparty/deep_ep/kernels/runtime.cu
+      ${CMAKE_SOURCE_DIR}/3rdparty/deep_ep/kernels/layout.cu
+      ${CMAKE_SOURCE_DIR}/3rdparty/deep_ep/kernels/intranode.cu
+      ${CMAKE_SOURCE_DIR}/3rdparty/deep_ep/kernels/internode.cu
+      ${CMAKE_SOURCE_DIR}/3rdparty/deep_ep/kernels/internode_ll.cu
       nccl_ep.cu)
 
+  set(DEEP_CUDA_ARCHITECTURES "")
+  foreach(CUDA_ARCHITECTURE ${CMAKE_CUDA_ARCHITECTURES})
+    if(CUDA_ARCHITECTURE MATCHES "^([0-9]+)")
+      if(CMAKE_MATCH_1 GREATER_EQUAL 90)
+        list(APPEND DEEP_CUDA_ARCHITECTURES ${CUDA_ARCHITECTURE})
+      endif()
+    endif()
+  endforeach()
+
   add_library(deepep STATIC ${DEEP_EP_SOURCE_FILES})
   target_link_libraries(deepep PRIVATE ${NCCL_LIBRARIES} CUDA::cudart)
-  set_property(TARGET deepep PROPERTY CUDA_ARCHITECTURES 90)
+  set_property(TARGET deepep PROPERTY CUDA_ARCHITECTURES "${DEEP_CUDA_ARCHITECTURES}")
   target_include_directories(deepep PRIVATE ${NCCL_INCLUDE_DIRS})
   set_property(TARGET deepep PROPERTY POSITION_INDEPENDENT_CODE ON)
   set_property(TARGET deepep PROPERTY CUDA_RESOLVE_DEVICE_SYMBOLS ON)
diff --git a/src/turbomind/comm/nccl/nccl.cu b/src/turbomind/comm/nccl/nccl.cu
index 0d6ddf93ef..3d2ac4481a 100644
--- a/src/turbomind/comm/nccl/nccl.cu
+++ b/src/turbomind/comm/nccl/nccl.cu
@@ -9,7 +9,7 @@
 #include <dlfcn.h>
 
 #if NCCL_VERSION_CODE >= NCCL_VERSION(2, 29, 7)
-#include "src/turbomind/comm/nccl/deep_ep/deep_ep.hpp"
+#include "3rdparty/deep_ep/deep_ep.hpp"
 #endif
 #include "src/turbomind/core/check.h"
 #include "src/turbomind/utils/cuda_utils.h"
diff --git a/src/turbomind/comm/nccl/nccl_ep.cu b/src/turbomind/comm/nccl/nccl_ep.cu
index 1f52701a24..1b87aa2e24 100644
--- a/src/turbomind/comm/nccl/nccl_ep.cu
+++ b/src/turbomind/comm/nccl/nccl_ep.cu
@@ -2,7 +2,7 @@
 
 #include "src/turbomind/comm/nccl/nccl_comm.h"
 
-#include "src/turbomind/comm/nccl/deep_ep/deep_ep.hpp"
+#include "3rdparty/deep_ep/deep_ep.hpp"
 #include "src/turbomind/core/allocator.h"
 #include "src/turbomind/core/check.h"
 #include "src/turbomind/kernels/gemm/moe_ep_utils.h"
diff --git a/src/turbomind/models/llama/moe_ffn_layer.cc b/src/turbomind/models/llama/moe_ffn_layer.cc
index b035f9b112..678c567fa5 100644
--- a/src/turbomind/models/llama/moe_ffn_layer.cc
+++ b/src/turbomind/models/llama/moe_ffn_layer.cc
@@ -165,7 +165,7 @@ void MoeFfnLayer::RouteTP(ForwardParam& p, Tensor_<float>& logits)
 
 void MoeFfnLayer::RouteEP(ForwardParam& p, Tensor_<float>& logits)
 {
-    TM_CHECK(ep_mode_ != comm::EpMode::kNull);
+    TM_CHECK(ep_mode_ == comm::EpMode::kNull);
 
     const int   tokens     = p.input.shape(0);
     const auto& moe        = *p.weights;

From 012cb0cf5d475c222556154580069ef203ac86ea Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Thu, 16 Apr 2026 03:31:33 +0000
Subject: [PATCH 09/21] fix fp8 model with bf16 dispatch

---
 src/turbomind/kernels/gemm/moe_utils_v2.cu   | 14 +++++++-------
 src/turbomind/kernels/gemm/moe_utils_v2.h    |  4 ++--
 src/turbomind/kernels/gemm/test/testbed_v3.h |  2 +-
 src/turbomind/models/llama/LlamaLinear.cu    | 12 +++++++-----
 src/turbomind/models/llama/moe_ffn_layer.cc  |  2 +-
 5 files changed, 18 insertions(+), 16 deletions(-)

diff --git a/src/turbomind/kernels/gemm/moe_utils_v2.cu b/src/turbomind/kernels/gemm/moe_utils_v2.cu
index 46e7ba6045..175aa0ffa0 100644
--- a/src/turbomind/kernels/gemm/moe_utils_v2.cu
+++ b/src/turbomind/kernels/gemm/moe_utils_v2.cu
@@ -897,16 +897,16 @@ __global__ void MoeGatherKernel(T*         dst,  // [e*n, d]
     }
 }
 
-void invokeMoeDispatch(Ref<Tensor> out_, const Tensor& src, const int* f2n, int expert_per_token, cudaStream_t st)
+void invokeMoeDispatch(Ref<Tensor> out_, const Tensor& src, const int* f2n, int num_expert_tokens, cudaStream_t st)
 {
     auto& out    = out_.get();
     auto  invoke = [&](auto t) {
         using T                = decltype(t);
-        auto [num, dim]        = src.shapes(0, 1);
+        const int dim          = src.shape(1);
         constexpr int threads  = 256;
         constexpr int vec_size = 16 / sizeof(T);
-        // std::cout << num * expert_per_token << " " << dim << "\n";
-        MoeGatherKernel<vec_size, threads><<<num * expert_per_token, threads, 0, st>>>(  //
+        TM_CHECK_EQ(out.shape(0), num_expert_tokens);
+        MoeGatherKernel<vec_size, threads><<<num_expert_tokens, threads, 0, st>>>(  //
             (T*)out.raw_data(),
             (const T*)src.raw_data(),
             f2n,
@@ -964,14 +964,14 @@ MoeDispatchScalesNonaligned(T* dst, const T* src, int dst_stride, int src_stride
     }
 }
 
-void invokeMoeDispatchScales(Ref<Tensor> out_, const Tensor& src, const int* f2n, int expert_per_token, cudaStream_t st)
+void invokeMoeDispatchScales(Ref<Tensor> out_, const Tensor& src, const int* f2n, int num_expert_tokens, cudaStream_t st)
 {
     using T                 = float;
     constexpr int alignment = 16 / sizeof(T);
 
-    auto [dim, num] = src.shapes(0, 1);
+    const int dim = src.shape(0);
 
-    const int size         = num * expert_per_token;
+    const int size         = num_expert_tokens;
     const int aligned_size = round_up<int>(size, alignment);
 
     auto& out = out_.get();
diff --git a/src/turbomind/kernels/gemm/moe_utils_v2.h b/src/turbomind/kernels/gemm/moe_utils_v2.h
index eccfd560d3..7e011fdab1 100644
--- a/src/turbomind/kernels/gemm/moe_utils_v2.h
+++ b/src/turbomind/kernels/gemm/moe_utils_v2.h
@@ -32,13 +32,13 @@ void invokeMoeGate_V2(int*         f2n,
 void invokeMoeDispatch(Ref<Tensor>   out_,  //
                        const Tensor& src,
                        const int*    f2n,
-                       int           expert_per_token,
+                       int           num_expert_tokens,
                        cudaStream_t  st);
 
 void invokeMoeDispatchScales(Ref<Tensor>   out_,  //
                              const Tensor& src,
                              const int*    f2n,
-                             int           expert_per_token,
+                             int           num_expert_tokens,
                              cudaStream_t  st);
 
 void invokeMoeCombine(Ref<Tensor>   out_,
diff --git a/src/turbomind/kernels/gemm/test/testbed_v3.h b/src/turbomind/kernels/gemm/test/testbed_v3.h
index f1df7456d5..c82084d497 100644
--- a/src/turbomind/kernels/gemm/test/testbed_v3.h
+++ b/src/turbomind/kernels/gemm/test/testbed_v3.h
@@ -316,7 +316,7 @@ struct Testbed_v3: Parameter {
         Tensor xe{{x.shape(0) * experts_per_token, input_dim}, data_type, kDEVICE};
         Tensor de{{x.shape(0) * experts_per_token, output_dim}, data_type, kDEVICE};
 
-        invokeMoeDispatch(xe, x, f2n_.data(), experts_per_token, stream_);
+        invokeMoeDispatch(xe, x, f2n_.data(), xe.shape(0), stream_);
 
         for (int i = 0; i < expert_num; ++i) {
             const int base = h_offsets_[i], size = h_offsets_[i + 1] - base;
diff --git a/src/turbomind/models/llama/LlamaLinear.cu b/src/turbomind/models/llama/LlamaLinear.cu
index ab0908546a..4d1fe42a3c 100644
--- a/src/turbomind/models/llama/LlamaLinear.cu
+++ b/src/turbomind/models/llama/LlamaLinear.cu
@@ -82,13 +82,15 @@ struct LlamaLinear::Impl {
         }
 
         if (indices && A.dtype() == kFloat8_e4m3) {
-            const auto [bsz, k] = A.shapes(0, 1);
-            const int e         = indices.size() / bsz;
-            Tensor    A_e       = {{m, k}, A.dtype(), kDEVICE};
-            invokeMoeDispatch(A_e, A, indices.data(), e, st);
+            const int k   = A.shape(1);
+            const int m   = indices.size();
+            Tensor    A_e = {{m, k}, A.dtype(), kDEVICE};
+            // EP can route a token to a variable number of local experts, so the
+            // gathered fp8 rows must be driven by the exact mapping size.
+            invokeMoeDispatch(A_e, A, indices.data(), m, st);
             sync_check_cuda_error();
             Tensor U_e;
-            invokeMoeDispatchScales(U_e, U, indices.data(), e, st);
+            invokeMoeDispatchScales(U_e, U, indices.data(), m, st);
             sync_check_cuda_error();
             A       = A_e;
             U       = U_e;
diff --git a/src/turbomind/models/llama/moe_ffn_layer.cc b/src/turbomind/models/llama/moe_ffn_layer.cc
index 678c567fa5..dde4831179 100644
--- a/src/turbomind/models/llama/moe_ffn_layer.cc
+++ b/src/turbomind/models/llama/moe_ffn_layer.cc
@@ -287,7 +287,7 @@ void MoeFfnLayer::ForwardNative(ForwardParam& p)
     const int   tokens           = input_.shape(0);
     const int   local_expert_num = moe.experts.size();
 
-    invokeMoeDispatch(temp_, input_, f2n_.data(), param_.experts_per_token, st);
+    invokeMoeDispatch(temp_, input_, f2n_.data(), temp_.shape(0), st);
     sync_check_cuda_error();
 
     check_cuda_error(cudaMemcpyAsync(

From 73ba5b893084c9e7ed6530e681915cfa7e79a20f Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Thu, 16 Apr 2026 04:15:55 +0000
Subject: [PATCH 10/21] use fp8 dispatch for ht kernels

---
 src/turbomind/comm/device_comm.h            |  3 ++
 src/turbomind/comm/nccl/nccl_ep.cu          | 52 +++++++++++++++++++--
 src/turbomind/kernels/quantization.cu       |  6 +++
 src/turbomind/models/llama/LlamaLinear.cu   | 33 +++++++++++--
 src/turbomind/models/llama/LlamaLinear.h    |  7 +++
 src/turbomind/models/llama/moe_ffn_layer.cc | 20 ++++++--
 6 files changed, 106 insertions(+), 15 deletions(-)

diff --git a/src/turbomind/comm/device_comm.h b/src/turbomind/comm/device_comm.h
index cf0ba9ef56..23b7ad3bbe 100644
--- a/src/turbomind/comm/device_comm.h
+++ b/src/turbomind/comm/device_comm.h
@@ -33,10 +33,13 @@ struct EpDispatchInput {
     core::Tensor&           x;
     core::Tensor_<float>&   topk_weights;
     core::Tensor_<int64_t>& topk_idx;
+    bool                    use_fp8;
+    bool                    output_scales;
 };
 
 struct EpDispatchOutput {
     core::Tensor        out_x;
+    core::Tensor        out_x_scales;
     core::Tensor        out_topk_weights;
     core::Buffer_<int>& f2n;
     core::Buffer_<int>& f2E;
diff --git a/src/turbomind/comm/nccl/nccl_ep.cu b/src/turbomind/comm/nccl/nccl_ep.cu
index 1b87aa2e24..637b29973b 100644
--- a/src/turbomind/comm/nccl/nccl_ep.cu
+++ b/src/turbomind/comm/nccl/nccl_ep.cu
@@ -6,6 +6,8 @@
 #include "src/turbomind/core/allocator.h"
 #include "src/turbomind/core/check.h"
 #include "src/turbomind/kernels/gemm/moe_ep_utils.h"
+#include "src/turbomind/kernels/gpt_kernels.h"
+#include "src/turbomind/kernels/quantization.h"
 #include "src/turbomind/utils/cuda_utils.h"
 
 #include <cub/device/device_scan.cuh>
@@ -112,11 +114,33 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
         sync_check_cuda_error();
 
         auto Postprocess = [&](Tensor&                 recv_x,
+                               std::optional<Tensor>&  recv_x_scales,
                                Tensor&                 recv_topk_weights,
                                Tensor&                 recv_topk_idx,
                                const std::vector<int>& num_recv_tokens_per_expert_list,
                                Tensor&                 num_recv_tokens_per_expert) {
-            output.out_x            = recv_x;
+            if (input.use_fp8) {
+                auto&  scales_t = recv_x_scales.value();
+                Tensor x_scales = Tensor{{scales_t.shape(1), scales_t.shape(0)}, scales_t.dtype(), scales_t.device()};
+                if (scales_t.shape(0) > 0) {
+                    invokeTransposeAxis01(x_scales.data<float>(),
+                                          scales_t.data<float>(),
+                                          scales_t.shape(0),
+                                          scales_t.shape(1),
+                                          1,
+                                          core::Context::stream().handle());
+                }
+                if (input.output_scales) {
+                    output.out_x        = recv_x;
+                    output.out_x_scales = x_scales;
+                }
+                else {
+                    DequantizeSymm(output.out_x, recv_x, x_scales, core::Context::stream().handle());
+                }
+            }
+            else {
+                output.out_x = recv_x;
+            }
             output.out_topk_weights = recv_topk_weights;
             output.out_token_num    = recv_x.shape(0);
             output.out_expert_token_num =
@@ -159,6 +183,14 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
 
         if (buffer_->get_num_rdma_ranks() > 1) {
             // internode dispatch
+            Tensor                x = input.x;
+            std::optional<Tensor> x_scales;
+            if (input.use_fp8) {
+                x        = {};
+                x_scales = Tensor{};
+                QuantizeSymm(x, x_scales.value(), input.x, core::Context::stream().handle());
+                x_scales = x_scales->transpose(0, 1);
+            }
             auto config          = buffer_->get_dispatch_config();
             auto [recv_x,
                   recv_x_scales,
@@ -174,8 +206,8 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                   recv_gbl_rank_prefix_sum,
                   recv_src_meta,
                   send_rdma_head,
-                  send_nvl_head] = buffer_->internode_dispatch(input.x,
-                                                               std::nullopt,
+                  send_nvl_head] = buffer_->internode_dispatch(x,
+                                                               x_scales,
                                                                input.topk_idx,
                                                                input.topk_weights,
                                                                num_tokens_per_rank,
@@ -206,6 +238,7 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                              send_nvl_head.value()};
 
             Postprocess(recv_x,  //
+                        recv_x_scales,
                         recv_topk_weights.value(),
                         recv_topk_idx.value(),
                         num_recv_tokens_per_expert_list,
@@ -213,6 +246,14 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
         }
         else {
             // intranode dispatch
+            Tensor                x = input.x;
+            std::optional<Tensor> x_scales;
+            if (input.use_fp8) {
+                x        = {};
+                x_scales = Tensor{};
+                QuantizeSymm(x, x_scales.value(), input.x, core::Context::stream().handle());
+                x_scales = x_scales->transpose(0, 1);
+            }
             auto config      = buffer_->get_dispatch_config();
             auto [recv_x,
                   recv_x_scales,
@@ -224,8 +265,8 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                   channel_prefix_matrix,
                   recv_channel_prefix_matrix,
                   recv_src_idx,
-                  send_head] = buffer_->intranode_dispatch(input.x,
-                                                           std::nullopt,
+                  send_head] = buffer_->intranode_dispatch(x,
+                                                           x_scales,
                                                            input.topk_idx,
                                                            input.topk_weights,
                                                            num_tokens_per_rank,
@@ -248,6 +289,7 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                              send_head};
 
             Postprocess(recv_x,  //
+                        recv_x_scales,
                         recv_topk_weights.value(),
                         recv_topk_idx.value(),
                         num_recv_tokens_per_expert_list,
diff --git a/src/turbomind/kernels/quantization.cu b/src/turbomind/kernels/quantization.cu
index 7899226f33..f7deea9460 100644
--- a/src/turbomind/kernels/quantization.cu
+++ b/src/turbomind/kernels/quantization.cu
@@ -98,6 +98,9 @@ void QuantizeSymm(Tensor& out, Tensor& scale, const Tensor& src, cudaStream_t st
     }
 
     constexpr int block_dim = 512;
+    if (num == 0) {
+        return;
+    }
 
     quant_symm_row<vec_size, group_size><<<num, block_dim, 0, st>>>(out.data<Tout>(),  //
                                                                     out.stride(0),
@@ -151,6 +154,9 @@ void DequantizeSymm(Tensor& out, const Tensor& src, const Tensor& scale, cudaStr
     constexpr int vec_size   = 8;
 
     constexpr int block_dim = 512;
+    if (num == 0) {
+        return;
+    }
 
     dequant_symm_row<vec_size, group_size, Tout, Tscale, T><<<num, block_dim, 0, st>>>(out.data<Tout>(),  //
                                                                                        out.stride(0),
diff --git a/src/turbomind/models/llama/LlamaLinear.cu b/src/turbomind/models/llama/LlamaLinear.cu
index 4d1fe42a3c..6462ebe8ca 100644
--- a/src/turbomind/models/llama/LlamaLinear.cu
+++ b/src/turbomind/models/llama/LlamaLinear.cu
@@ -62,8 +62,11 @@ struct LlamaLinear::Impl {
         return {B, desc_B, V, desc_V};
     }
 
-    std::tuple<Tensor, MatrixLayout, Tensor, MatrixLayout>
-    GetOperandA(const LlamaDenseWeight& dense, const Tensor& input, Buffer_<int> indices, const Buffer_<int>& offsets)
+    std::tuple<Tensor, MatrixLayout, Tensor, MatrixLayout> GetOperandA(const LlamaDenseWeight& dense,
+                                                                       const Tensor&           input,
+                                                                       const Tensor&           input_scales,
+                                                                       Buffer_<int>            indices,
+                                                                       const Buffer_<int>&     offsets)
     {
         auto st = core::Context::stream().handle();
 
@@ -73,7 +76,11 @@ struct LlamaLinear::Impl {
         const int m = indices ? indices.size() : input.shape(0);
 
         // Currently, FP8 only; INT8 may be added later
-        if (input.dtype() != dense.input_type) {
+        if (input.dtype() == kFloat8_e4m3 && input.dtype() == dense.input_type) {
+            A = input;
+            U = input_scales;
+        }
+        else if (input.dtype() != dense.input_type) {
             QuantizeSymm(A, U, input, st);
             sync_check_cuda_error();
         }
@@ -115,6 +122,7 @@ struct LlamaLinear::Impl {
 
     void Forward(Tensor&                 output,
                  const Tensor&           input,  //
+                 const Tensor&           scales,
                  const LlamaDenseWeight& dense,
                  const Buffer_<int>&     indices,
                  const Buffer_<int>&     offsets)
@@ -128,7 +136,7 @@ struct LlamaLinear::Impl {
         op.quant_b   = dense.weight_quant;
         op.batch_dim = 0;
 
-        auto&& [A, desc_A, U, desc_U] = GetOperandA(dense, input, indices, offsets);
+        auto&& [A, desc_A, U, desc_U] = GetOperandA(dense, input, scales, indices, offsets);
         auto&& [B, desc_B, V, desc_V] = GetOperandB(dense);
 
         Tensor& D = output;
@@ -195,15 +203,30 @@ Tensor LlamaLinear::Forward(const Tensor&           input,  //
                             const Buffer_<int>&     indices,
                             const Buffer_<int>&     offsets,
                             std::optional<Tensor>   output)
+{
+    return Forward(input, {}, weight, indices, offsets, output);
+}
+
+Tensor LlamaLinear::Forward(const Tensor&                input,
+                            const std::optional<Tensor>& scales,
+                            const LlamaDenseWeight&      weight,
+                            const Buffer_<int>&          indices,
+                            const Buffer_<int>&          offsets,
+                            std::optional<Tensor>        output)
 {
     Tensor in = input.view({-1, input.shape(-1)});
+    Tensor in_scales;
     Tensor out;
 
     if (output) {
         out = output->view({-1, output->shape(-1)});
     }
 
-    impl_->Forward(out, in, weight, indices, offsets);
+    if (scales) {
+        in_scales = scales.value();
+    }
+
+    impl_->Forward(out, in, in_scales, weight, indices, offsets);
 
     return out;
 }
diff --git a/src/turbomind/models/llama/LlamaLinear.h b/src/turbomind/models/llama/LlamaLinear.h
index 8c4037b48e..d0985d1ab0 100644
--- a/src/turbomind/models/llama/LlamaLinear.h
+++ b/src/turbomind/models/llama/LlamaLinear.h
@@ -24,6 +24,13 @@ class LlamaLinear {
                    const Buffer_<int>&     offsets,
                    std::optional<Tensor>   output = {});
 
+    Tensor Forward(const Tensor&                input,
+                   const std::optional<Tensor>& scales,
+                   const LlamaDenseWeight&      weight,
+                   const Buffer_<int>&          indices,
+                   const Buffer_<int>&          offsets,
+                   std::optional<Tensor>        output = {});
+
     void set_measure(bool measure);
 
     [[maybe_unused]] int Export(std::ostream& os);
diff --git a/src/turbomind/models/llama/moe_ffn_layer.cc b/src/turbomind/models/llama/moe_ffn_layer.cc
index dde4831179..ed5075c13a 100644
--- a/src/turbomind/models/llama/moe_ffn_layer.cc
+++ b/src/turbomind/models/llama/moe_ffn_layer.cc
@@ -198,8 +198,14 @@ void MoeFfnLayer::RouteEP(ForwardParam& p, Tensor_<float>& logits)
 
     ep_mode_ = p.max_tokens_per_rank <= param_.ll_max_tokens_per_rank ? comm::EpMode::kLowLatency :
                                                                         comm::EpMode::kHighThroughput;
-    comm::EpDispatchInput  dispatch_input{ep_mode_, p.input, topk_weights, topk_idx};
-    comm::EpDispatchOutput dispatch_output{{}, {}, f2n_, f2E_, en2f_, offsets_, {}};
+
+    auto       input_type = p.weights->block.fused_gating_intermediate.input_type;
+    const bool use_fp8 =
+        ep_mode_ == comm::EpMode::kHighThroughput && (input_type == kFloat8_e4m3 || input_type == kBfloat16);
+    const bool output_scales = use_fp8 && input_type == kFloat8_e4m3;
+
+    comm::EpDispatchInput  dispatch_input{ep_mode_, p.input, topk_weights, topk_idx, use_fp8, output_scales};
+    comm::EpDispatchOutput dispatch_output{{}, {}, {}, f2n_, f2E_, en2f_, offsets_, {}};
     d_comm_->Dispatch(dispatch_input, dispatch_output, 0);
     sync_check_cuda_error();
 
@@ -320,7 +326,8 @@ void MoeFfnLayer::ForwardFused(ForwardParam& p)
     auto indices = f2n_.slice(0, temp_.shape(0));
     auto offsets = offsets_.slice(0, local_expert_num + 1);
 
-    Tensor inter = linear_.Forward(input_, block.fused_gating_intermediate, indices, offsets);
+    Tensor scales = dispatch_output_ ? dispatch_output_->out_x_scales : Tensor{};  // the ep dispatched scales
+    Tensor inter  = linear_.Forward(input_, scales, block.fused_gating_intermediate, indices, offsets);
     sync_check_cuda_error();
 
     if (!block.is_fused_silu) {
@@ -373,8 +380,11 @@ void MoeFfnLayer::CombineEP(ForwardParam& p)
     TM_CHECK(ep_mode_ != comm::EpMode::kNull);
     auto st = core::Context::stream().handle();
     // Local reduce
+    Tensor input = (input_.dtype() == kFloat8_e4m3 && ep_mode_ == comm::EpMode::kHighThroughput) ?
+                       Tensor{input_.layout(), temp_.dtype(), kDEVICE} :
+                       input_;
     if (ep_mode_ == comm::EpMode::kHighThroughput) {
-        invokeMoeLocalCombineEp(input_,
+        invokeMoeLocalCombineEp(input,
                                 temp_,
                                 p.weights->block.output.bias,
                                 dispatch_output_->out_topk_weights.data_or((float*)nullptr),
@@ -389,7 +399,7 @@ void MoeFfnLayer::CombineEP(ForwardParam& p)
     sync_check_cuda_error();
 
     // Moe Reduce
-    comm::EpCombineInput  combine_input{ep_mode_, input_, dispatch_output_->handle};
+    comm::EpCombineInput  combine_input{ep_mode_, input, dispatch_output_->handle};
     comm::EpCombineOutput combine_output{};
     if (ep_mode_ == comm::EpMode::kLowLatency) {
         combine_input.x            = temp_;

From 17dc75546ff7e14f713b1f6d28727097ec12ca0f Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Thu, 16 Apr 2026 18:01:09 +0000
Subject: [PATCH 11/21] update ll-combine-kernel to use dense input x

---
 3rdparty/deep_ep/deep_ep.cpp               | 16 ++++----
 3rdparty/deep_ep/deep_ep.hpp               |  1 +
 3rdparty/deep_ep/kernels/api.cuh           |  1 +
 3rdparty/deep_ep/kernels/internode_ll.cu   |  5 ++-
 src/turbomind/comm/nccl/nccl_ep.cu         | 17 +++-----
 src/turbomind/kernels/gemm/moe_ep_utils.cu | 48 ----------------------
 src/turbomind/kernels/gemm/moe_ep_utils.h  |  2 -
 src/turbomind/turbomind.cc                 |  2 +-
 8 files changed, 21 insertions(+), 71 deletions(-)

diff --git a/3rdparty/deep_ep/deep_ep.cpp b/3rdparty/deep_ep/deep_ep.cpp
index 0207e91353..9e32fd8fa8 100644
--- a/3rdparty/deep_ep/deep_ep.cpp
+++ b/3rdparty/deep_ep/deep_ep.cpp
@@ -969,6 +969,7 @@ Buffer::low_latency_dispatch(const Tensor&                x,
 
 std::tuple<Tensor>  //
 Buffer::low_latency_combine(const Tensor&                x,
+                            const Tensor&                expert_offsets,
                             const Tensor&                topk_idx,
                             const Tensor&                topk_weights,
                             const Tensor&                src_info,
@@ -983,10 +984,10 @@ Buffer::low_latency_combine(const Tensor&                x,
     EP_HOST_ASSERT(low_latency_mode);
 
     // Tensor checks
-    EP_HOST_ASSERT(x.ndim() == 3 and x.is_contiguous() and x.dtype() == turbomind::kBfloat16);
-    EP_HOST_ASSERT(x.shape(0) == num_experts / num_ranks);
-    EP_HOST_ASSERT(x.shape(1) == num_ranks * num_max_dispatch_tokens_per_rank);
-    EP_HOST_ASSERT(x.shape(2) % sizeof(int4) == 0 and x.shape(2) % 128 == 0);
+    EP_HOST_ASSERT(x.ndim() == 2 and x.is_contiguous() and x.dtype() == turbomind::kBfloat16);
+    EP_HOST_ASSERT(x.shape(1) % sizeof(int4) == 0 and x.shape(1) % 128 == 0);
+    EP_HOST_ASSERT(expert_offsets.is_contiguous() and expert_offsets.dtype() == turbomind::kInt32);
+    EP_HOST_ASSERT(expert_offsets.shape(0) == num_experts / num_ranks + 1);
     EP_HOST_ASSERT(topk_idx.ndim() == 2 and topk_idx.is_contiguous());
     EP_HOST_ASSERT(topk_idx.shape(0) == topk_weights.shape(0) and topk_idx.shape(1) == topk_weights.shape(1));
     EP_HOST_ASSERT(topk_idx.dtype() == turbomind::kInt64);
@@ -994,7 +995,7 @@ Buffer::low_latency_combine(const Tensor&                x,
     EP_HOST_ASSERT(topk_weights.shape(0) <= num_max_dispatch_tokens_per_rank);
     EP_HOST_ASSERT(topk_weights.dtype() == turbomind::kFloat32);
     EP_HOST_ASSERT(src_info.ndim() == 2 and src_info.is_contiguous());
-    EP_HOST_ASSERT(src_info.dtype() == turbomind::kInt32 and x.shape(0) == src_info.shape(0));
+    EP_HOST_ASSERT(src_info.dtype() == turbomind::kInt32 /*and x.shape(0) == src_info.shape(0)*/);
     EP_HOST_ASSERT(layout_range.ndim() == 2 and layout_range.is_contiguous());
     EP_HOST_ASSERT(layout_range.dtype() == turbomind::kInt64);
     EP_HOST_ASSERT(layout_range.shape(0) == num_experts / num_ranks and layout_range.shape(1) == num_ranks);
@@ -1006,7 +1007,7 @@ Buffer::low_latency_combine(const Tensor&                x,
     //     EP_HOST_ASSERT(combine_wait_recv_cost_stats->shape(0) == num_ranks);
     // }
 
-    auto hidden              = static_cast<int>(x.shape(2));
+    auto hidden              = static_cast<int>(x.shape(1));
     auto num_topk            = static_cast<int>(topk_weights.shape(1));
     auto num_combined_tokens = static_cast<int>(topk_weights.shape(0));
 
@@ -1043,7 +1044,8 @@ Buffer::low_latency_combine(const Tensor&                x,
         reinterpret_cast<size_t>(buffer.combine_rdma_recv_data_buffer) - reinterpret_cast<size_t>(rdma_ll_buffer_ptr),
         reinterpret_cast<size_t>(buffer.combine_rdma_recv_flag_buffer) - reinterpret_cast<size_t>(rdma_ll_buffer_ptr),
         reinterpret_cast<size_t>(buffer.combine_rdma_send_buffer) - reinterpret_cast<size_t>(rdma_ll_buffer_ptr),
-        x.raw_data(),
+        x.data_or((void*)nullptr),
+        expert_offsets.data<int>(),
         topk_idx.data_or((topk_idx_t*)nullptr),
         topk_weights.data_or((float*)nullptr),
         src_info.data<int>(),
diff --git a/3rdparty/deep_ep/deep_ep.hpp b/3rdparty/deep_ep/deep_ep.hpp
index 8f3a221b1b..d26de84d92 100644
--- a/3rdparty/deep_ep/deep_ep.hpp
+++ b/3rdparty/deep_ep/deep_ep.hpp
@@ -206,6 +206,7 @@ class Buffer {
 
     std::tuple<Tensor>  //
     low_latency_combine(const Tensor&                x,
+                        const Tensor&                expert_offsets,
                         const Tensor&                topk_idx,
                         const Tensor&                topk_weights,
                         const Tensor&                src_info,
diff --git a/3rdparty/deep_ep/kernels/api.cuh b/3rdparty/deep_ep/kernels/api.cuh
index 282aa8480d..2deccb5be2 100644
--- a/3rdparty/deep_ep/kernels/api.cuh
+++ b/3rdparty/deep_ep/kernels/api.cuh
@@ -357,6 +357,7 @@ void combine(void*             combined_x,
              size_t            rdma_recv_flag_offset,
              size_t            rdma_send_x_offset,
              const void*       x,
+             const int*        expert_offsets,
              const topk_idx_t* topk_idx,
              const float*      topk_weights,
              const int*        src_info,
diff --git a/3rdparty/deep_ep/kernels/internode_ll.cu b/3rdparty/deep_ep/kernels/internode_ll.cu
index bd1209f61b..36a7a2c08a 100644
--- a/3rdparty/deep_ep/kernels/internode_ll.cu
+++ b/3rdparty/deep_ep/kernels/internode_ll.cu
@@ -730,6 +730,7 @@ __global__ __launch_bounds__(1024, 1) void combine(void* combined_x,
                                                    size_t rdma_recv_flag_offset,
                                                    size_t rdma_send_x_offset,
                                                    const void* x,
+                                                   const int* expert_offsets,
                                                    const topk_idx_t* topk_idx,
                                                    const float* topk_weights,
                                                    const int* src_info,
@@ -809,7 +810,7 @@ __global__ __launch_bounds__(1024, 1) void combine(void* combined_x,
         const auto global_expert_idx = rank * num_local_experts + local_expert_idx;
         const auto layout = __ldg(layout_range + local_expert_idx * num_ranks + dst_rank);
         const auto local_x =
-            static_cast<const int4*>(x) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * hidden_bf16_int4;
+            static_cast<const int4*>(x) + __ldg(expert_offsets + local_expert_idx) * hidden_bf16_int4;
         const auto local_src_info = src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
         const auto rdma_send_x_vec =
             static_cast<uint8_t*>(rdma_send_x) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_slot;
@@ -1225,6 +1226,7 @@ void combine(void*             combined_x,
              size_t            rdma_recv_flag_offset,
              size_t            rdma_send_x_offset,
              const void*       x,
+             const int*        expert_offsets,
              const topk_idx_t* topk_idx,
              const float*      topk_weights,
              const int*        src_info,
@@ -1300,6 +1302,7 @@ void combine(void*             combined_x,
                       rdma_recv_flag_offset,                                                                           \
                       rdma_send_x_offset,                                                                              \
                       x,                                                                                               \
+                      expert_offsets,                                                                                  \
                       topk_idx,                                                                                        \
                       topk_weights,                                                                                    \
                       src_info,                                                                                        \
diff --git a/src/turbomind/comm/nccl/nccl_ep.cu b/src/turbomind/comm/nccl/nccl_ep.cu
index 637b29973b..509fc3c2b6 100644
--- a/src/turbomind/comm/nccl/nccl_ep.cu
+++ b/src/turbomind/comm/nccl/nccl_ep.cu
@@ -304,19 +304,12 @@ void NcclCommImpl::Combine(const EpCombineInput& input, EpCombineOutput& output,
     TM_CHECK(input.mode != EpMode::kNull);
 
     if (input.mode == EpMode::kLowLatency) {
-        const int   num_local_experts = ep_config_.num_experts / h_comm_->n_ranks();
-        const auto& offsets           = input.handle[2];
-        const int   num_max_tokens    = ep_config_.ll_max_tokens_per_rank * h_comm_->n_ranks();
-        auto        sparse_x = Tensor({num_local_experts, num_max_tokens, ep_config_.hidden}, input.x.dtype(), kDEVICE);
+        const auto& offsets                  = input.handle[2];
+        auto&       packed_recv_src_info     = input.handle[0];
+        auto&       packed_recv_layout_range = input.handle[1];
 
-        // convert dense input to sparse
-        auto st = core::Context::stream().handle();
-        invokeMoeLLCombinePreprocess(sparse_x, input.x, offsets.data<int>(), st);
-        sync_check_cuda_error();
-
-        auto& packed_recv_src_info     = input.handle[0];
-        auto& packed_recv_layout_range = input.handle[1];
-        auto [combined_x]              = buffer_->low_latency_combine(sparse_x,
+        auto [combined_x] = buffer_->low_latency_combine(input.x,
+                                                         offsets,
                                                          input.topk_idx.value(),
                                                          input.topk_weights.value(),
                                                          packed_recv_src_info,
diff --git a/src/turbomind/kernels/gemm/moe_ep_utils.cu b/src/turbomind/kernels/gemm/moe_ep_utils.cu
index 6b02356d47..eb59644b6f 100644
--- a/src/turbomind/kernels/gemm/moe_ep_utils.cu
+++ b/src/turbomind/kernels/gemm/moe_ep_utils.cu
@@ -650,52 +650,4 @@ void invokeMoeLLDispatchPostprocess(Tensor&       out,  //
     }
 }
 
-__global__ void MoeLLCombinePreprocessKernel(int4* out,
-                                             const int4* __restrict__ x,
-                                             int hidden_int4,
-                                             const int* __restrict__ offsets,
-                                             int num_max_tokens,
-                                             int num_local_experts)
-{
-    int row = blockIdx.x;
-
-    int lo = 0;
-    int hi = num_local_experts;
-    while (lo + 1 < hi) {
-        const int mid = (lo + hi) >> 1;
-        if (offsets[mid] <= row) {
-            lo = mid;
-        }
-        else {
-            hi = mid;
-        }
-    }
-
-    const int   dst_row = row - offsets[lo];
-    const int4* src     = x + row * hidden_int4;
-    int4*       dst     = out + (lo * num_max_tokens + dst_row) * hidden_int4;
-    for (int i = threadIdx.x; i < hidden_int4; i += blockDim.x) {
-        __stcg(dst + i, __ldcg(src + i));
-    }
-}
-
-void invokeMoeLLCombinePreprocess(Tensor& out, const Tensor& src, const int* offsets, cudaStream_t st)
-{
-    const int tokens = src.shape(0);
-    if (tokens == 0) {
-        return;
-    }
-
-    const int num_max_tokens    = out.shape(1);
-    const int num_local_experts = out.shape(0);
-    const int hidden            = src.shape(1);
-
-    TM_CHECK_EQ(hidden * byte_size(src.dtype()) % sizeof(int4), 0LL);
-    const int hidden_int4 = hidden * byte_size(src.dtype()) / sizeof(int4);
-
-    const int threads = 256;
-    MoeLLCombinePreprocessKernel<<<tokens, threads, 0, st>>>(
-        (int4*)out.raw_data(), (const int4*)src.raw_data(), hidden_int4, offsets, num_max_tokens, num_local_experts);
-}
-
 }  // namespace turbomind
diff --git a/src/turbomind/kernels/gemm/moe_ep_utils.h b/src/turbomind/kernels/gemm/moe_ep_utils.h
index 7d5a546a2a..b1e715b751 100644
--- a/src/turbomind/kernels/gemm/moe_ep_utils.h
+++ b/src/turbomind/kernels/gemm/moe_ep_utils.h
@@ -58,6 +58,4 @@ void invokeMoeLLDispatchPostprocess(Tensor&       out,
                                     Tensor&       packed_recv_x,
                                     cudaStream_t  st);
 
-void invokeMoeLLCombinePreprocess(Tensor& out, const Tensor& src, const int* offsets, cudaStream_t st);
-
 }  // namespace turbomind
diff --git a/src/turbomind/turbomind.cc b/src/turbomind/turbomind.cc
index e7672cc22c..548b641b66 100644
--- a/src/turbomind/turbomind.cc
+++ b/src/turbomind/turbomind.cc
@@ -495,7 +495,7 @@ TurboMind::Impl::Impl(string model_dir, string config, FFICtxFactory ffi_ctx_fac
     for (auto it = expert_num.begin(); it != expert_num.end(); ++it) {
         moe_param_.expert_num.push_back(it->as<int>());
     }
-    moe_param_.ll_max_tokens_per_rank = model["ll_max_tokens_per_rank"].as<int>(-1);  // -1 means not use low latency
+    moe_param_.ll_max_tokens_per_rank = model["ll_max_tokens_per_rank"].as<int>(128);  // -1 means not use low latency
 
     HandleMissingParams();
 

From 50e46ed0d9f14ed62554ff1621f8c755b08adb36 Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Fri, 17 Apr 2026 03:23:56 +0000
Subject: [PATCH 12/21] remove the layout transformation in
 ll-dispatch-postprocess

---
 src/turbomind/comm/nccl/nccl_ep.cu          | 10 ++--
 src/turbomind/kernels/gemm/moe_ep_utils.cu  | 55 +++------------------
 src/turbomind/kernels/gemm/moe_ep_utils.h   |  5 +-
 src/turbomind/models/llama/moe_ffn_layer.cc |  4 +-
 4 files changed, 18 insertions(+), 56 deletions(-)

diff --git a/src/turbomind/comm/nccl/nccl_ep.cu b/src/turbomind/comm/nccl/nccl_ep.cu
index 509fc3c2b6..a8427f7f4e 100644
--- a/src/turbomind/comm/nccl/nccl_ep.cu
+++ b/src/turbomind/comm/nccl/nccl_ep.cu
@@ -93,9 +93,8 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                                       st);
         sync_check_cuda_error();
 
-        // Compute f2n, f2E
-        invokeMoeLLDispatchPostprocess(output.out_x,
-                                       output.f2n.data(),
+        // Compute f2n, f2E (f2n points into the flattened sparse packed_recv_x)
+        invokeMoeLLDispatchPostprocess(output.f2n.data(),
                                        output.f2E.data(),
                                        output.offsets.data(),
                                        buffer_->moe_recv_counter,
@@ -104,6 +103,11 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                                        st);
         sync_check_cuda_error();
 
+        // Expose the sparse buffer as a flat 2D view; downstream linear gathers via f2n.
+        const int num_max_tokens = packed_recv_x.shape(1);
+        const int hidden         = packed_recv_x.shape(2);
+        output.out_x             = packed_recv_x.view({num_local_experts * num_max_tokens, hidden});
+
         // Generate output
         output.handle        = {packed_recv_src_info, packed_recv_layout_range, output.offsets};
         output.out_token_num = output.out_expert_token_num = *buffer_->moe_recv_counter;
diff --git a/src/turbomind/kernels/gemm/moe_ep_utils.cu b/src/turbomind/kernels/gemm/moe_ep_utils.cu
index eb59644b6f..ae1c58ba21 100644
--- a/src/turbomind/kernels/gemm/moe_ep_utils.cu
+++ b/src/turbomind/kernels/gemm/moe_ep_utils.cu
@@ -572,7 +572,8 @@ void invokeMoeCombineOutputEp(
 __global__ void MoeLLDispatchRoutingMapKernel(int* moe_recv_counter_mapped,  //
                                               int* f2n,
                                               int* f2E,
-                                              const int* __restrict__ offsets)
+                                              const int* __restrict__ offsets,
+                                              int num_max_tokens)
 {
     const int ei    = blockIdx.x;
     const int begin = offsets[ei];
@@ -583,71 +584,29 @@ __global__ void MoeLLDispatchRoutingMapKernel(int* moe_recv_counter_mapped,  //
     }
 
     for (int idx = begin + threadIdx.x; idx < end; idx += blockDim.x) {
-        f2n[idx] = idx;
+        f2n[idx] = ei * num_max_tokens + (idx - begin);
         f2E[idx] = ei;
     }
 }
 
-__global__ void MoeLLDispatchCopyKernel(int4* out,
-                                        const int4* __restrict__ x,
-                                        int hidden_int4,
-                                        const int* __restrict__ offsets,
-                                        int num_max_tokens,
-                                        int num_local_experts)
-{
-    int row = blockIdx.x;
-
-    int lo = 0;
-    int hi = num_local_experts;
-    while (lo + 1 < hi) {
-        const int mid = (lo + hi) >> 1;
-        if (offsets[mid] <= row) {
-            lo = mid;
-        }
-        else {
-            hi = mid;
-        }
-    }
-
-    const int   src_row = row - offsets[lo];
-    const int4* src     = x + (lo * num_max_tokens + src_row) * hidden_int4;
-    int4*       dst     = out + row * hidden_int4;
-    for (int i = threadIdx.x; i < hidden_int4; i += blockDim.x) {
-        __stcg(dst + i, __ldcg(src + i));
-    }
-}
-
-void invokeMoeLLDispatchPostprocess(Tensor&       out,  //
-                                    int*          f2n,
+void invokeMoeLLDispatchPostprocess(int*          f2n,
                                     int*          f2E,
                                     const int*    offsets,
                                     volatile int* moe_recv_counter,
                                     int*          moe_recv_counter_mapped,
-                                    Tensor&       packed_recv_x,
+                                    const Tensor& packed_recv_x,
                                     cudaStream_t  st)
 {
     const int num_local_experts = packed_recv_x.shape(0);
     const int num_max_tokens    = packed_recv_x.shape(1);
-    const int hidden            = packed_recv_x.shape(2);
     const int threads           = 256;
 
     *moe_recv_counter = -1;
-    MoeLLDispatchRoutingMapKernel<<<num_local_experts, threads, 0, st>>>(moe_recv_counter_mapped, f2n, f2E, offsets);
+    MoeLLDispatchRoutingMapKernel<<<num_local_experts, threads, 0, st>>>(
+        moe_recv_counter_mapped, f2n, f2E, offsets, num_max_tokens);
     sync_check_cuda_error();
-    core::Context::stream().Sync();
 
     while (*moe_recv_counter < 0) {};
-    out = Tensor({*moe_recv_counter, hidden}, packed_recv_x.dtype(), packed_recv_x.device());
-    TM_CHECK_EQ(hidden * byte_size(packed_recv_x.dtype()) % sizeof(int4), 0LL);
-    const int hidden_int4 = hidden * byte_size(packed_recv_x.dtype()) / sizeof(int4);
-    if (*moe_recv_counter > 0) {
-        MoeLLDispatchCopyKernel<<<*moe_recv_counter, threads, 0, st>>>((int4*)out.raw_data(),
-                                                                       (const int4*)packed_recv_x.raw_data(),
-                                                                       hidden_int4,
-                                                                       offsets,
-                                                                       num_max_tokens,
-                                                                       num_local_experts);
-    }
 }
 
 }  // namespace turbomind
diff --git a/src/turbomind/kernels/gemm/moe_ep_utils.h b/src/turbomind/kernels/gemm/moe_ep_utils.h
index b1e715b751..dcf6a53919 100644
--- a/src/turbomind/kernels/gemm/moe_ep_utils.h
+++ b/src/turbomind/kernels/gemm/moe_ep_utils.h
@@ -49,13 +49,12 @@ void invokeMoeLocalCombineEp(Ref<Tensor>   out,
 void invokeMoeCombineOutputEp(
     Ref<Tensor> output, const Tensor& src, const float* shared_scales, float scale, cudaStream_t st);
 
-void invokeMoeLLDispatchPostprocess(Tensor&       out,
-                                    int*          f2n,
+void invokeMoeLLDispatchPostprocess(int*          f2n,
                                     int*          f2E,
                                     const int*    offsets,
                                     volatile int* moe_recv_counter,
                                     int*          moe_recv_counter_mapped,
-                                    Tensor&       packed_recv_x,
+                                    const Tensor& packed_recv_x,
                                     cudaStream_t  st);
 
 }  // namespace turbomind
diff --git a/src/turbomind/models/llama/moe_ffn_layer.cc b/src/turbomind/models/llama/moe_ffn_layer.cc
index ed5075c13a..d9e623c853 100644
--- a/src/turbomind/models/llama/moe_ffn_layer.cc
+++ b/src/turbomind/models/llama/moe_ffn_layer.cc
@@ -268,7 +268,7 @@ void MoeFfnLayer::Forward(ForwardParam& p)
         RouteEP(p, logits);
     }
 
-    if (input_.shape(0) == 0) {
+    if (temp_.shape(0) == 0) {
         // pass
     }
     else if (param_.method == MoeParam::kNaive) {
@@ -314,7 +314,7 @@ void MoeFfnLayer::ForwardNative(ForwardParam& p)
 
 void MoeFfnLayer::ForwardFused(ForwardParam& p)
 {
-    TM_CHECK_GT(input_.shape(0), 0);
+    TM_CHECK_GT(temp_.shape(0), 0);
 
     const auto& moe              = *p.weights;
     const auto  st               = core::Context::stream().handle();

From c9f4a1e23e13fbcb67894cd95a29a23e2fa53b87 Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Fri, 17 Apr 2026 04:28:35 +0000
Subject: [PATCH 13/21] support fp8-model-fp8-dispath for ll kernel

---
 3rdparty/deep_ep/deep_ep.cpp                |  6 ++-
 src/turbomind/comm/nccl/nccl_ep.cu          | 12 +++++-
 src/turbomind/kernels/gemm/moe_ep_utils.cu  | 48 +++++++++++++++++++++
 src/turbomind/kernels/gemm/moe_ep_utils.h   |  9 ++++
 src/turbomind/models/llama/moe_ffn_layer.cc |  3 +-
 5 files changed, 74 insertions(+), 4 deletions(-)

diff --git a/3rdparty/deep_ep/deep_ep.cpp b/3rdparty/deep_ep/deep_ep.cpp
index 9e32fd8fa8..fe0bac7d6b 100644
--- a/3rdparty/deep_ep/deep_ep.cpp
+++ b/3rdparty/deep_ep/deep_ep.cpp
@@ -887,8 +887,10 @@ Buffer::low_latency_dispatch(const Tensor&                x,
     auto next_buffer = layout.buffers[low_latency_buffer_idx ^= 1];
 
     // Allocate packed tensors
-    auto packed_recv_x = Tensor(
-        {num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank, hidden}, x.dtype(), turbomind::kDEVICE);
+    auto packed_recv_x = Tensor({num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank, hidden},
+                                use_fp8 ? turbomind::kFloat8_e4m3 : x.dtype(),
+                                turbomind::kDEVICE);
+
     auto packed_recv_src_info = Tensor(
         {num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank}, turbomind::kInt32, turbomind::kDEVICE);
     auto packed_recv_layout_range = Tensor({num_local_experts, num_ranks}, turbomind::kInt64, turbomind::kDEVICE);
diff --git a/src/turbomind/comm/nccl/nccl_ep.cu b/src/turbomind/comm/nccl/nccl_ep.cu
index a8427f7f4e..7be50dbe8d 100644
--- a/src/turbomind/comm/nccl/nccl_ep.cu
+++ b/src/turbomind/comm/nccl/nccl_ep.cu
@@ -67,7 +67,7 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                                           std::nullopt,
                                           ep_config_.ll_max_tokens_per_rank,
                                           ep_config_.num_experts,
-                                          false,
+                                          input.use_fp8,
                                           false,
                                           false);
         sync_check_cuda_error();
@@ -108,6 +108,16 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
         const int hidden         = packed_recv_x.shape(2);
         output.out_x             = packed_recv_x.view({num_local_experts * num_max_tokens, hidden});
 
+        // Reorder sparse scales into [H/128, E*max_T] sparse layout, writing only the
+        // valid prefix of each expert; gaps stay uninitialized and are never read.
+        if (input.use_fp8) {
+            const int num_groups = packed_recv_x_scales->shape(2);
+            Tensor    out_scales{{num_groups, num_local_experts * num_max_tokens}, kFloat32, kDEVICE};
+            invokeMoeLLDispatchScalesLayoutConvert(out_scales, packed_recv_x_scales.value(), packed_recv_count, st);
+            sync_check_cuda_error();
+            output.out_x_scales = out_scales;
+        }
+
         // Generate output
         output.handle        = {packed_recv_src_info, packed_recv_layout_range, output.offsets};
         output.out_token_num = output.out_expert_token_num = *buffer_->moe_recv_counter;
diff --git a/src/turbomind/kernels/gemm/moe_ep_utils.cu b/src/turbomind/kernels/gemm/moe_ep_utils.cu
index ae1c58ba21..dc4e3275db 100644
--- a/src/turbomind/kernels/gemm/moe_ep_utils.cu
+++ b/src/turbomind/kernels/gemm/moe_ep_utils.cu
@@ -609,4 +609,52 @@ void invokeMoeLLDispatchPostprocess(int*          f2n,
     while (*moe_recv_counter < 0) {};
 }
 
+// Reorder deep_ep's sparse LL dispatch scales into the layout expected by the
+// downstream grouped-GEMM gather. Source storage is [E, H/128, max_T] contiguous
+// (max_T innermost), with valid scales packed at positions [0, count_e) along
+// max_T for each expert. Target is [H/128, E*max_T] contiguous, with valid
+// scales at positions [e*max_T, e*max_T+count_e). Gap slots are not written —
+// downstream gathers via f2n which only indexes valid positions.
+__global__ void MoeLLDispatchScalesLayoutConvertKernel(float*       target,
+                                                       const float* src,
+                                                       const int* __restrict__ packed_recv_count,
+                                                       int num_groups,
+                                                       int num_max_tokens)
+{
+    const int hi           = blockIdx.x;
+    const int ei           = blockIdx.y;
+    const int num_experts  = gridDim.y;
+    const int count_e      = packed_recv_count[ei];
+    const float* src_block = src + (ei * num_groups + hi) * num_max_tokens;
+    float*       dst_block = target + hi * (num_experts * num_max_tokens) + ei * num_max_tokens;
+
+    for (int t = threadIdx.x; t < count_e; t += blockDim.x) {
+        dst_block[t] = src_block[t];
+    }
+}
+
+void invokeMoeLLDispatchScalesLayoutConvert(Tensor&       target,
+                                            const Tensor& packed_recv_x_scales,
+                                            const Tensor& packed_recv_count,
+                                            cudaStream_t  st)
+{
+    // packed_recv_x_scales: logical [E, max_T, H/128], underlying [E, H/128, max_T] contiguous
+    const int num_local_experts = packed_recv_x_scales.shape(0);
+    const int num_max_tokens    = packed_recv_x_scales.shape(1);
+    const int num_groups        = packed_recv_x_scales.shape(2);
+    TM_CHECK_EQ(target.shape(0), num_groups);
+    TM_CHECK_EQ(target.shape(1), num_local_experts * num_max_tokens);
+    TM_CHECK_EQ(target.dtype(), kFloat32);
+    TM_CHECK_EQ(packed_recv_x_scales.dtype(), kFloat32);
+
+    const dim3 grid(num_groups, num_local_experts);
+    const int  threads = 128;
+    MoeLLDispatchScalesLayoutConvertKernel<<<grid, threads, 0, st>>>(  //
+        target.data<float>(),
+        packed_recv_x_scales.data<float>(),
+        packed_recv_count.data<int>(),
+        num_groups,
+        num_max_tokens);
+}
+
 }  // namespace turbomind
diff --git a/src/turbomind/kernels/gemm/moe_ep_utils.h b/src/turbomind/kernels/gemm/moe_ep_utils.h
index dcf6a53919..0f80fb60c7 100644
--- a/src/turbomind/kernels/gemm/moe_ep_utils.h
+++ b/src/turbomind/kernels/gemm/moe_ep_utils.h
@@ -57,4 +57,13 @@ void invokeMoeLLDispatchPostprocess(int*          f2n,
                                     const Tensor& packed_recv_x,
                                     cudaStream_t  st);
 
+// Reorder sparse LL dispatch scales from [E, H/128, max_T] contiguous (deep_ep
+// layout) to [H/128, E*max_T] contiguous (the layout expected by
+// invokeMoeDispatchScales). Only the valid [0, count_e) prefix of each expert
+// is written; gap slots are untouched.
+void invokeMoeLLDispatchScalesLayoutConvert(Tensor&       target,
+                                            const Tensor& packed_recv_x_scales,
+                                            const Tensor& packed_recv_count,
+                                            cudaStream_t  st);
+
 }  // namespace turbomind
diff --git a/src/turbomind/models/llama/moe_ffn_layer.cc b/src/turbomind/models/llama/moe_ffn_layer.cc
index d9e623c853..d75ac435f4 100644
--- a/src/turbomind/models/llama/moe_ffn_layer.cc
+++ b/src/turbomind/models/llama/moe_ffn_layer.cc
@@ -201,7 +201,8 @@ void MoeFfnLayer::RouteEP(ForwardParam& p, Tensor_<float>& logits)
 
     auto       input_type = p.weights->block.fused_gating_intermediate.input_type;
     const bool use_fp8 =
-        ep_mode_ == comm::EpMode::kHighThroughput && (input_type == kFloat8_e4m3 || input_type == kBfloat16);
+        (ep_mode_ == comm::EpMode::kHighThroughput && (input_type == kFloat8_e4m3 || input_type == kBfloat16))
+        || (ep_mode_ == comm::EpMode::kLowLatency && input_type == kFloat8_e4m3);
     const bool output_scales = use_fp8 && input_type == kFloat8_e4m3;
 
     comm::EpDispatchInput  dispatch_input{ep_mode_, p.input, topk_weights, topk_idx, use_fp8, output_scales};

From 4ce094119ce4455a22ffc70648a329bad69abe25 Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Fri, 17 Apr 2026 05:40:20 +0000
Subject: [PATCH 14/21] support bf16-model-fp8-dispath for ll kernel

---
 src/turbomind/comm/nccl/nccl_ep.cu          | 19 +++++++++--
 src/turbomind/kernels/quantization.cu       | 35 +++++++++++++++++----
 src/turbomind/kernels/quantization.h        |  2 ++
 src/turbomind/models/llama/moe_ffn_layer.cc |  6 ++--
 4 files changed, 49 insertions(+), 13 deletions(-)

diff --git a/src/turbomind/comm/nccl/nccl_ep.cu b/src/turbomind/comm/nccl/nccl_ep.cu
index 7be50dbe8d..90a5202ef5 100644
--- a/src/turbomind/comm/nccl/nccl_ep.cu
+++ b/src/turbomind/comm/nccl/nccl_ep.cu
@@ -103,10 +103,12 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                                        st);
         sync_check_cuda_error();
 
+        const int num_expert_tokens = *buffer_->moe_recv_counter;
+
         // Expose the sparse buffer as a flat 2D view; downstream linear gathers via f2n.
         const int num_max_tokens = packed_recv_x.shape(1);
         const int hidden         = packed_recv_x.shape(2);
-        output.out_x             = packed_recv_x.view({num_local_experts * num_max_tokens, hidden});
+        Tensor    sparse_out_x   = packed_recv_x.view({num_local_experts * num_max_tokens, hidden});
 
         // Reorder sparse scales into [H/128, E*max_T] sparse layout, writing only the
         // valid prefix of each expert; gaps stay uninitialized and are never read.
@@ -115,12 +117,23 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
             Tensor    out_scales{{num_groups, num_local_experts * num_max_tokens}, kFloat32, kDEVICE};
             invokeMoeLLDispatchScalesLayoutConvert(out_scales, packed_recv_x_scales.value(), packed_recv_count, st);
             sync_check_cuda_error();
-            output.out_x_scales = out_scales;
+            if (input.output_scales) {
+                output.out_x        = sparse_out_x;
+                output.out_x_scales = out_scales;
+            }
+            else {
+                Tensor indices{output.f2n.slice(0, num_expert_tokens)};
+                DequantizeSymm(output.out_x, sparse_out_x, out_scales, indices, st);
+                sync_check_cuda_error();
+            }
+        }
+        else {
+            output.out_x = sparse_out_x;
         }
 
         // Generate output
         output.handle        = {packed_recv_src_info, packed_recv_layout_range, output.offsets};
-        output.out_token_num = output.out_expert_token_num = *buffer_->moe_recv_counter;
+        output.out_token_num = output.out_expert_token_num = num_expert_tokens;
     }
     else {
         auto [num_tokens_per_rank, num_tokens_per_rdma_rank, num_tokens_per_expert, is_token_in_rank] =
diff --git a/src/turbomind/kernels/quantization.cu b/src/turbomind/kernels/quantization.cu
index f7deea9460..fa68caa19a 100644
--- a/src/turbomind/kernels/quantization.cu
+++ b/src/turbomind/kernels/quantization.cu
@@ -114,12 +114,20 @@ void QuantizeSymm(Tensor& out, Tensor& scale, const Tensor& src, cudaStream_t st
 }
 
 template<int vec_size, int group_size, class Tout, class Tscale, class T>
-__global__ void
-dequant_symm_row(Tout* out, int out_ld, const T* src, int src_ld, const Tscale* scales, int scales_ld, int num, int dim)
+__global__ void dequant_symm_row(Tout*         out,
+                                 int           out_ld,
+                                 const T*      src,
+                                 int           src_ld,
+                                 const Tscale* scales,
+                                 int           scales_ld,
+                                 const int*    indices,
+                                 int           num,
+                                 int           dim)
 {
 #if TURBOMIND_ARCH_SM90
     static_assert(group_size % vec_size == 0);
-    for (int ti = blockIdx.x; ti < num; ti += gridDim.x) {
+    for (int bi = blockIdx.x; bi < num; bi += gridDim.x) {
+        const int ti = indices ? __ldg(&indices[bi]) : bi;
         for (int di = threadIdx.x * vec_size; di < dim; di += blockDim.x * vec_size) {
             Array<T, vec_size> vec;
             Ldg(vec, src + ti * src_ld + di);
@@ -136,6 +144,11 @@ dequant_symm_row(Tout* out, int out_ld, const T* src, int src_ld, const Tscale*
 }
 
 void DequantizeSymm(Tensor& out, const Tensor& src, const Tensor& scale, cudaStream_t st)
+{
+    DequantizeSymm(out, src, scale, {}, st);
+}
+
+void DequantizeSymm(Tensor& out, const Tensor& src, const Tensor& scale, const Tensor& indices, cudaStream_t st)
 {
     using T      = fp8_e4m3_t;
     using Tout   = bfloat16_t;
@@ -150,13 +163,22 @@ void DequantizeSymm(Tensor& out, const Tensor& src, const Tensor& scale, cudaStr
 
     auto [num, dim] = src.shapes(0, 1);
 
+    const int* idx_ptr = nullptr;
+    if (indices) {
+        TM_CHECK_EQ(indices.dtype(), kInt32);
+        TM_CHECK_EQ(indices.ndim(), 1);
+        TM_CHECK_LE(indices.shape(0), src.shape(0));
+        idx_ptr = indices.data<int>();
+        num     = indices.shape(0);
+    }
+    if (num == 0) {
+        return;
+    }
+
     constexpr int group_size = 128;
     constexpr int vec_size   = 8;
 
     constexpr int block_dim = 512;
-    if (num == 0) {
-        return;
-    }
 
     dequant_symm_row<vec_size, group_size, Tout, Tscale, T><<<num, block_dim, 0, st>>>(out.data<Tout>(),  //
                                                                                        out.stride(0),
@@ -164,6 +186,7 @@ void DequantizeSymm(Tensor& out, const Tensor& src, const Tensor& scale, cudaStr
                                                                                        src.stride(0),
                                                                                        scale.data<Tscale>(),
                                                                                        scale.stride(0),
+                                                                                       idx_ptr,
                                                                                        num,
                                                                                        dim);
 }
diff --git a/src/turbomind/kernels/quantization.h b/src/turbomind/kernels/quantization.h
index bde74e717f..1d5531c22c 100644
--- a/src/turbomind/kernels/quantization.h
+++ b/src/turbomind/kernels/quantization.h
@@ -6,6 +6,8 @@ void QuantizeSymm(Tensor& out, Tensor& scale, const Tensor& src, cudaStream_t st
 
 void DequantizeSymm(Tensor& out, const Tensor& src, const Tensor& scale, cudaStream_t st);
 
+void DequantizeSymm(Tensor& out, const Tensor& src, const Tensor& scale, const Tensor& indices, cudaStream_t st);
+
 void QuantizeSymmBlock(Ref<Tensor> out_, Ref<Tensor> scale_, const Tensor& src, cudaStream_t st);
 
 void DequantizeSymmBlock(Ref<Tensor> out_, Ref<Tensor> src_, const Tensor& scale, cudaStream_t st);
diff --git a/src/turbomind/models/llama/moe_ffn_layer.cc b/src/turbomind/models/llama/moe_ffn_layer.cc
index d75ac435f4..1df18971e5 100644
--- a/src/turbomind/models/llama/moe_ffn_layer.cc
+++ b/src/turbomind/models/llama/moe_ffn_layer.cc
@@ -199,10 +199,8 @@ void MoeFfnLayer::RouteEP(ForwardParam& p, Tensor_<float>& logits)
     ep_mode_ = p.max_tokens_per_rank <= param_.ll_max_tokens_per_rank ? comm::EpMode::kLowLatency :
                                                                         comm::EpMode::kHighThroughput;
 
-    auto       input_type = p.weights->block.fused_gating_intermediate.input_type;
-    const bool use_fp8 =
-        (ep_mode_ == comm::EpMode::kHighThroughput && (input_type == kFloat8_e4m3 || input_type == kBfloat16))
-        || (ep_mode_ == comm::EpMode::kLowLatency && input_type == kFloat8_e4m3);
+    auto       input_type    = p.weights->block.fused_gating_intermediate.input_type;
+    const bool use_fp8       = input_type == kFloat8_e4m3 || input_type == kBfloat16;
     const bool output_scales = use_fp8 && input_type == kFloat8_e4m3;
 
     comm::EpDispatchInput  dispatch_input{ep_mode_, p.input, topk_weights, topk_idx, use_fp8, output_scales};

From 57a698af8522a9ec88b07f7a1c1bd027c10fa7bc Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Fri, 17 Apr 2026 07:32:19 +0000
Subject: [PATCH 15/21] fix lint

---
 src/turbomind/kernels/gemm/moe_ep_utils.cu | 19 ++++++++-----------
 src/turbomind/kernels/gemm/moe_utils_v2.cu |  5 +++--
 2 files changed, 11 insertions(+), 13 deletions(-)

diff --git a/src/turbomind/kernels/gemm/moe_ep_utils.cu b/src/turbomind/kernels/gemm/moe_ep_utils.cu
index dc4e3275db..a43ce30a70 100644
--- a/src/turbomind/kernels/gemm/moe_ep_utils.cu
+++ b/src/turbomind/kernels/gemm/moe_ep_utils.cu
@@ -615,18 +615,15 @@ void invokeMoeLLDispatchPostprocess(int*          f2n,
 // max_T for each expert. Target is [H/128, E*max_T] contiguous, with valid
 // scales at positions [e*max_T, e*max_T+count_e). Gap slots are not written —
 // downstream gathers via f2n which only indexes valid positions.
-__global__ void MoeLLDispatchScalesLayoutConvertKernel(float*       target,
-                                                       const float* src,
-                                                       const int* __restrict__ packed_recv_count,
-                                                       int num_groups,
-                                                       int num_max_tokens)
+__global__ void MoeLLDispatchScalesLayoutConvertKernel(
+    float* target, const float* src, const int* __restrict__ packed_recv_count, int num_groups, int num_max_tokens)
 {
-    const int hi           = blockIdx.x;
-    const int ei           = blockIdx.y;
-    const int num_experts  = gridDim.y;
-    const int count_e      = packed_recv_count[ei];
-    const float* src_block = src + (ei * num_groups + hi) * num_max_tokens;
-    float*       dst_block = target + hi * (num_experts * num_max_tokens) + ei * num_max_tokens;
+    const int    hi          = blockIdx.x;
+    const int    ei          = blockIdx.y;
+    const int    num_experts = gridDim.y;
+    const int    count_e     = packed_recv_count[ei];
+    const float* src_block   = src + (ei * num_groups + hi) * num_max_tokens;
+    float*       dst_block   = target + hi * (num_experts * num_max_tokens) + ei * num_max_tokens;
 
     for (int t = threadIdx.x; t < count_e; t += blockDim.x) {
         dst_block[t] = src_block[t];
diff --git a/src/turbomind/kernels/gemm/moe_utils_v2.cu b/src/turbomind/kernels/gemm/moe_utils_v2.cu
index 175aa0ffa0..70a14457a8 100644
--- a/src/turbomind/kernels/gemm/moe_utils_v2.cu
+++ b/src/turbomind/kernels/gemm/moe_utils_v2.cu
@@ -902,7 +902,7 @@ void invokeMoeDispatch(Ref<Tensor> out_, const Tensor& src, const int* f2n, int
     auto& out    = out_.get();
     auto  invoke = [&](auto t) {
         using T                = decltype(t);
-        const int dim          = src.shape(1);
+        const int     dim      = src.shape(1);
         constexpr int threads  = 256;
         constexpr int vec_size = 16 / sizeof(T);
         TM_CHECK_EQ(out.shape(0), num_expert_tokens);
@@ -964,7 +964,8 @@ MoeDispatchScalesNonaligned(T* dst, const T* src, int dst_stride, int src_stride
     }
 }
 
-void invokeMoeDispatchScales(Ref<Tensor> out_, const Tensor& src, const int* f2n, int num_expert_tokens, cudaStream_t st)
+void invokeMoeDispatchScales(
+    Ref<Tensor> out_, const Tensor& src, const int* f2n, int num_expert_tokens, cudaStream_t st)
 {
     using T                 = float;
     constexpr int alignment = 16 / sizeof(T);

From 2ea24c01305849e21adac48f7d1213e90e6b9c9f Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Fri, 17 Apr 2026 07:32:45 +0000
Subject: [PATCH 16/21] fix NcclCommImpl::Broadcast

---
 src/turbomind/comm/nccl/nccl.cu | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/turbomind/comm/nccl/nccl.cu b/src/turbomind/comm/nccl/nccl.cu
index 01f252f0ca..ba99244144 100644
--- a/src/turbomind/comm/nccl/nccl.cu
+++ b/src/turbomind/comm/nccl/nccl.cu
@@ -446,7 +446,7 @@ void NcclCommImpl::Broadcast(const void*  sendbuff,  //
                              int          group,
                              cudaStream_t stream)
 {
-    NCCLCHECK(ncclBroadcast(recvbuff, recvbuff, count, to_nccl_dtype(type), root, groups_.at(group), stream));
+    NCCLCHECK(ncclBroadcast(sendbuff, recvbuff, count, to_nccl_dtype(type), root, groups_.at(group), stream));
 }
 
 DeviceComm CreateNcclCommunicator(int n_ranks, int rank, HostComm h_comm)

From 4b3332969c6bbab6f4770c800bb1cc51ad97fea5 Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Sun, 19 Apr 2026 15:04:00 +0000
Subject: [PATCH 17/21] zero-copy for ll kernel combine

---
 3rdparty/deep_ep/deep_ep.cpp                | 21 +++++++++++++++++++++
 3rdparty/deep_ep/deep_ep.hpp                |  2 ++
 3rdparty/deep_ep/kernels/api.cuh            |  1 +
 3rdparty/deep_ep/kernels/internode_ll.cu    | 18 +++++++++++++-----
 src/turbomind/comm/device_comm.h            |  4 ++++
 src/turbomind/comm/nccl/nccl_ep.cu          |  7 ++++++-
 src/turbomind/models/llama/moe_ffn_layer.cc | 15 +++++++++++++--
 7 files changed, 60 insertions(+), 8 deletions(-)

diff --git a/3rdparty/deep_ep/deep_ep.cpp b/3rdparty/deep_ep/deep_ep.cpp
index 974caa6fbf..61becf0ce9 100644
--- a/3rdparty/deep_ep/deep_ep.cpp
+++ b/3rdparty/deep_ep/deep_ep.cpp
@@ -1038,6 +1038,10 @@ Buffer::low_latency_combine(const Tensor&                x,
     auto      nccl_win        = comm->get_device_nccl_window(rdma_ll_buffer_ptr);
     auto      signals_base    = comm->get_signals_base(low_latency_buffer_idx, true);
 
+    const size_t x_offset = zero_copy ? reinterpret_cast<size_t>(buffer.combine_rdma_send_buffer_data_start)
+                                            - reinterpret_cast<size_t>(rdma_ll_buffer_ptr) :
+                                        0;
+
     internode_ll::combine(
         combined_x.data_or((void*)nullptr),
         buffer.combine_rdma_recv_data_buffer,
@@ -1046,6 +1050,7 @@ Buffer::low_latency_combine(const Tensor&                x,
         reinterpret_cast<size_t>(buffer.combine_rdma_recv_data_buffer) - reinterpret_cast<size_t>(rdma_ll_buffer_ptr),
         reinterpret_cast<size_t>(buffer.combine_rdma_recv_flag_buffer) - reinterpret_cast<size_t>(rdma_ll_buffer_ptr),
         reinterpret_cast<size_t>(buffer.combine_rdma_send_buffer) - reinterpret_cast<size_t>(rdma_ll_buffer_ptr),
+        x_offset,
         x.data_or((void*)nullptr),
         expert_offsets.data<int>(),
         topk_idx.data_or((topk_idx_t*)nullptr),
@@ -1605,4 +1610,20 @@ Config Buffer::get_combine_config()
     return it->second;
 }
 
+Tensor
+Buffer::get_next_low_latency_combine_buffer(int num_max_dispatch_tokens_per_rank, int hidden, int num_experts) const
+{
+    LowLatencyLayout layout(rdma_ll_buffer_ptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts);
+
+    auto buffer = layout.buffers[low_latency_buffer_idx];
+    auto dtype  = turbomind::kBfloat16;
+
+    // Return a contiguous (E_local, ranks*max_T, hidden) view over the combine send buffer.
+    // The per-slot scales/metadata region is not addressed here; it is unused for non-LogFMT combine.
+    return Tensor(buffer.combine_rdma_send_buffer_data_start,
+                  {num_experts / num_ranks, num_ranks * num_max_dispatch_tokens_per_rank, hidden},
+                  dtype,
+                  turbomind::kDEVICE);
+}
+
 };  // namespace deep_ep
diff --git a/3rdparty/deep_ep/deep_ep.hpp b/3rdparty/deep_ep/deep_ep.hpp
index d26de84d92..1e4fcf1792 100644
--- a/3rdparty/deep_ep/deep_ep.hpp
+++ b/3rdparty/deep_ep/deep_ep.hpp
@@ -268,6 +268,8 @@ class Buffer {
     Config get_dispatch_config();
 
     Config get_combine_config();
+
+    Tensor get_next_low_latency_combine_buffer(int num_max_dispatch_tokens_per_rank, int hidden, int num_experts) const;
 };
 
 };  // namespace deep_ep
diff --git a/3rdparty/deep_ep/kernels/api.cuh b/3rdparty/deep_ep/kernels/api.cuh
index 2deccb5be2..7058156853 100644
--- a/3rdparty/deep_ep/kernels/api.cuh
+++ b/3rdparty/deep_ep/kernels/api.cuh
@@ -356,6 +356,7 @@ void combine(void*             combined_x,
              size_t            rdma_recv_x_offset,
              size_t            rdma_recv_flag_offset,
              size_t            rdma_send_x_offset,
+             size_t            x_offset,
              const void*       x,
              const int*        expert_offsets,
              const topk_idx_t* topk_idx,
diff --git a/3rdparty/deep_ep/kernels/internode_ll.cu b/3rdparty/deep_ep/kernels/internode_ll.cu
index 36a7a2c08a..8c098079e4 100644
--- a/3rdparty/deep_ep/kernels/internode_ll.cu
+++ b/3rdparty/deep_ep/kernels/internode_ll.cu
@@ -729,6 +729,7 @@ __global__ __launch_bounds__(1024, 1) void combine(void* combined_x,
                                                    size_t rdma_recv_x_offset,
                                                    size_t rdma_recv_flag_offset,
                                                    size_t rdma_send_x_offset,
+                                                   size_t x_offset,
                                                    const void* x,
                                                    const int* expert_offsets,
                                                    const topk_idx_t* topk_idx,
@@ -870,8 +871,10 @@ __global__ __launch_bounds__(1024, 1) void combine(void* combined_x,
                 int num_send_bytes = hidden * sizeof(nv_bfloat16);
 
                 if (not zero_copy or dst_p2p_ptr != 0) {
-                    // Read from `cpy_src_int4_ptr` and copy into `cpy_dst_int4_ptr`
-                    const auto cpy_src_int4_ptr = zero_copy ? reinterpret_cast<int4*>(buf_ptr) : x_int4;
+                    // Read from `cpy_src_int4_ptr` and copy into `cpy_dst_int4_ptr`.
+                    // For zero-copy the source `x` is the combine send buffer in a dense
+                    // (E_local, ranks*max_T, hidden) layout — read straight from `x_int4`.
+                    const auto cpy_src_int4_ptr = x_int4;
                     const auto cpy_dst_int4_ptr =
                         dst_p2p_ptr == 0 ? reinterpret_cast<int4*>(buf_ptr) : reinterpret_cast<int4*>(dst_p2p_ptr);
 
@@ -931,9 +934,12 @@ __global__ __launch_bounds__(1024, 1) void combine(void* combined_x,
                 // Issue RDMA
                 // NOTES: for zero-copy mode, we assume the data is already in the send buffer
                 if (dst_p2p_ptr == 0) {
-                    const auto expected_buf_offset = rdma_send_x_offset +
-                        (local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_slot) +
-                        token_idx * num_bytes_per_slot;
+                    const auto expected_buf_offset = zero_copy
+                        ? (x_offset +
+                           (static_cast<size_t>(__ldg(expert_offsets + local_expert_idx)) + token_idx) * hidden * sizeof(nv_bfloat16))
+                        : (rdma_send_x_offset +
+                           (local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_slot) +
+                           token_idx * num_bytes_per_slot);
 
                     ncclGin net(dev_comm, local_expert_idx);
                     ncclTeam world = ncclTeamWorld(dev_comm);
@@ -1225,6 +1231,7 @@ void combine(void*             combined_x,
              size_t            rdma_recv_x_offset,
              size_t            rdma_recv_flag_offset,
              size_t            rdma_send_x_offset,
+             size_t            x_offset,
              const void*       x,
              const int*        expert_offsets,
              const topk_idx_t* topk_idx,
@@ -1301,6 +1308,7 @@ void combine(void*             combined_x,
                       rdma_recv_x_offset,                                                                              \
                       rdma_recv_flag_offset,                                                                           \
                       rdma_send_x_offset,                                                                              \
+                      x_offset,                                                                                        \
                       x,                                                                                               \
                       expert_offsets,                                                                                  \
                       topk_idx,                                                                                        \
diff --git a/src/turbomind/comm/device_comm.h b/src/turbomind/comm/device_comm.h
index 23b7ad3bbe..3955e3260b 100644
--- a/src/turbomind/comm/device_comm.h
+++ b/src/turbomind/comm/device_comm.h
@@ -35,6 +35,7 @@ struct EpDispatchInput {
     core::Tensor_<int64_t>& topk_idx;
     bool                    use_fp8;
     bool                    output_scales;
+    bool                    zero_copy{false};
 };
 
 struct EpDispatchOutput {
@@ -50,6 +51,8 @@ struct EpDispatchOutput {
 
     int out_token_num;
     int out_expert_token_num;
+
+    core::Tensor rdma;  // used for low-latency
 };
 
 struct EpCombineInput {
@@ -58,6 +61,7 @@ struct EpCombineInput {
     std::vector<core::Tensor>&  handle;
     std::optional<core::Tensor> topk_weights;
     std::optional<core::Tensor> topk_idx;
+    bool                        zero_copy{false};
 };
 
 struct EpCombineOutput {
diff --git a/src/turbomind/comm/nccl/nccl_ep.cu b/src/turbomind/comm/nccl/nccl_ep.cu
index e9aba14dff..a9dbee9e02 100644
--- a/src/turbomind/comm/nccl/nccl_ep.cu
+++ b/src/turbomind/comm/nccl/nccl_ep.cu
@@ -134,6 +134,11 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
         // Generate output
         output.handle        = {packed_recv_src_info, packed_recv_layout_range, output.offsets};
         output.out_token_num = output.out_expert_token_num = num_expert_tokens;
+
+        if (input.zero_copy) {
+            output.rdma = buffer_->get_next_low_latency_combine_buffer(
+                ep_config_.ll_max_tokens_per_rank, ep_config_.hidden, ep_config_.num_experts);
+        }
     }
     else {
         auto [num_tokens_per_rank, num_tokens_per_rdma_rank, num_tokens_per_expert, is_token_in_rank] =
@@ -345,7 +350,7 @@ void NcclCommImpl::Combine(const EpCombineInput& input, EpCombineOutput& output,
                                                          ep_config_.ll_max_tokens_per_rank,
                                                          ep_config_.num_experts,
                                                          false,
-                                                         false,
+                                                         input.zero_copy,
                                                          std::nullopt);
         sync_check_cuda_error();
 
diff --git a/src/turbomind/models/llama/moe_ffn_layer.cc b/src/turbomind/models/llama/moe_ffn_layer.cc
index 1df18971e5..f03c6049cb 100644
--- a/src/turbomind/models/llama/moe_ffn_layer.cc
+++ b/src/turbomind/models/llama/moe_ffn_layer.cc
@@ -202,14 +202,24 @@ void MoeFfnLayer::RouteEP(ForwardParam& p, Tensor_<float>& logits)
     auto       input_type    = p.weights->block.fused_gating_intermediate.input_type;
     const bool use_fp8       = input_type == kFloat8_e4m3 || input_type == kBfloat16;
     const bool output_scales = use_fp8 && input_type == kFloat8_e4m3;
+    const bool zero_copy     = ep_mode_ == comm::EpMode::kLowLatency;
 
-    comm::EpDispatchInput  dispatch_input{ep_mode_, p.input, topk_weights, topk_idx, use_fp8, output_scales};
+    comm::EpDispatchInput  dispatch_input{ep_mode_, p.input, topk_weights, topk_idx, use_fp8, output_scales, zero_copy};
     comm::EpDispatchOutput dispatch_output{{}, {}, {}, f2n_, f2E_, en2f_, offsets_, {}};
     d_comm_->Dispatch(dispatch_input, dispatch_output, 0);
     sync_check_cuda_error();
 
     input_ = dispatch_output.out_x;
-    temp_  = Tensor{{dispatch_output.out_expert_token_num, hidden_dim_}, p.input.dtype(), p.input.device()};
+    if (dispatch_output.rdma) {
+        // Zero-copy low-latency: point temp_ at the deep_ep combine send buffer so the
+        // down-proj writes land directly in the RDMA window. Flatten the
+        // (E_local, ranks*max_T, hidden) view to 2D and slice to the packed output size.
+        auto flat = dispatch_output.rdma.view({-1, hidden_dim_});
+        temp_     = flat.slice({0, 0}, {dispatch_output.out_expert_token_num, -1});
+    }
+    else {
+        temp_ = Tensor{{dispatch_output.out_expert_token_num, hidden_dim_}, p.input.dtype(), p.input.device()};
+    }
 
     // keep dispatch_output for combine
     dispatch_output_ = std::make_unique<comm::EpDispatchOutput>(dispatch_output);
@@ -404,6 +414,7 @@ void MoeFfnLayer::CombineEP(ForwardParam& p)
         combine_input.x            = temp_;
         combine_input.topk_idx     = Tensor{topk_idx_, {p.input.shape(0), param_.experts_per_token}};
         combine_input.topk_weights = Tensor{topk_weights_, {p.input.shape(0), param_.experts_per_token}};
+        combine_input.zero_copy    = static_cast<bool>(dispatch_output_->rdma);
     }
     d_comm_->Combine(combine_input, combine_output, 0);
     sync_check_cuda_error();

From db371dd722502087eb9916df9d00bc2691e3397e Mon Sep 17 00:00:00 2001
From: root <root@gpu-lg-cmc-h-h200-0019.host.h.pjlab.org.cn>
Date: Thu, 23 Apr 2026 06:03:57 +0000
Subject: [PATCH 18/21] remove busy-wait for ll

---
 src/turbomind/comm/device_comm.h            |   2 +-
 src/turbomind/comm/nccl/nccl_ep.cu          |  27 ++---
 src/turbomind/kernels/activation.cu         | 105 +++++++++++++-------
 src/turbomind/kernels/activation.h          |   4 +-
 src/turbomind/kernels/gemm/moe_ep_utils.cu  |  67 ++++++-------
 src/turbomind/kernels/gemm/moe_ep_utils.h   |  13 +--
 src/turbomind/kernels/quantization.cu       |  38 +++++--
 src/turbomind/kernels/quantization.h        |   6 ++
 src/turbomind/models/llama/LlamaFfnLayer.cc |   2 +-
 src/turbomind/models/llama/moe_ffn_layer.cc |  25 ++++-
 src/turbomind/turbomind.cc                  |   2 +-
 11 files changed, 171 insertions(+), 120 deletions(-)

diff --git a/src/turbomind/comm/device_comm.h b/src/turbomind/comm/device_comm.h
index 3955e3260b..8e2f894fbe 100644
--- a/src/turbomind/comm/device_comm.h
+++ b/src/turbomind/comm/device_comm.h
@@ -33,6 +33,7 @@ struct EpDispatchInput {
     core::Tensor&           x;
     core::Tensor_<float>&   topk_weights;
     core::Tensor_<int64_t>& topk_idx;
+    int                     num_worst_tokens;
     bool                    use_fp8;
     bool                    output_scales;
     bool                    zero_copy{false};
@@ -49,7 +50,6 @@ struct EpDispatchOutput {
 
     std::vector<core::Tensor> handle;
 
-    int out_token_num;
     int out_expert_token_num;
 
     core::Tensor rdma;  // used for low-latency
diff --git a/src/turbomind/comm/nccl/nccl_ep.cu b/src/turbomind/comm/nccl/nccl_ep.cu
index a9dbee9e02..2b26d0b78a 100644
--- a/src/turbomind/comm/nccl/nccl_ep.cu
+++ b/src/turbomind/comm/nccl/nccl_ep.cu
@@ -94,27 +94,18 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
         sync_check_cuda_error();
 
         // Compute f2n, f2E (f2n points into the flattened sparse packed_recv_x)
-        invokeMoeLLDispatchPostprocess(output.f2n.data(),
-                                       output.f2E.data(),
-                                       output.offsets.data(),
-                                       buffer_->moe_recv_counter,
-                                       buffer_->moe_recv_counter_mapped,
-                                       packed_recv_x,
-                                       st);
+        invokeMoeLLDispatchPostprocess(output.f2n.data(), output.f2E.data(), output.offsets.data(), packed_recv_x, st);
         sync_check_cuda_error();
 
-        const int num_expert_tokens = *buffer_->moe_recv_counter;
-
         // Expose the sparse buffer as a flat 2D view; downstream linear gathers via f2n.
-        const int num_max_tokens = packed_recv_x.shape(1);
-        const int hidden         = packed_recv_x.shape(2);
-        Tensor    sparse_out_x   = packed_recv_x.view({num_local_experts * num_max_tokens, hidden});
+        Tensor sparse_out_x = packed_recv_x.view({-1, packed_recv_x.shape().back()});
+        TM_CHECK_EQ(sparse_out_x.shape(0), input.num_worst_tokens);
 
         // Reorder sparse scales into [H/128, E*max_T] sparse layout, writing only the
         // valid prefix of each expert; gaps stay uninitialized and are never read.
         if (input.use_fp8) {
             const int num_groups = packed_recv_x_scales->shape(2);
-            Tensor    out_scales{{num_groups, num_local_experts * num_max_tokens}, kFloat32, kDEVICE};
+            Tensor    out_scales{{num_groups, input.num_worst_tokens}, kFloat32, kDEVICE};
             invokeMoeLLDispatchScalesLayoutConvert(out_scales, packed_recv_x_scales.value(), packed_recv_count, st);
             sync_check_cuda_error();
             if (input.output_scales) {
@@ -122,8 +113,9 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                 output.out_x_scales = out_scales;
             }
             else {
-                Tensor indices{output.f2n.slice(0, num_expert_tokens)};
-                DequantizeSymm(output.out_x, sparse_out_x, out_scales, indices, st);
+                const int* total_ptr = output.offsets.data() + num_local_experts;
+                Tensor     indices{output.f2n.slice(0, input.num_worst_tokens)};
+                DequantizeSymm(output.out_x, sparse_out_x, out_scales, indices, total_ptr, st);
                 sync_check_cuda_error();
             }
         }
@@ -132,8 +124,8 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
         }
 
         // Generate output
-        output.handle        = {packed_recv_src_info, packed_recv_layout_range, output.offsets};
-        output.out_token_num = output.out_expert_token_num = num_expert_tokens;
+        output.handle               = {packed_recv_src_info, packed_recv_layout_range, output.offsets};
+        output.out_expert_token_num = input.num_worst_tokens;
 
         if (input.zero_copy) {
             output.rdma = buffer_->get_next_low_latency_combine_buffer(
@@ -174,7 +166,6 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                 output.out_x = recv_x;
             }
             output.out_topk_weights = recv_topk_weights;
-            output.out_token_num    = recv_x.shape(0);
             output.out_expert_token_num =
                 std::accumulate(num_recv_tokens_per_expert_list.begin(), num_recv_tokens_per_expert_list.end(), 0);
 
diff --git a/src/turbomind/kernels/activation.cu b/src/turbomind/kernels/activation.cu
index 346e64f693..71d8d97e0b 100644
--- a/src/turbomind/kernels/activation.cu
+++ b/src/turbomind/kernels/activation.cu
@@ -5,6 +5,10 @@
 #include "src/turbomind/kernels/core/array_ops.h"
 #include "src/turbomind/kernels/core/common.h"
 
+#include "src/turbomind/utils/cuda_utils.h"
+
+#include <algorithm>
+
 namespace turbomind {
 
 template<class T>
@@ -26,12 +30,18 @@ struct Silu {
 };
 
 template<int vec_size, class Activation, class T>
-__global__ void ActivationKernel(
-    T* gate_buf, const T* __restrict__ up_buf, Activation activation, int64_t stride, int token_num, int dim)
+__global__ void ActivationKernel(T* gate_buf,
+                                 const T* __restrict__ up_buf,
+                                 Activation activation,
+                                 int64_t    stride,
+                                 const int* __restrict__ total_tokens_ptr,
+                                 int token_num,
+                                 int dim)
 {
     if constexpr (TURBOMIND_ARCH_DTYPE_GUARD(data_type_v<T>)) {
+        const int total = total_tokens_ptr ? __ldg(total_tokens_ptr) : token_num;
+
         const int di = threadIdx.x + blockIdx.y * blockDim.x;
-        const int ti = blockIdx.x;
 
         dim /= vec_size;
 
@@ -41,25 +51,28 @@ __global__ void ActivationKernel(
 
         using Vec = Array<T, vec_size>;
 
-        auto p_gate = reinterpret_cast<Vec*>(gate_buf + ti * stride);
-        auto p_up   = reinterpret_cast<const Vec*>(up_buf + ti * stride);
+        for (int ti = blockIdx.x; ti < total; ti += gridDim.x) {
+            auto p_gate = reinterpret_cast<Vec*>(gate_buf + ti * stride);
+            auto p_up   = reinterpret_cast<const Vec*>(up_buf + ti * stride);
 
-        Vec gate;
-        Load(gate, (const T*)&p_gate[di]);
+            Vec gate;
+            Load(gate, (const T*)&p_gate[di]);
 
-        Vec up;
-        Ldg(up, (T*)&p_up[di]);
+            Vec up;
+            Ldg(up, (T*)&p_up[di]);
 
-        PRAGMA_UNROLL
-        for (int i = 0; i < vec_size; ++i) {
-            gate[i] = activation(gate[i], up[i]);
-        }
+            PRAGMA_UNROLL
+            for (int i = 0; i < vec_size; ++i) {
+                gate[i] = activation(gate[i], up[i]);
+            }
 
-        Store((T*)&p_gate[di], gate);
+            Store((T*)&p_gate[di], gate);
+        }
     }
 }
 
-void Activation(Ref<Tensor> gate_, const Tensor& up, ActivationType type, cudaStream_t stream)
+void Activation(
+    Ref<Tensor> gate_, const Tensor& up, ActivationType type, const int* total_tokens_ptr, cudaStream_t stream)
 {
     auto& gate = gate_.get();
 
@@ -74,12 +87,15 @@ void Activation(Ref<Tensor> gate_, const Tensor& up, ActivationType type, cudaSt
         constexpr int vec_size = 4;
         constexpr int threads  = 512;
 
-        const dim3 blocks(num, cdiv(dim, threads * vec_size));
+        static const int sm_count = getSMCount();
+        const int        grid_x   = std::min<int>(num, sm_count * 4);
+        const dim3       blocks(grid_x, cdiv(dim, threads * vec_size));
 
         ActivationKernel<vec_size><<<blocks, threads, 0, stream>>>(gate.data<T>(),  //
                                                                    up.data<T>(),
                                                                    act,
                                                                    gate.stride(0),
+                                                                   total_tokens_ptr,
                                                                    num,
                                                                    dim);
     };
@@ -101,13 +117,19 @@ void Activation(Ref<Tensor> gate_, const Tensor& up, ActivationType type, cudaSt
 }
 
 template<int vec_size, class Activation, class T>
-__global__ void ActivationKernel(
-    T* gate_up, const T* bias, const int* group_ids, int64_t stride, Activation activation, int token_num, int dim)
+__global__ void ActivationKernel(T*         gate_up,
+                                 const T*   bias,
+                                 const int* group_ids,
+                                 int64_t    stride,
+                                 Activation activation,
+                                 const int* __restrict__ total_tokens_ptr,
+                                 int token_num,
+                                 int dim)
 {
     if constexpr (TURBOMIND_ARCH_DTYPE_GUARD(data_type_v<T>)) {
+        const int total = total_tokens_ptr ? __ldg(total_tokens_ptr) : token_num;
+
         const int di = (threadIdx.x + blockIdx.y * blockDim.x) * vec_size;
-        const int ti = blockIdx.x;
-        const int gi = group_ids ? group_ids[ti] : 0;
 
         if (di >= dim) {
             return;
@@ -115,26 +137,30 @@ __global__ void ActivationKernel(
 
         using Vec = Array<T, vec_size>;
 
-        Vec gate_bias{}, up_bias{};
-        Ldg(gate_bias, &bias[gi * stride + di]);
-        Ldg(up_bias, &bias[gi * stride + dim + di]);
+        for (int ti = blockIdx.x; ti < total; ti += gridDim.x) {
+            const int gi = group_ids ? group_ids[ti] : 0;
 
-        Vec gate, up;
-        Load(gate, &gate_up[ti * stride + di]);
-        Load(up, &gate_up[ti * stride + dim + di]);
+            Vec gate_bias{}, up_bias{};
+            Ldg(gate_bias, &bias[gi * stride + di]);
+            Ldg(up_bias, &bias[gi * stride + dim + di]);
 
-        {
-            using namespace ops;
-            gate = gate + gate_bias;
-            up   = up + up_bias;
-        }
+            Vec gate, up;
+            Load(gate, &gate_up[ti * stride + di]);
+            Load(up, &gate_up[ti * stride + dim + di]);
 
-        PRAGMA_UNROLL
-        for (int i = 0; i < vec_size; ++i) {
-            gate[i] = activation(gate[i], up[i]);
-        }
+            {
+                using namespace ops;
+                gate = gate + gate_bias;
+                up   = up + up_bias;
+            }
 
-        Store(&gate_up[ti * stride + di], gate);
+            PRAGMA_UNROLL
+            for (int i = 0; i < vec_size; ++i) {
+                gate[i] = activation(gate[i], up[i]);
+            }
+
+            Store(&gate_up[ti * stride + di], gate);
+        }
     }
 }
 
@@ -142,6 +168,7 @@ void Activation(Tensor&             gate_up,  //
                 const Tensor&       bias,
                 const Buffer_<int>& group_ids,
                 ActivationType      type,
+                const int*          total_tokens_ptr,
                 cudaStream_t        stream)
 {
     const int num = gate_up.shape(0);
@@ -151,6 +178,7 @@ void Activation(Tensor&             gate_up,  //
         Activation(gate_up.slice({0, 0}, {-1, dim}),  //
                    gate_up.slice({0, dim}, {-1, -1}),
                    type,
+                   total_tokens_ptr,
                    stream);
         return;
     }
@@ -163,13 +191,16 @@ void Activation(Tensor&             gate_up,  //
         constexpr int vec_size = 4;
         constexpr int threads  = 512;
 
-        const dim3 blocks(num, cdiv(dim, threads * vec_size));
+        static const int sm_count = getSMCount();
+        const int        grid_x   = std::min<int>(num, sm_count * 4);
+        const dim3       blocks(grid_x, cdiv(dim, threads * vec_size));
 
         ActivationKernel<vec_size><<<blocks, threads, 0, stream>>>(gate_up.data<T>(),  //
                                                                    bias.data_or((T*)nullptr),
                                                                    group_ids.data_or(nullptr),
                                                                    gate_up.stride(0),
                                                                    act,
+                                                                   total_tokens_ptr,
                                                                    num,
                                                                    dim);
     };
diff --git a/src/turbomind/kernels/activation.h b/src/turbomind/kernels/activation.h
index c91fa18b85..3b7b1ccf84 100644
--- a/src/turbomind/kernels/activation.h
+++ b/src/turbomind/kernels/activation.h
@@ -10,12 +10,14 @@ enum class ActivationType
     kSiluGptOss
 };
 
-void Activation(Ref<Tensor> gate, const Tensor& up, ActivationType type, cudaStream_t stream);
+void Activation(
+    Ref<Tensor> gate, const Tensor& up, ActivationType type, const int* total_tokens_ptr, cudaStream_t stream);
 
 void Activation(Tensor&             gate_up,  //
                 const Tensor&       bias,
                 const Buffer_<int>& group_ids,
                 ActivationType      type,
+                const int*          total_tokens_ptr,
                 cudaStream_t        stream);
 
 }  // namespace turbomind
diff --git a/src/turbomind/kernels/gemm/moe_ep_utils.cu b/src/turbomind/kernels/gemm/moe_ep_utils.cu
index a43ce30a70..95335f0583 100644
--- a/src/turbomind/kernels/gemm/moe_ep_utils.cu
+++ b/src/turbomind/kernels/gemm/moe_ep_utils.cu
@@ -11,6 +11,8 @@
 
 #include <cub/block/block_scan.cuh>
 
+#include <algorithm>
+
 namespace turbomind {
 
 template<int max_expert_num, int max_top_k, int items_per_thread, int block_dim, int access_size>
@@ -308,31 +310,35 @@ void invokeMoeRoutingMapEp(int*           f2n,
 }
 
 template<int vec_size, int block_dim, class T>
-__global__ void MoeAddBiasKernel(T* dst, const T* bias, const int* f2E, int dim)
+__global__ void
+MoeAddBiasKernel(T* dst, const T* bias, const int* f2E, const int* __restrict__ total_tokens_ptr, int tokens, int dim)
 {
     if constexpr (TURBOMIND_ARCH_DTYPE_GUARD(data_type_v<T>)) {
-        const int ti = blockIdx.x;
-
-        dst += (int64_t)dim * ti;
-        bias += (int64_t)dim * __ldg(&f2E[ti]);
+        const int total = total_tokens_ptr ? __ldg(total_tokens_ptr) : tokens;
 
         using Vec = Array<T, vec_size>;
 
-        for (int i = threadIdx.x * vec_size; i < dim; i += block_dim * vec_size) {
-            Vec x;
-            Vec b;
-            Load(x, dst + i);
-            Load(b, bias + i);
-            PRAGMA_UNROLL
-            for (int j = 0; j < vec_size; ++j) {
-                x[j] = (T)((float)x[j] + (float)b[j]);
+        for (int ti = blockIdx.x; ti < total; ti += gridDim.x) {
+            T*       dst_row  = dst + (int64_t)dim * ti;
+            const T* bias_row = bias + (int64_t)dim * __ldg(&f2E[ti]);
+
+            for (int i = threadIdx.x * vec_size; i < dim; i += block_dim * vec_size) {
+                Vec x;
+                Vec b;
+                Load(x, dst_row + i);
+                Load(b, bias_row + i);
+                PRAGMA_UNROLL
+                for (int j = 0; j < vec_size; ++j) {
+                    x[j] = (T)((float)x[j] + (float)b[j]);
+                }
+                Store(dst_row + i, x);
             }
-            Store(dst + i, x);
         }
     }
 }
 
-void invokeMoeAddBias(Ref<Tensor> out_, const Tensor& bias, const int* f2E, cudaStream_t st)
+void invokeMoeAddBias(
+    Ref<Tensor> out_, const Tensor& bias, const int* f2E, const int* total_tokens_ptr, cudaStream_t st)
 {
     auto& out = out_.get();
 
@@ -354,7 +360,11 @@ void invokeMoeAddBias(Ref<Tensor> out_, const Tensor& bias, const int* f2E, cuda
 
         TM_CHECK_EQ(dim % vec_size, 0);
 
-        MoeAddBiasKernel<vec_size, threads><<<tokens, threads, 0, st>>>(out.data<T>(), bias.data<T>(), f2E, dim);
+        static const int sm_count = getSMCount();
+        const int        grid     = std::min<int>(tokens, sm_count * 8);
+
+        MoeAddBiasKernel<vec_size, threads>
+            <<<grid, threads, 0, st>>>(out.data<T>(), bias.data<T>(), f2E, total_tokens_ptr, tokens, dim);
         sync_check_cuda_error();
     };
 
@@ -569,44 +579,27 @@ void invokeMoeCombineOutputEp(
     TM_DISPATCH_PRIMARY_DTYPES(src.dtype(), dispatch);
 }
 
-__global__ void MoeLLDispatchRoutingMapKernel(int* moe_recv_counter_mapped,  //
-                                              int* f2n,
-                                              int* f2E,
-                                              const int* __restrict__ offsets,
-                                              int num_max_tokens)
+__global__ void MoeLLDispatchRoutingMapKernel(int* f2n, int* f2E, const int* __restrict__ offsets, int num_max_tokens)
 {
     const int ei    = blockIdx.x;
     const int begin = offsets[ei];
     const int end   = offsets[ei + 1];
 
-    if (ei == gridDim.x - 1 && threadIdx.x == 0) {
-        *moe_recv_counter_mapped = end;
-    }
-
     for (int idx = begin + threadIdx.x; idx < end; idx += blockDim.x) {
         f2n[idx] = ei * num_max_tokens + (idx - begin);
         f2E[idx] = ei;
     }
 }
 
-void invokeMoeLLDispatchPostprocess(int*          f2n,
-                                    int*          f2E,
-                                    const int*    offsets,
-                                    volatile int* moe_recv_counter,
-                                    int*          moe_recv_counter_mapped,
-                                    const Tensor& packed_recv_x,
-                                    cudaStream_t  st)
+void invokeMoeLLDispatchPostprocess(
+    int* f2n, int* f2E, const int* offsets, const Tensor& packed_recv_x, cudaStream_t st)
 {
     const int num_local_experts = packed_recv_x.shape(0);
     const int num_max_tokens    = packed_recv_x.shape(1);
     const int threads           = 256;
 
-    *moe_recv_counter = -1;
-    MoeLLDispatchRoutingMapKernel<<<num_local_experts, threads, 0, st>>>(
-        moe_recv_counter_mapped, f2n, f2E, offsets, num_max_tokens);
+    MoeLLDispatchRoutingMapKernel<<<num_local_experts, threads, 0, st>>>(f2n, f2E, offsets, num_max_tokens);
     sync_check_cuda_error();
-
-    while (*moe_recv_counter < 0) {};
 }
 
 // Reorder deep_ep's sparse LL dispatch scales into the layout expected by the
diff --git a/src/turbomind/kernels/gemm/moe_ep_utils.h b/src/turbomind/kernels/gemm/moe_ep_utils.h
index 0f80fb60c7..eac7b08ec7 100644
--- a/src/turbomind/kernels/gemm/moe_ep_utils.h
+++ b/src/turbomind/kernels/gemm/moe_ep_utils.h
@@ -31,7 +31,8 @@ void invokeMoeRoutingMapEp(int*           f2n,
                            cudaStream_t   stream);
 
 // Add expert-specific bias to received expert outputs in-place for low latency combine.
-void invokeMoeAddBias(Ref<Tensor> out, const Tensor& bias, const int* f2E, cudaStream_t st);
+void invokeMoeAddBias(
+    Ref<Tensor> out, const Tensor& bias, const int* f2E, const int* total_tokens_ptr, cudaStream_t st);
 
 // Local reduce experts outputs before combine in EP mode(High throughput).
 void invokeMoeLocalCombineEp(Ref<Tensor>   out,
@@ -49,13 +50,9 @@ void invokeMoeLocalCombineEp(Ref<Tensor>   out,
 void invokeMoeCombineOutputEp(
     Ref<Tensor> output, const Tensor& src, const float* shared_scales, float scale, cudaStream_t st);
 
-void invokeMoeLLDispatchPostprocess(int*          f2n,
-                                    int*          f2E,
-                                    const int*    offsets,
-                                    volatile int* moe_recv_counter,
-                                    int*          moe_recv_counter_mapped,
-                                    const Tensor& packed_recv_x,
-                                    cudaStream_t  st);
+// Build `f2n` and `f2E` mappings from device-side `offsets`.
+void invokeMoeLLDispatchPostprocess(
+    int* f2n, int* f2E, const int* offsets, const Tensor& packed_recv_x, cudaStream_t st);
 
 // Reorder sparse LL dispatch scales from [E, H/128, max_T] contiguous (deep_ep
 // layout) to [H/128, E*max_T] contiguous (the layout expected by
diff --git a/src/turbomind/kernels/quantization.cu b/src/turbomind/kernels/quantization.cu
index fa68caa19a..95d35ff33a 100644
--- a/src/turbomind/kernels/quantization.cu
+++ b/src/turbomind/kernels/quantization.cu
@@ -25,6 +25,10 @@
 
 #include "src/turbomind/kernels/attention/quantization.h"
 
+#include "src/turbomind/utils/cuda_utils.h"
+
+#include <algorithm>
+
 namespace turbomind {
 
 template<int vec_size, int group_size, class Tout, class Tscale, class T>
@@ -121,11 +125,13 @@ __global__ void dequant_symm_row(Tout*         out,
                                  const Tscale* scales,
                                  int           scales_ld,
                                  const int*    indices,
-                                 int           num,
-                                 int           dim)
+                                 const int* __restrict__ num_ptr,
+                                 int num,
+                                 int dim)
 {
 #if TURBOMIND_ARCH_SM90
     static_assert(group_size % vec_size == 0);
+    num = num_ptr ? __ldg(num_ptr) : num;
     for (int bi = blockIdx.x; bi < num; bi += gridDim.x) {
         const int ti = indices ? __ldg(&indices[bi]) : bi;
         for (int di = threadIdx.x * vec_size; di < dim; di += blockDim.x * vec_size) {
@@ -149,6 +155,12 @@ void DequantizeSymm(Tensor& out, const Tensor& src, const Tensor& scale, cudaStr
 }
 
 void DequantizeSymm(Tensor& out, const Tensor& src, const Tensor& scale, const Tensor& indices, cudaStream_t st)
+{
+    DequantizeSymm(out, src, scale, indices, nullptr, st);
+}
+
+void DequantizeSymm(
+    Tensor& out, const Tensor& src, const Tensor& scale, const Tensor& indices, const int* num_ptr, cudaStream_t st)
 {
     using T      = fp8_e4m3_t;
     using Tout   = bfloat16_t;
@@ -180,15 +192,19 @@ void DequantizeSymm(Tensor& out, const Tensor& src, const Tensor& scale, const T
 
     constexpr int block_dim = 512;
 
-    dequant_symm_row<vec_size, group_size, Tout, Tscale, T><<<num, block_dim, 0, st>>>(out.data<Tout>(),  //
-                                                                                       out.stride(0),
-                                                                                       src.data<T>(),
-                                                                                       src.stride(0),
-                                                                                       scale.data<Tscale>(),
-                                                                                       scale.stride(0),
-                                                                                       idx_ptr,
-                                                                                       num,
-                                                                                       dim);
+    static const int sm_count = getSMCount();
+    const int        grid     = std::min<int>(num, sm_count * 4);
+
+    dequant_symm_row<vec_size, group_size, Tout, Tscale, T><<<grid, block_dim, 0, st>>>(out.data<Tout>(),  //
+                                                                                        out.stride(0),
+                                                                                        src.data<T>(),
+                                                                                        src.stride(0),
+                                                                                        scale.data<Tscale>(),
+                                                                                        scale.stride(0),
+                                                                                        idx_ptr,
+                                                                                        num_ptr,
+                                                                                        num,
+                                                                                        dim);
 }
 
 template<int vec_size, int cta_size, int block_size, class Tout, class Tscale, class T>
diff --git a/src/turbomind/kernels/quantization.h b/src/turbomind/kernels/quantization.h
index 1d5531c22c..b0a013b967 100644
--- a/src/turbomind/kernels/quantization.h
+++ b/src/turbomind/kernels/quantization.h
@@ -8,6 +8,12 @@ void DequantizeSymm(Tensor& out, const Tensor& src, const Tensor& scale, cudaStr
 
 void DequantizeSymm(Tensor& out, const Tensor& src, const Tensor& scale, const Tensor& indices, cudaStream_t st);
 
+// Device-size variant: `indices` is oversized up to an upper bound; `num_ptr` points to a device
+// int scalar that holds the real number of valid rows. Blocks beyond that limit early-exit via a
+// single cached load.
+void DequantizeSymm(
+    Tensor& out, const Tensor& src, const Tensor& scale, const Tensor& indices, const int* num_ptr, cudaStream_t st);
+
 void QuantizeSymmBlock(Ref<Tensor> out_, Ref<Tensor> scale_, const Tensor& src, cudaStream_t st);
 
 void DequantizeSymmBlock(Ref<Tensor> out_, Ref<Tensor> src_, const Tensor& scale, cudaStream_t st);
diff --git a/src/turbomind/models/llama/LlamaFfnLayer.cc b/src/turbomind/models/llama/LlamaFfnLayer.cc
index d9b91bf929..fa68f989ff 100644
--- a/src/turbomind/models/llama/LlamaFfnLayer.cc
+++ b/src/turbomind/models/llama/LlamaFfnLayer.cc
@@ -60,7 +60,7 @@ void LlamaFfnLayer::forward(ForwardParam param)
 
     if (!mlp.is_fused_silu) {
         // gate' = silu(gate) * up
-        Activation(gating, inter, mlp.act_type, stream);
+        Activation(gating, inter, mlp.act_type, nullptr, stream);
         sync_check_cuda_error();
         TM_DEBUG_TENSOR(gating, Concat("act", layer_id), 3);
     }
diff --git a/src/turbomind/models/llama/moe_ffn_layer.cc b/src/turbomind/models/llama/moe_ffn_layer.cc
index f03c6049cb..d33752ef12 100644
--- a/src/turbomind/models/llama/moe_ffn_layer.cc
+++ b/src/turbomind/models/llama/moe_ffn_layer.cc
@@ -73,6 +73,12 @@ MoeFfnLayer::MoeFfnLayer(const ModelParam& model, const MoeParam& param, const E
         topk_weights_ = {max_token_num * param_.experts_per_token, kDEVICE};
         topk_idx_     = {max_token_num * param_.experts_per_token, kDEVICE};
         Clear(offsets_);
+
+        const int max_ll_recv_tokens = max_local_expert_num * param_.ll_max_tokens_per_rank * d_comm_->n_ranks(0);
+        if (f2n_.size() < max_ll_recv_tokens) {
+            f2n_ = {max_ll_recv_tokens, kDEVICE};
+            f2E_ = {max_ll_recv_tokens, kDEVICE};
+        }
     }
 }
 
@@ -199,12 +205,16 @@ void MoeFfnLayer::RouteEP(ForwardParam& p, Tensor_<float>& logits)
     ep_mode_ = p.max_tokens_per_rank <= param_.ll_max_tokens_per_rank ? comm::EpMode::kLowLatency :
                                                                         comm::EpMode::kHighThroughput;
 
-    auto       input_type    = p.weights->block.fused_gating_intermediate.input_type;
-    const bool use_fp8       = input_type == kFloat8_e4m3 || input_type == kBfloat16;
+    const int num_worst_tokens = ep_mode_ == comm::EpMode::kLowLatency ? param_.ll_max_tokens_per_rank * expert_num :
+                                                                         p.max_tokens_per_rank * d_comm_->n_ranks(0);
+
+    const auto input_type    = p.weights->block.fused_gating_intermediate.input_type;
+    const bool use_fp8       = false;  // input_type == kFloat8_e4m3 || input_type == kBfloat16;
     const bool output_scales = use_fp8 && input_type == kFloat8_e4m3;
     const bool zero_copy     = ep_mode_ == comm::EpMode::kLowLatency;
 
-    comm::EpDispatchInput  dispatch_input{ep_mode_, p.input, topk_weights, topk_idx, use_fp8, output_scales, zero_copy};
+    comm::EpDispatchInput dispatch_input{
+        ep_mode_, p.input, topk_weights, topk_idx, num_worst_tokens, use_fp8, output_scales, zero_copy};
     comm::EpDispatchOutput dispatch_output{{}, {}, {}, f2n_, f2E_, en2f_, offsets_, {}};
     d_comm_->Dispatch(dispatch_input, dispatch_output, 0);
     sync_check_cuda_error();
@@ -335,12 +345,15 @@ void MoeFfnLayer::ForwardFused(ForwardParam& p)
     auto indices = f2n_.slice(0, temp_.shape(0));
     auto offsets = offsets_.slice(0, local_expert_num + 1);
 
+    const int* total_tokens_ptr =
+        (dispatch_output_ && ep_mode_ == comm::EpMode::kLowLatency) ? offsets_.data() + local_expert_num : nullptr;
+
     Tensor scales = dispatch_output_ ? dispatch_output_->out_x_scales : Tensor{};  // the ep dispatched scales
     Tensor inter  = linear_.Forward(input_, scales, block.fused_gating_intermediate, indices, offsets);
     sync_check_cuda_error();
 
     if (!block.is_fused_silu) {
-        Activation(inter, block.fused_gating_intermediate.bias, f2E_, moe.block.act_type, st);
+        Activation(inter, block.fused_gating_intermediate.bias, f2E_, moe.block.act_type, total_tokens_ptr, st);
         sync_check_cuda_error();
     }
 
@@ -403,7 +416,9 @@ void MoeFfnLayer::CombineEP(ForwardParam& p)
                                 st);
     }
     else {
-        invokeMoeAddBias(temp_, p.weights->block.output.bias, f2E_.data(), st);
+        const int  local_expert_num = p.weights->experts.size();
+        const int* total_tokens_ptr = offsets_.data() + local_expert_num;
+        invokeMoeAddBias(temp_, p.weights->block.output.bias, f2E_.data(), total_tokens_ptr, st);
     }
     sync_check_cuda_error();
 
diff --git a/src/turbomind/turbomind.cc b/src/turbomind/turbomind.cc
index 59f6114f55..0131de2fe8 100644
--- a/src/turbomind/turbomind.cc
+++ b/src/turbomind/turbomind.cc
@@ -494,7 +494,7 @@ TurboMind::Impl::Impl(string model_dir, string config, FFICtxFactory ffi_ctx_fac
     for (auto it = expert_num.begin(); it != expert_num.end(); ++it) {
         moe_param_.expert_num.push_back(it->as<int>());
     }
-    moe_param_.ll_max_tokens_per_rank = model["ll_max_tokens_per_rank"].as<int>(128);  // -1 means not use low latency
+    moe_param_.ll_max_tokens_per_rank = model["ll_max_tokens_per_rank"].as<int>(256);  // -1 means not use low latency
 
     HandleMissingParams();
 

From 38efa01d7006399e60c6c3dd33985c2eae011c05 Mon Sep 17 00:00:00 2001
From: root <root@gpu-lg-cmc-h-h200-0019.host.h.pjlab.org.cn>
Date: Thu, 23 Apr 2026 13:42:33 +0000
Subject: [PATCH 19/21] remove busy-wait for ht

---
 3rdparty/deep_ep/kernels/internode.cu       |   2 +-
 src/turbomind/comm/device_comm.h            |   7 +-
 src/turbomind/comm/nccl/nccl_comm.h         |   2 +
 src/turbomind/comm/nccl/nccl_ep.cu          | 114 +++++++++-----------
 src/turbomind/kernels/gemm/moe_ep_utils.cu  | 110 +++++++++++--------
 src/turbomind/kernels/gemm/moe_ep_utils.h   |   5 +
 src/turbomind/models/llama/moe_ffn_layer.cc |  24 +++--
 7 files changed, 138 insertions(+), 126 deletions(-)

diff --git a/3rdparty/deep_ep/kernels/internode.cu b/3rdparty/deep_ep/kernels/internode.cu
index e0f7f0b2f1..f0c197f901 100644
--- a/3rdparty/deep_ep/kernels/internode.cu
+++ b/3rdparty/deep_ep/kernels/internode.cu
@@ -340,11 +340,11 @@ __global__ void notify_dispatch(const int* num_tokens_per_rank,
             for (int i = 0; i < NUM_MAX_NVL_PEERS; ++i)
                 sum += nvl_recv_num_tokens_per_expert.buffer(i)[thread_id];
             sum = (sum + expert_alignment - 1) / expert_alignment * expert_alignment;
+            moe_recv_expert_counter_ten[thread_id] = sum;
             if (num_worst_tokens == 0) {
                 while (ld_volatile_global(moe_recv_expert_counter_mapped + thread_id) != -1)
                     ;
                 moe_recv_expert_counter_mapped[thread_id] = sum;
-                moe_recv_expert_counter_ten[thread_id] = sum;
             }
         }
 
diff --git a/src/turbomind/comm/device_comm.h b/src/turbomind/comm/device_comm.h
index 8e2f894fbe..f67b0aa141 100644
--- a/src/turbomind/comm/device_comm.h
+++ b/src/turbomind/comm/device_comm.h
@@ -48,11 +48,10 @@ struct EpDispatchOutput {
     core::Buffer_<int>& en2f;
     core::Buffer_<int>& offsets;
 
-    std::vector<core::Tensor> handle;
-
-    int out_expert_token_num;
+    const int*   num_distinct_tokens_ptr{};  // used for high-throughput
+    core::Tensor rdma;                       // used for low-latency
 
-    core::Tensor rdma;  // used for low-latency
+    std::vector<core::Tensor> handle;
 };
 
 struct EpCombineInput {
diff --git a/src/turbomind/comm/nccl/nccl_comm.h b/src/turbomind/comm/nccl/nccl_comm.h
index 0b13e0aca3..e1fefbaccc 100644
--- a/src/turbomind/comm/nccl/nccl_comm.h
+++ b/src/turbomind/comm/nccl/nccl_comm.h
@@ -111,6 +111,8 @@ class NcclCommImpl: public DeviceCommImpl {
 
 #if NCCL_VERSION_CODE >= NCCL_VERSION(2, 29, 7)
     std::unique_ptr<deep_ep::Buffer> buffer_;
+    size_t                           temp_storage_bytes_;
+    core::Buffer_<uint8_t>           temp_storage_;
 #endif
     EpConfig ep_config_;
 };
diff --git a/src/turbomind/comm/nccl/nccl_ep.cu b/src/turbomind/comm/nccl/nccl_ep.cu
index 2b26d0b78a..0fc1aed85e 100644
--- a/src/turbomind/comm/nccl/nccl_ep.cu
+++ b/src/turbomind/comm/nccl/nccl_ep.cu
@@ -14,7 +14,6 @@
 
 #include <algorithm>
 #include <cstdio>
-#include <numeric>
 
 namespace turbomind::comm {
 
@@ -52,6 +51,10 @@ void NcclCommImpl::InitializeEp(const EpConfig& config)
         false,
         qps_per_rank,
         h_comm_);
+
+    temp_storage_bytes_ = 0;
+    cub::DeviceScan::InclusiveSum(nullptr, temp_storage_bytes_, (int*)nullptr, (int*)nullptr, num_local_experts, 0);
+    temp_storage_ = core::Buffer_<uint8_t>(temp_storage_bytes_, kDEVICE);
 }
 
 void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& output, int group)
@@ -59,6 +62,9 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
     TM_CHECK_EQ(group, 0);
     TM_CHECK(input.mode != EpMode::kNull);
 
+    const int num_local_experts = ep_config_.num_experts / h_comm_->n_ranks();
+    auto      st                = core::Context::stream().handle();
+
     if (input.mode == EpMode::kLowLatency) {
         auto [packed_recv_x, packed_recv_x_scales, packed_recv_count, packed_recv_src_info, packed_recv_layout_range] =
             buffer_->low_latency_dispatch(input.x,
@@ -71,22 +77,9 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                                           false,
                                           false);
         sync_check_cuda_error();
-
-        const int num_local_experts = ep_config_.num_experts / h_comm_->n_ranks();
-
-        auto st = core::Context::stream().handle();
-
         // Compute offsets
-        size_t temp_storage_bytes = 0;
-        cub::DeviceScan::InclusiveSum(nullptr,
-                                      temp_storage_bytes,
-                                      packed_recv_count.data<int>(),
-                                      output.offsets.data() + 1,
-                                      num_local_experts,
-                                      st);
-        Buffer_<uint8_t> temp_storage(temp_storage_bytes, kDEVICE);
-        cub::DeviceScan::InclusiveSum(temp_storage.raw_data(),
-                                      temp_storage_bytes,
+        cub::DeviceScan::InclusiveSum(temp_storage_.raw_data(),
+                                      temp_storage_bytes_,
                                       packed_recv_count.data<int>(),
                                       output.offsets.data() + 1,
                                       num_local_experts,
@@ -124,8 +117,7 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
         }
 
         // Generate output
-        output.handle               = {packed_recv_src_info, packed_recv_layout_range, output.offsets};
-        output.out_expert_token_num = input.num_worst_tokens;
+        output.handle = {packed_recv_src_info, packed_recv_layout_range, output.offsets};
 
         if (input.zero_copy) {
             output.rdma = buffer_->get_next_low_latency_combine_buffer(
@@ -137,67 +129,55 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
             buffer_->get_dispatch_layout(input.topk_idx, ep_config_.num_experts);
         sync_check_cuda_error();
 
-        auto Postprocess = [&](Tensor&                 recv_x,
-                               std::optional<Tensor>&  recv_x_scales,
-                               Tensor&                 recv_topk_weights,
-                               Tensor&                 recv_topk_idx,
-                               const std::vector<int>& num_recv_tokens_per_expert_list,
-                               Tensor&                 num_recv_tokens_per_expert) {
+        auto Postprocess = [&](Tensor&                recv_x,
+                               std::optional<Tensor>& recv_x_scales,
+                               Tensor&                recv_topk_weights,
+                               Tensor&                recv_topk_idx,
+                               Tensor&                num_recv_tokens_per_expert,
+                               const int*             recv_token_num_ptr) {
+            // Compute offsets
+            cub::DeviceScan::InclusiveSum(temp_storage_.raw_data(),
+                                          temp_storage_bytes_,
+                                          num_recv_tokens_per_expert.data<int>(),
+                                          output.offsets.data() + 1,
+                                          num_local_experts,
+                                          st);
+            sync_check_cuda_error();
+
             if (input.use_fp8) {
                 auto&  scales_t = recv_x_scales.value();
                 Tensor x_scales = Tensor{{scales_t.shape(1), scales_t.shape(0)}, scales_t.dtype(), scales_t.device()};
                 if (scales_t.shape(0) > 0) {
-                    invokeTransposeAxis01(x_scales.data<float>(),
-                                          scales_t.data<float>(),
-                                          scales_t.shape(0),
-                                          scales_t.shape(1),
-                                          1,
-                                          core::Context::stream().handle());
+                    invokeTransposeAxis01(
+                        x_scales.data<float>(), scales_t.data<float>(), scales_t.shape(0), scales_t.shape(1), 1, st);
                 }
                 if (input.output_scales) {
                     output.out_x        = recv_x;
                     output.out_x_scales = x_scales;
                 }
                 else {
-                    DequantizeSymm(output.out_x, recv_x, x_scales, core::Context::stream().handle());
+                    DequantizeSymm(output.out_x, recv_x, x_scales, Tensor{}, recv_token_num_ptr, st);
                 }
             }
             else {
                 output.out_x = recv_x;
             }
-            output.out_topk_weights = recv_topk_weights;
-            output.out_expert_token_num =
-                std::accumulate(num_recv_tokens_per_expert_list.begin(), num_recv_tokens_per_expert_list.end(), 0);
+            const int topk = input.topk_idx.shape(1);
 
-            const int num_local_experts = num_recv_tokens_per_expert_list.size();
-            const int topk              = input.topk_idx.shape(1);
-            const int num_recv_tokens   = recv_x.shape(0);
-            auto      st                = core::Context::stream().handle();
+            output.out_topk_weights        = recv_topk_weights;
+            output.num_distinct_tokens_ptr = recv_token_num_ptr;
 
-            // Compute offsets
-            size_t temp_storage_bytes = 0;
-            cub::DeviceScan::InclusiveSum(nullptr,
-                                          temp_storage_bytes,
-                                          num_recv_tokens_per_expert.data<int>(),
-                                          output.offsets.data() + 1,
-                                          num_local_experts,
-                                          st);
-            Buffer_<uint8_t> temp_storage(temp_storage_bytes, kDEVICE);
-            cub::DeviceScan::InclusiveSum(temp_storage.raw_data(),
-                                          temp_storage_bytes,
-                                          num_recv_tokens_per_expert.data<int>(),
-                                          output.offsets.data() + 1,
-                                          num_local_experts,
-                                          st);
-            sync_check_cuda_error();
-
-            // Compute f2n, f2E, en2f
+            // Build the recv-token -> expert-token routing map. The device-side limit here
+            // must be the real recv-token count, because `recv_topk_idx` is token-major.
+            // `offsets.back()` is the real flattened expert-token total, not the distinct
+            // received-token total in `recv_x/recv_topk_*`.
             turbomind::invokeMoeRoutingMapEp(output.f2n.data(),
                                              output.f2E.data(),
                                              output.en2f.data(),
                                              output.offsets.data(),
                                              recv_topk_idx.data_or((int64_t*)nullptr),
-                                             num_recv_tokens,
+                                             recv_token_num_ptr,
+                                             recv_x.shape(0),
                                              topk,
                                              num_local_experts,
                                              st);
@@ -244,7 +224,7 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                                                                std::nullopt,
                                                                std::nullopt,
                                                                1,
-                                                               0,
+                                                               input.num_worst_tokens,
                                                                config);
             sync_check_cuda_error();
 
@@ -260,12 +240,13 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                              send_rdma_head.value(),
                              send_nvl_head.value()};
 
+            const int* recv_token_num_ptr = recv_gbl_rank_prefix_sum.data<int>() + h_comm_->n_ranks() - 1;
             Postprocess(recv_x,  //
                         recv_x_scales,
                         recv_topk_weights.value(),
                         recv_topk_idx.value(),
-                        num_recv_tokens_per_expert_list,
-                        num_recv_tokens_per_expert);
+                        num_recv_tokens_per_expert,
+                        recv_token_num_ptr);
         }
         else {
             // intranode dispatch
@@ -299,7 +280,7 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                                                            std::nullopt,
                                                            std::nullopt,
                                                            1,
-                                                           0,
+                                                           input.num_worst_tokens,
                                                            config);
             sync_check_cuda_error();
 
@@ -311,12 +292,15 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                              is_token_in_rank,
                              send_head};
 
+            const int  nranks             = h_comm_->n_ranks();
+            const int  rank               = h_comm_->rank();
+            const int* recv_token_num_ptr = rank_prefix_matrix.data<int>() + (nranks - 1) * nranks + rank;
             Postprocess(recv_x,  //
                         recv_x_scales,
                         recv_topk_weights.value(),
                         recv_topk_idx.value(),
-                        num_recv_tokens_per_expert_list,
-                        num_recv_tokens_per_expert);
+                        num_recv_tokens_per_expert,
+                        recv_token_num_ptr);
         }
     }
 }
@@ -362,7 +346,7 @@ void NcclCommImpl::Combine(const EpCombineInput& input, EpCombineOutput& output,
             auto combined_nvl_head          = input.handle[9];
 
             auto [combined_x, combined_topk_weights] = buffer_->internode_combine(input.x,
-                                                                                  input.topk_weights,
+                                                                                  std::nullopt,
                                                                                   std::nullopt,
                                                                                   std::nullopt,
                                                                                   src_meta,
@@ -386,7 +370,7 @@ void NcclCommImpl::Combine(const EpCombineInput& input, EpCombineOutput& output,
             auto send_head             = input.handle[5];
 
             auto [recv_x, recv_topk_weights] = buffer_->intranode_combine(input.x,
-                                                                          input.topk_weights,
+                                                                          std::nullopt,
                                                                           std::nullopt,
                                                                           std::nullopt,
                                                                           src_idx,
diff --git a/src/turbomind/kernels/gemm/moe_ep_utils.cu b/src/turbomind/kernels/gemm/moe_ep_utils.cu
index 95335f0583..3a6d69b716 100644
--- a/src/turbomind/kernels/gemm/moe_ep_utils.cu
+++ b/src/turbomind/kernels/gemm/moe_ep_utils.cu
@@ -242,9 +242,17 @@ void invokeMoeGateEp(float*       topk_weights,
 
 // Kernel: compute f2n, f2E, en2f from recv_topk_idx after EP dispatch.
 // One CTA per local expert. Each CTA scans all received tokens in chunks,
+// bounded by the real total (via `total_tokens_ptr`) when supplied so that
+// padding rows past the real count cost no BlockScan iterations.
 template<int block_dim>
-__global__ void MoeEpRoutingMapKernel(
-    int* f2n, int* f2E, int* en2f, const int* offsets, const int64_t* recv_topk_idx, int num_tokens, int topk)
+__global__ void MoeEpRoutingMapKernel(int*           f2n,
+                                      int*           f2E,
+                                      int*           en2f,
+                                      const int*     offsets,
+                                      const int64_t* recv_topk_idx,
+                                      const int* __restrict__ total_tokens_ptr,
+                                      int num_tokens,
+                                      int topk)
 {
     using BlockScan = cub::BlockScan<int, block_dim>;
     __shared__ typename BlockScan::TempStorage temp_storage;
@@ -253,15 +261,17 @@ __global__ void MoeEpRoutingMapKernel(
 
     int write_offset = offsets[local_eid];
 
+    const int total = total_tokens_ptr ? __ldg(total_tokens_ptr) : num_tokens;
+
     // All threads iterate the same number of chunks (base is thread-independent).
-    // Threads with ti >= num_tokens contribute flag=0 to BlockScan.
-    const int num_chunks = ceil_div(num_tokens, block_dim);
+    // Threads with ti >= total contribute flag=0 to BlockScan.
+    const int num_chunks = ceil_div(total, block_dim);
     for (int chunk = 0; chunk < num_chunks; ++chunk) {
         const int ti = chunk * block_dim + threadIdx.x;
 
         // Check if this token is assigned to this expert
         int match_k = -1;
-        if (ti < num_tokens) {
+        if (ti < total) {
             for (int k = 0; k < topk; ++k) {
                 if (static_cast<int>(recv_topk_idx[ti * topk + k]) == local_eid) {
                     match_k = k;
@@ -292,6 +302,7 @@ void invokeMoeRoutingMapEp(int*           f2n,
                            int*           en2f,
                            int*           offsets,
                            const int64_t* recv_topk_idx,
+                           const int*     total_tokens_ptr,
                            int            num_tokens,
                            int            topk,
                            int            num_local_experts,
@@ -304,8 +315,8 @@ void invokeMoeRoutingMapEp(int*           f2n,
     constexpr int block = 256;
     check_cuda_error(cudaMemsetAsync(en2f, -1, sizeof(int) * num_tokens * topk, stream));
     // One CTA per local expert
-    MoeEpRoutingMapKernel<block>
-        <<<num_local_experts, block, 0, stream>>>(f2n, f2E, en2f, offsets, recv_topk_idx, num_tokens, topk);
+    MoeEpRoutingMapKernel<block><<<num_local_experts, block, 0, stream>>>(
+        f2n, f2E, en2f, offsets, recv_topk_idx, total_tokens_ptr, num_tokens, topk);
     sync_check_cuda_error();
 }
 
@@ -371,7 +382,7 @@ void invokeMoeAddBias(
     TM_DISPATCH_PRIMARY_DTYPES(out.dtype(), dispatch);
 }
 
-// Combine kernel for EP mode: one CTA per received token.
+// Combine kernel for EP mode: one CTA per received token via grid-stride loop.
 // For each token, gather expert outputs weighted by topk_weights and sum them.
 // en2f[k * tokens + ti] gives the flat index in src for token ti's k-th expert slot,
 // or -1 if no local expert matched that slot.
@@ -383,54 +394,57 @@ __global__ void MoeCombineKernel(T*           dst,           // [num_tokens, dim
                                  const int*   en2f,          // [topk, num_tokens]
                                  const int*   f2E,           // [expert_token_num]
                                  int          dim,
-                                 int          tokens)
+                                 const int* __restrict__ total_tokens_ptr,
+                                 int tokens)
 {
     if constexpr (TURBOMIND_ARCH_DTYPE_GUARD(data_type_v<T>)) {
-        const int ti = blockIdx.x;
+        const int total = total_tokens_ptr ? __ldg(total_tokens_ptr) : tokens;
 
-        dst += (int64_t)dim * ti;
+        for (int ti = blockIdx.x; ti < total; ti += gridDim.x) {
+            T* dst_row = dst + (int64_t)dim * ti;
 
-        // Gather source pointers and weights for this token's expert slots
-        const T* src_[exp_k]{};
-        const T* bias_[exp_k]{};
-        float    weight[exp_k]{};
+            // Gather source pointers and weights for this token's expert slots
+            const T* src_[exp_k]{};
+            const T* bias_[exp_k]{};
+            float    weight[exp_k]{};
 
-        PRAGMA_UNROLL
-        for (int e = 0; e < exp_k; ++e) {
-            const int fid = __ldg(&en2f[e * tokens + ti]);
-            if (fid >= 0) {
-                src_[e]   = src + (int64_t)dim * fid;
-                weight[e] = __ldg(&topk_weights[ti * exp_k + e]);
-                if constexpr (has_bias) {
-                    bias_[e] = bias + (int64_t)dim * __ldg(&f2E[fid]);
+            PRAGMA_UNROLL
+            for (int e = 0; e < exp_k; ++e) {
+                const int fid = __ldg(&en2f[e * tokens + ti]);
+                if (fid >= 0) {
+                    src_[e]   = src + (int64_t)dim * fid;
+                    weight[e] = __ldg(&topk_weights[ti * exp_k + e]);
+                    if constexpr (has_bias) {
+                        bias_[e] = bias + (int64_t)dim * __ldg(&f2E[fid]);
+                    }
                 }
             }
-        }
 
-        using Vec = Array<T, vec_size>;
+            using Vec = Array<T, vec_size>;
 
-        for (int i = threadIdx.x * vec_size; i < dim; i += block_dim * vec_size) {
-            Array<float, vec_size> accum{};
-            PRAGMA_UNROLL
-            for (int e = 0; e < exp_k; ++e) {
-                if (src_[e] == nullptr) {
-                    continue;
-                }
-                Vec v;
-                Load(v, src_[e] + i);
-                if constexpr (has_bias) {
-                    Vec b;
-                    Load(b, bias_[e] + i);
-                    PRAGMA_UNROLL
-                    for (int j = 0; j < vec_size; ++j) {
-                        v[j] = (T)((float)v[j] + (float)b[j]);
+            for (int i = threadIdx.x * vec_size; i < dim; i += block_dim * vec_size) {
+                Array<float, vec_size> accum{};
+                PRAGMA_UNROLL
+                for (int e = 0; e < exp_k; ++e) {
+                    if (src_[e] == nullptr) {
+                        continue;
                     }
+                    Vec v;
+                    Load(v, src_[e] + i);
+                    if constexpr (has_bias) {
+                        Vec b;
+                        Load(b, bias_[e] + i);
+                        PRAGMA_UNROLL
+                        for (int j = 0; j < vec_size; ++j) {
+                            v[j] = (T)((float)v[j] + (float)b[j]);
+                        }
+                    }
+                    using namespace ops;
+                    const auto x = cast<float>(v) * weight[e];
+                    accum        = accum + x;
                 }
-                using namespace ops;
-                const auto x = cast<float>(v) * weight[e];
-                accum        = accum + x;
+                Store(&dst_row[i], cast<T>(accum));
             }
-            Store(&dst[i], cast<T>(accum));
         }
     }
 }
@@ -442,6 +456,7 @@ void invokeMoeLocalCombineEp(Ref<Tensor>   out_,
                              const int*    en2f,
                              const int*    f2E,
                              int           experts_per_token,
+                             const int*    total_tokens_ptr,
                              cudaStream_t  st)
 {
     auto& out = out_.get();
@@ -460,7 +475,11 @@ void invokeMoeLocalCombineEp(Ref<Tensor>   out_,
         constexpr int  vsize       = 16 / sizeof(T);
         constexpr int  exp_per_tok = decltype(e)::value;
         constexpr bool has_bias    = decltype(has_bias_)::value;
-        MoeCombineKernel<vsize, exp_per_tok, has_bias, threads><<<tokens, threads, 0, st>>>(  //
+
+        static const int sm_count = getSMCount();
+        const int        grid     = std::min<int>(tokens, sm_count * 4);
+
+        MoeCombineKernel<vsize, exp_per_tok, has_bias, threads><<<grid, threads, 0, st>>>(  //
             out.data<T>(),
             src.data<T>(),
             bias.data_or((T*)nullptr),
@@ -468,6 +487,7 @@ void invokeMoeLocalCombineEp(Ref<Tensor>   out_,
             en2f,
             f2E,
             dim,
+            total_tokens_ptr,
             tokens);
         sync_check_cuda_error();
     };
diff --git a/src/turbomind/kernels/gemm/moe_ep_utils.h b/src/turbomind/kernels/gemm/moe_ep_utils.h
index eac7b08ec7..36e7487f9e 100644
--- a/src/turbomind/kernels/gemm/moe_ep_utils.h
+++ b/src/turbomind/kernels/gemm/moe_ep_utils.h
@@ -25,6 +25,7 @@ void invokeMoeRoutingMapEp(int*           f2n,
                            int*           en2f,
                            int*           offsets,
                            const int64_t* recv_topk_idx,
+                           const int*     total_tokens_ptr,
                            int            num_tokens,
                            int            topk,
                            int            num_local_experts,
@@ -35,6 +36,9 @@ void invokeMoeAddBias(
     Ref<Tensor> out, const Tensor& bias, const int* f2E, const int* total_tokens_ptr, cudaStream_t st);
 
 // Local reduce experts outputs before combine in EP mode(High throughput).
+// `out.shape(0)` is an upper bound on received tokens; when `total_tokens_ptr` is
+// non-null the kernel caps its grid-stride loop at the real total, so padding
+// rows cost no per-token work.
 void invokeMoeLocalCombineEp(Ref<Tensor>   out,
                              const Tensor& src,
                              const Tensor& bias,
@@ -42,6 +46,7 @@ void invokeMoeLocalCombineEp(Ref<Tensor>   out,
                              const int*    en2f,
                              const int*    f2E,
                              int           experts_per_token,
+                             const int*    total_tokens_ptr,
                              cudaStream_t  st);
 
 // Combine EP expert reduce result with shared expert output.
diff --git a/src/turbomind/models/llama/moe_ffn_layer.cc b/src/turbomind/models/llama/moe_ffn_layer.cc
index d33752ef12..1b73f17f81 100644
--- a/src/turbomind/models/llama/moe_ffn_layer.cc
+++ b/src/turbomind/models/llama/moe_ffn_layer.cc
@@ -205,8 +205,14 @@ void MoeFfnLayer::RouteEP(ForwardParam& p, Tensor_<float>& logits)
     ep_mode_ = p.max_tokens_per_rank <= param_.ll_max_tokens_per_rank ? comm::EpMode::kLowLatency :
                                                                         comm::EpMode::kHighThroughput;
 
+    // HT `num_worst_tokens` is the upper bound on distinct tokens received by this rank after dispatch.
     const int num_worst_tokens = ep_mode_ == comm::EpMode::kLowLatency ? param_.ll_max_tokens_per_rank * expert_num :
                                                                          p.max_tokens_per_rank * d_comm_->n_ranks(0);
+    const int num_worst_flat_tokens =
+        ep_mode_ == comm::EpMode::kLowLatency ? num_worst_tokens : num_worst_tokens * param_.experts_per_token;
+    TM_CHECK_LE(num_worst_flat_tokens, f2n_.size());
+    TM_CHECK_LE(num_worst_flat_tokens, f2E_.size());
+    TM_CHECK_LE(p.max_tokens_per_rank * d_comm_->n_ranks(0) * param_.experts_per_token, en2f_.size());
 
     const auto input_type    = p.weights->block.fused_gating_intermediate.input_type;
     const bool use_fp8       = false;  // input_type == kFloat8_e4m3 || input_type == kBfloat16;
@@ -221,14 +227,10 @@ void MoeFfnLayer::RouteEP(ForwardParam& p, Tensor_<float>& logits)
 
     input_ = dispatch_output.out_x;
     if (dispatch_output.rdma) {
-        // Zero-copy low-latency: point temp_ at the deep_ep combine send buffer so the
-        // down-proj writes land directly in the RDMA window. Flatten the
-        // (E_local, ranks*max_T, hidden) view to 2D and slice to the packed output size.
-        auto flat = dispatch_output.rdma.view({-1, hidden_dim_});
-        temp_     = flat.slice({0, 0}, {dispatch_output.out_expert_token_num, -1});
+        temp_ = dispatch_output.rdma.view({-1, hidden_dim_});
     }
     else {
-        temp_ = Tensor{{dispatch_output.out_expert_token_num, hidden_dim_}, p.input.dtype(), p.input.device()};
+        temp_ = Tensor{{num_worst_flat_tokens, hidden_dim_}, p.input.dtype(), p.input.device()};
     }
 
     // keep dispatch_output for combine
@@ -345,15 +347,14 @@ void MoeFfnLayer::ForwardFused(ForwardParam& p)
     auto indices = f2n_.slice(0, temp_.shape(0));
     auto offsets = offsets_.slice(0, local_expert_num + 1);
 
-    const int* total_tokens_ptr =
-        (dispatch_output_ && ep_mode_ == comm::EpMode::kLowLatency) ? offsets_.data() + local_expert_num : nullptr;
+    const int* num_flat_tok_ptr = (ep_mode_ != comm::EpMode::kNull) ? offsets_.data() + local_expert_num : nullptr;
 
     Tensor scales = dispatch_output_ ? dispatch_output_->out_x_scales : Tensor{};  // the ep dispatched scales
     Tensor inter  = linear_.Forward(input_, scales, block.fused_gating_intermediate, indices, offsets);
     sync_check_cuda_error();
 
     if (!block.is_fused_silu) {
-        Activation(inter, block.fused_gating_intermediate.bias, f2E_, moe.block.act_type, total_tokens_ptr, st);
+        Activation(inter, block.fused_gating_intermediate.bias, f2E_, moe.block.act_type, num_flat_tok_ptr, st);
         sync_check_cuda_error();
     }
 
@@ -413,12 +414,13 @@ void MoeFfnLayer::CombineEP(ForwardParam& p)
                                 en2f_.data(),
                                 f2E_.data(),
                                 param_.experts_per_token,
+                                dispatch_output_->num_distinct_tokens_ptr,
                                 st);
     }
     else {
         const int  local_expert_num = p.weights->experts.size();
-        const int* total_tokens_ptr = offsets_.data() + local_expert_num;
-        invokeMoeAddBias(temp_, p.weights->block.output.bias, f2E_.data(), total_tokens_ptr, st);
+        const int* num_flat_tok_ptr = (ep_mode_ != comm::EpMode::kNull) ? offsets_.data() + local_expert_num : nullptr;
+        invokeMoeAddBias(temp_, p.weights->block.output.bias, f2E_.data(), num_flat_tok_ptr, st);
     }
     sync_check_cuda_error();
 

From fb0abad69db953d55edfcce46d98295432733a5c Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Sun, 26 Apr 2026 07:58:23 +0000
Subject: [PATCH 20/21] fix ht combine after removing busy-wait

---
 3rdparty/deep_ep/deep_ep.cpp          |  2 ++
 3rdparty/deep_ep/deep_ep.hpp          |  1 +
 3rdparty/deep_ep/kernels/api.cuh      |  1 +
 3rdparty/deep_ep/kernels/internode.cu | 10 +++++++++-
 src/turbomind/comm/nccl/nccl_ep.cu    |  9 +++++++++
 5 files changed, 22 insertions(+), 1 deletion(-)

diff --git a/3rdparty/deep_ep/deep_ep.cpp b/3rdparty/deep_ep/deep_ep.cpp
index 61becf0ce9..fd808eb5b8 100644
--- a/3rdparty/deep_ep/deep_ep.cpp
+++ b/3rdparty/deep_ep/deep_ep.cpp
@@ -1428,6 +1428,7 @@ Buffer::internode_combine(const Tensor&                x,
                           const Tensor&                gbl_channel_prefix_matrix,
                           Tensor&                      combined_rdma_head,
                           Tensor&                      combined_nvl_head,
+                          const int*                   num_recv_tokens_ptr,
                           const Config&                config)
 {
     const int num_channels = config.num_sms / 2;
@@ -1545,6 +1546,7 @@ Buffer::internode_combine(const Tensor&                x,
                        rdma_channel_prefix_matrix.data<int>(),
                        rdma_rank_prefix_sum.data<int>(),
                        gbl_channel_prefix_matrix.data<int>(),
+                       num_recv_tokens_ptr,
                        num_tokens,
                        num_combined_tokens,
                        hidden,
diff --git a/3rdparty/deep_ep/deep_ep.hpp b/3rdparty/deep_ep/deep_ep.hpp
index 1e4fcf1792..e177b5c5d5 100644
--- a/3rdparty/deep_ep/deep_ep.hpp
+++ b/3rdparty/deep_ep/deep_ep.hpp
@@ -263,6 +263,7 @@ class Buffer {
                       const Tensor&                gbl_channel_prefix_matrix,
                       Tensor&                      combined_rdma_head,
                       Tensor&                      combined_nvl_head,
+                      const int*                   num_recv_tokens_ptr,
                       const Config&                config);
 
     Config get_dispatch_config();
diff --git a/3rdparty/deep_ep/kernels/api.cuh b/3rdparty/deep_ep/kernels/api.cuh
index 7058156853..47eb8c4f76 100644
--- a/3rdparty/deep_ep/kernels/api.cuh
+++ b/3rdparty/deep_ep/kernels/api.cuh
@@ -278,6 +278,7 @@ void combine(cudaDataType_t type,
              const int*     rdma_channel_prefix_matrix,
              const int*     rdma_rank_prefix_sum,
              const int*     gbl_channel_prefix_matrix,
+             const int*     num_recv_tokens_ptr,
              int            num_tokens,
              int            num_combined_tokens,
              int            hidden,
diff --git a/3rdparty/deep_ep/kernels/internode.cu b/3rdparty/deep_ep/kernels/internode.cu
index f0c197f901..6b67c534fe 100644
--- a/3rdparty/deep_ep/kernels/internode.cu
+++ b/3rdparty/deep_ep/kernels/internode.cu
@@ -1901,6 +1901,7 @@ __global__ void __launch_bounds__((kNumForwarders + 1) * 32, 1) combine(int4* co
                                                                         const int* rdma_channel_prefix_matrix,
                                                                         const int* rdma_rank_prefix_sum,
                                                                         const int* gbl_channel_prefix_matrix,
+                                                                        const int* num_recv_tokens_ptr,
                                                                         int num_tokens,
                                                                         int num_combined_tokens,
                                                                         int hidden,
@@ -2005,7 +2006,12 @@ __global__ void __launch_bounds__((kNumForwarders + 1) * 32, 1) combine(int4* co
         if (lane_id < kNumRDMARanks) {
             int prefix_idx = (lane_id * NUM_MAX_NVL_PEERS + dst_nvl_rank) * num_channels + channel_id;
             token_start_idx = gbl_channel_prefix_matrix[prefix_idx];
-            token_end_idx = (prefix_idx == num_channels * num_ranks - 1) ? num_tokens : gbl_channel_prefix_matrix[prefix_idx + 1];
+            // The last `(rdma, nvl, channel)` slot has no `+1` neighbor, so its upper bound has to come
+            // from the real recv-token total. When `num_recv_tokens_ptr` is supplied (HT dispatch with
+            // `num_worst_tokens > 0` pads `x` to the worst-case size), read the device-side total to
+            // avoid sending into the padding region. Otherwise fall back to the input shape.
+            const int real_num_tokens = num_recv_tokens_ptr != nullptr ? __ldg(num_recv_tokens_ptr) : num_tokens;
+            token_end_idx = (prefix_idx == num_channels * num_ranks - 1) ? real_num_tokens : gbl_channel_prefix_matrix[prefix_idx + 1];
         }
         __syncwarp();
 
@@ -2513,6 +2519,7 @@ void combine(cudaDataType_t type,
              const int* rdma_channel_prefix_matrix,
              const int* rdma_rank_prefix_sum,
              const int* gbl_channel_prefix_matrix,
+             const int* num_recv_tokens_ptr,
              int num_tokens,
              int num_combined_tokens,
              int hidden,
@@ -2568,6 +2575,7 @@ void combine(cudaDataType_t type,
                       rdma_channel_prefix_matrix,                                     \
                       rdma_rank_prefix_sum,                                           \
                       gbl_channel_prefix_matrix,                                      \
+                      num_recv_tokens_ptr,                                            \
                       num_tokens,                                                     \
                       num_combined_tokens,                                            \
                       hidden,                                                         \
diff --git a/src/turbomind/comm/nccl/nccl_ep.cu b/src/turbomind/comm/nccl/nccl_ep.cu
index 0fc1aed85e..c7c4486355 100644
--- a/src/turbomind/comm/nccl/nccl_ep.cu
+++ b/src/turbomind/comm/nccl/nccl_ep.cu
@@ -345,6 +345,14 @@ void NcclCommImpl::Combine(const EpCombineInput& input, EpCombineOutput& output,
             auto combined_rdma_head         = input.handle[8];
             auto combined_nvl_head          = input.handle[9];
 
+            // Real recv-token total lives at the last slot of `recv_gbl_rank_prefix_sum`. The
+            // internode combine kernel needs it to bound the very last (rdma, nvl, channel)
+            // task range when HT dispatch was called with `num_worst_tokens > 0` (which pads
+            // `input.x` past the real total).
+            auto       recv_gbl_rank_prefix_sum = input.handle[6];
+            const int* num_recv_tokens_ptr =
+                recv_gbl_rank_prefix_sum.data<int>() + recv_gbl_rank_prefix_sum.shape(0) - 1;
+
             auto [combined_x, combined_topk_weights] = buffer_->internode_combine(input.x,
                                                                                   std::nullopt,
                                                                                   std::nullopt,
@@ -356,6 +364,7 @@ void NcclCommImpl::Combine(const EpCombineInput& input, EpCombineOutput& output,
                                                                                   gbl_channel_prefix_matrix,
                                                                                   combined_rdma_head,
                                                                                   combined_nvl_head,
+                                                                                  num_recv_tokens_ptr,
                                                                                   config);
             sync_check_cuda_error();
             output.out_x = combined_x;

From aa2078458356d0d1dfd57cb5deeaf38ba82c856b Mon Sep 17 00:00:00 2001
From: irexyc <irexyc@gmail.com>
Date: Sun, 3 May 2026 07:41:32 +0000
Subject: [PATCH 21/21] allocate buffer in advance

---
 3rdparty/deep_ep/deep_ep.cpp                  | 166 ++++++++++++------
 3rdparty/deep_ep/deep_ep.hpp                  |  45 +++++
 3rdparty/deep_ep/kernels/internode_ll.cu      |   2 +-
 src/turbomind/comm/device_comm.h              |   3 +
 src/turbomind/comm/nccl/nccl_ep.cu            |   7 +
 src/turbomind/models/llama/moe_ffn_layer.cc   |  10 +-
 src/turbomind/models/llama/moe_ffn_layer.h    |   1 +
 src/turbomind/models/llama/unified_decoder.cc |   6 +
 src/turbomind/turbomind.cc                    |   2 +
 9 files changed, 189 insertions(+), 53 deletions(-)

diff --git a/3rdparty/deep_ep/deep_ep.cpp b/3rdparty/deep_ep/deep_ep.cpp
index fd808eb5b8..ba8c438f75 100644
--- a/3rdparty/deep_ep/deep_ep.cpp
+++ b/3rdparty/deep_ep/deep_ep.cpp
@@ -18,9 +18,6 @@
 #include <type_traits>
 #include <unordered_map>
 
-using turbomind::fmtstr;
-using turbomind::round_up;
-
 namespace shared_memory {
 void cu_mem_set_access_all(void* ptr, size_t size)
 {
@@ -158,6 +155,11 @@ Buffer::Buffer(int      rank,
                bool     enable_shrink,
                bool     use_fabric,
                int      qps_per_rank,
+               int      num_max_tokens_per_rank_ht,
+               int      num_max_tokens_per_rank_ll,
+               int      num_experts,
+               int      experts_per_token,
+               int      hidden,
                HostComm h_comm):
     rank(rank),
     num_ranks(num_ranks),
@@ -233,6 +235,70 @@ Buffer::Buffer(int      rank,
         allocate_rdma_buffer();
     }
 
+    // Allocate buffer in advance
+    {
+        const auto num_local_experts    = num_experts / num_ranks;
+        const auto max_recv_tokens      = (int64_t)num_max_tokens_per_rank_ht * num_ranks;
+        const auto max_rdma_recv_tokens = (int64_t)num_max_tokens_per_rank_ht * num_ranks;
+        const auto max_num_scales       = ceil_div<int64_t>(hidden, 128);
+
+        ht_buffer.moe_recv_expert_counter =
+            turbomind::core::Buffer(num_local_experts, turbomind::kInt32, turbomind::kDEVICE);
+        // recv_x_scales: allocated as float32 (4B), viewed as int32 (4B) when ue8m0.
+        ht_buffer.recv_x_scales =
+            turbomind::core::Buffer(max_recv_tokens * max_num_scales, turbomind::kFloat32, turbomind::kDEVICE);
+        ht_buffer.recv_topk_idx =
+            turbomind::core::Buffer(max_recv_tokens * experts_per_token, turbomind::kInt64, turbomind::kDEVICE);
+        ht_buffer.recv_topk_weights =
+            turbomind::core::Buffer(max_recv_tokens * experts_per_token, turbomind::kFloat32, turbomind::kDEVICE);
+        ht_buffer.recv_src_idx = turbomind::core::Buffer(max_recv_tokens, turbomind::kInt32, turbomind::kDEVICE);
+        ht_buffer.send_head =
+            turbomind::core::Buffer(num_max_tokens_per_rank_ht * num_ranks, turbomind::kInt32, turbomind::kDEVICE);
+        ht_buffer.recv_src_meta = turbomind::core::Buffer(
+            max_recv_tokens * internode::get_source_meta_bytes(), turbomind::kUint8, turbomind::kDEVICE);
+        ht_buffer.rank_prefix_matrix =
+            turbomind::core::Buffer((int64_t)num_ranks * num_ranks, turbomind::kInt32, turbomind::kDEVICE);
+        ht_buffer.channel_prefix_matrix =
+            turbomind::core::Buffer((int64_t)num_ranks * num_device_sms / 2, turbomind::kInt32, turbomind::kDEVICE);
+        ht_buffer.recv_channel_prefix_matrix =
+            turbomind::core::Buffer((int64_t)num_ranks * num_device_sms / 2, turbomind::kInt32, turbomind::kDEVICE);
+        ht_buffer.rdma_channel_prefix_matrix = turbomind::core::Buffer(
+            (int64_t)num_rdma_ranks * num_device_sms / 2, turbomind::kInt32, turbomind::kDEVICE);
+        ht_buffer.recv_rdma_rank_prefix_sum =
+            turbomind::core::Buffer(num_rdma_ranks, turbomind::kInt32, turbomind::kDEVICE);
+        ht_buffer.gbl_channel_prefix_matrix =
+            turbomind::core::Buffer((int64_t)num_ranks * num_device_sms / 2, turbomind::kInt32, turbomind::kDEVICE);
+        ht_buffer.recv_gbl_rank_prefix_sum = turbomind::core::Buffer(num_ranks, turbomind::kInt32, turbomind::kDEVICE);
+        ht_buffer.recv_rdma_channel_prefix_matrix = turbomind::core::Buffer(
+            (int64_t)num_rdma_ranks * num_device_sms / 2, turbomind::kInt32, turbomind::kDEVICE);
+        ht_buffer.recv_gbl_channel_prefix_matrix =
+            turbomind::core::Buffer((int64_t)num_ranks * num_device_sms / 2, turbomind::kInt32, turbomind::kDEVICE);
+        ht_buffer.send_rdma_head =
+            turbomind::core::Buffer(num_max_tokens_per_rank_ht * num_rdma_ranks, turbomind::kInt32, turbomind::kDEVICE);
+        ht_buffer.send_nvl_head =
+            turbomind::core::Buffer(max_rdma_recv_tokens * NUM_MAX_NVL_PEERS, turbomind::kInt32, turbomind::kDEVICE);
+        ht_buffer.combined_x =
+            turbomind::core::Buffer(num_max_tokens_per_rank_ht * hidden, turbomind::kBfloat16, turbomind::kDEVICE);
+        ht_buffer.combined_topk_weights = turbomind::core::Buffer(
+            num_max_tokens_per_rank_ht * experts_per_token, turbomind::kFloat32, turbomind::kDEVICE);
+
+        ll_buffer.packed_recv_x =
+            turbomind::core::Buffer(num_local_experts * num_ranks * num_max_tokens_per_rank_ll * hidden,
+                                    turbomind::kBfloat16,
+                                    turbomind::kDEVICE);
+        ll_buffer.packed_recv_src_info = turbomind::core::Buffer(
+            num_local_experts * num_ranks * num_max_tokens_per_rank_ll, turbomind::kInt32, turbomind::kDEVICE);
+        ll_buffer.packed_recv_layout_range =
+            turbomind::core::Buffer(num_local_experts * num_ranks, turbomind::kInt64, turbomind::kDEVICE);
+        ll_buffer.packed_recv_count = turbomind::core::Buffer(num_local_experts, turbomind::kInt32, turbomind::kDEVICE);
+        ll_buffer.packed_recv_x_scales =
+            turbomind::core::Buffer(num_local_experts * hidden / 128 * num_ranks * num_max_tokens_per_rank_ll,
+                                    turbomind::kFloat32,
+                                    turbomind::kDEVICE);
+        ll_buffer.combined_x =
+            turbomind::core::Buffer(num_max_tokens_per_rank_ll * hidden, turbomind::kBfloat16, turbomind::kDEVICE);
+    }
+
     turbomind::core::Context::stream().Sync();
     h_comm->Sync();
 
@@ -466,6 +532,7 @@ Buffer::intranode_dispatch(const Tensor&                x,
                            const std::optional<Tensor>& cached_channel_prefix_matrix,
                            int                          expert_alignment,
                            int                          num_worst_tokens,
+                           const core::Buffer&          output,
                            const Config&                config)
 {
     bool cached_mode = cached_rank_prefix_matrix.has_value();
@@ -556,7 +623,7 @@ Buffer::intranode_dispatch(const Tensor&                x,
     std::vector<int> num_recv_tokens_per_expert_list;
 
     // used to compute offsets in MoeFfnLayer
-    auto moe_recv_expert_counter_ten = Tensor({num_local_experts}, turbomind::kInt32, turbomind::kDEVICE);
+    auto moe_recv_expert_counter_ten = Tensor(ht_buffer.moe_recv_expert_counter, {num_local_experts});
 
     // Barrier or send sizes
     // To clean: channel start/end offset, head and tail
@@ -577,8 +644,8 @@ Buffer::intranode_dispatch(const Tensor&                x,
         //                                   comm_stream);
     }
     else {
-        rank_prefix_matrix    = Tensor({num_ranks, num_ranks}, turbomind::kInt32, turbomind::kDEVICE);
-        channel_prefix_matrix = Tensor({num_ranks, num_channels}, turbomind::kInt32, turbomind::kDEVICE);
+        rank_prefix_matrix    = Tensor(ht_buffer.rank_prefix_matrix, {num_ranks, num_ranks});
+        channel_prefix_matrix = Tensor(ht_buffer.channel_prefix_matrix, {num_ranks, num_channels});
 
         // Send sizes
         // Meta information:
@@ -644,28 +711,29 @@ Buffer::intranode_dispatch(const Tensor&                x,
     }
 
     // Allocate new tensors
-    auto recv_x                     = Tensor({num_recv_tokens, hidden}, x.dtype(), turbomind::kDEVICE);
-    auto recv_src_idx               = Tensor({num_recv_tokens}, turbomind::kInt32, turbomind::kDEVICE);
+    auto recv_x                     = Tensor(output.view(x.dtype()), {num_recv_tokens, hidden});
+    auto recv_src_idx               = Tensor(ht_buffer.recv_src_idx, {num_recv_tokens});
     auto recv_topk_idx              = std::optional<Tensor>();
     auto recv_topk_weights          = std::optional<Tensor>();
     auto recv_x_scales              = std::optional<Tensor>();
-    auto recv_channel_prefix_matrix = Tensor({num_ranks, num_channels}, turbomind::kInt32, turbomind::kDEVICE);
-    auto send_head                  = Tensor({num_tokens, num_ranks}, turbomind::kInt32, turbomind::kDEVICE);
+    auto recv_channel_prefix_matrix = Tensor(ht_buffer.recv_channel_prefix_matrix, {num_ranks, num_channels});
+    auto send_head                  = Tensor(ht_buffer.send_head, {num_tokens, num_ranks});
 
     // Assign pointers
     topk_idx_t* recv_topk_idx_ptr     = nullptr;
     float*      recv_topk_weights_ptr = nullptr;
     float*      recv_x_scales_ptr     = nullptr;
     if (topk_idx.has_value()) {
-        recv_topk_idx         = Tensor({num_recv_tokens, num_topk}, topk_idx->dtype(), topk_idx->device());
-        recv_topk_weights     = Tensor({num_recv_tokens, num_topk}, topk_weights->dtype(), topk_weights->device());
+        recv_topk_idx = Tensor(ht_buffer.recv_topk_idx.view(topk_idx->dtype()), {num_recv_tokens, num_topk});
+        recv_topk_weights =
+            Tensor(ht_buffer.recv_topk_weights.view(topk_weights->dtype()), {num_recv_tokens, num_topk});
         recv_topk_idx_ptr     = recv_topk_idx->data_or((topk_idx_t*)nullptr);
         recv_topk_weights_ptr = recv_topk_weights->data_or((float*)nullptr);
     }
     if (x_scales.has_value()) {
         recv_x_scales     = x_scales->ndim() == 1 ?
-                                Tensor({num_recv_tokens}, x_scales->dtype(), x_scales->device()) :
-                                Tensor({num_recv_tokens, num_scales}, x_scales->dtype(), x_scales->device());
+                                Tensor(ht_buffer.recv_x_scales.view(x_scales->dtype()), {num_recv_tokens}) :
+                                Tensor(ht_buffer.recv_x_scales.view(x_scales->dtype()), {num_recv_tokens, num_scales});
         recv_x_scales_ptr = recv_x_scales->data_or((float*)nullptr);
     }
 
@@ -771,7 +839,7 @@ Buffer::intranode_combine(const Tensor&                x,
         EP_HOST_ASSERT(topk_weights->dtype() == turbomind::kFloat32);
         num_topk              = static_cast<int>(topk_weights->shape(1));
         topk_weights_ptr      = topk_weights->data_or((float*)nullptr);
-        recv_topk_weights     = Tensor({num_recv_tokens, num_topk}, turbomind::kFloat32, turbomind::kDEVICE);
+        recv_topk_weights     = Tensor(ht_buffer.combined_topk_weights, {num_recv_tokens, num_topk});
         recv_topk_weights_ptr = recv_topk_weights->data_or((float*)nullptr);
     }
 
@@ -800,7 +868,7 @@ Buffer::intranode_combine(const Tensor&                x,
         }
 
     // Combine data
-    auto recv_x = Tensor({num_recv_tokens, hidden}, x.dtype(), turbomind::kDEVICE);
+    auto recv_x = Tensor(ht_buffer.combined_x.view(x.dtype()), {num_recv_tokens, hidden});
     EP_HOST_ASSERT(num_channels * num_ranks * sizeof(int) * 2 +  // Queue head and tail
                        num_channels * num_ranks * config.num_max_nvl_chunked_recv_tokens * hidden * byte_size(x.dtype())
                        +  // Data buffer
@@ -887,14 +955,12 @@ Buffer::low_latency_dispatch(const Tensor&                x,
     auto next_buffer = layout.buffers[low_latency_buffer_idx ^= 1];
 
     // Allocate packed tensors
-    auto packed_recv_x = Tensor({num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank, hidden},
-                                use_fp8 ? turbomind::kFloat8_e4m3 : x.dtype(),
-                                turbomind::kDEVICE);
-
-    auto packed_recv_src_info = Tensor(
-        {num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank}, turbomind::kInt32, turbomind::kDEVICE);
-    auto packed_recv_layout_range = Tensor({num_local_experts, num_ranks}, turbomind::kInt64, turbomind::kDEVICE);
-    auto packed_recv_count        = Tensor({num_local_experts}, turbomind::kInt32, turbomind::kDEVICE);
+    auto packed_recv_x = Tensor(ll_buffer.packed_recv_x.view(use_fp8 ? turbomind::kFloat8_e4m3 : x.dtype()),
+                                {num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank, hidden});
+    auto packed_recv_src_info =
+        Tensor(ll_buffer.packed_recv_src_info, {num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank});
+    auto packed_recv_layout_range = Tensor(ll_buffer.packed_recv_layout_range, {num_local_experts, num_ranks});
+    auto packed_recv_count        = Tensor(ll_buffer.packed_recv_count, {num_local_experts});
 
     // Allocate column-majored scales
     auto  packed_recv_x_scales     = std::optional<Tensor>();
@@ -907,16 +973,14 @@ Buffer::low_latency_dispatch(const Tensor&                x,
         EP_HOST_ASSERT(hidden % 512 == 0);
         if (not use_ue8m0) {
             packed_recv_x_scales =
-                Tensor({num_local_experts, hidden / 128, num_ranks * num_max_dispatch_tokens_per_rank},
-                       turbomind::kFloat32,
-                       turbomind::kDEVICE);
+                Tensor(ll_buffer.packed_recv_x_scales,
+                       {num_local_experts, hidden / 128, num_ranks * num_max_dispatch_tokens_per_rank});
         }
         else {
             EP_HOST_ASSERT(round_scale);
             packed_recv_x_scales =
-                Tensor({num_local_experts, hidden / 512, num_ranks * num_max_dispatch_tokens_per_rank},
-                       turbomind::kInt32,
-                       turbomind::kDEVICE);
+                Tensor(ll_buffer.packed_recv_x_scales.view(turbomind::kInt32),
+                       {num_local_experts, hidden / 512, num_ranks * num_max_dispatch_tokens_per_rank});
         }
         packed_recv_x_scales     = packed_recv_x_scales->transpose(1, 2);
         packed_recv_x_scales_ptr = packed_recv_x_scales->data_or((float*)nullptr);
@@ -944,7 +1008,7 @@ Buffer::low_latency_dispatch(const Tensor&                x,
         reinterpret_cast<size_t>(buffer.dispatch_rdma_recv_data_buffer) - reinterpret_cast<size_t>(rdma_ll_buffer_ptr),
         reinterpret_cast<size_t>(buffer.dispatch_rdma_recv_count_buffer) - reinterpret_cast<size_t>(rdma_ll_buffer_ptr),
         reinterpret_cast<size_t>(buffer.dispatch_rdma_send_buffer) - reinterpret_cast<size_t>(rdma_ll_buffer_ptr),
-        x.raw_data(),
+        x.data_or((void*)nullptr),
         topk_idx.data<topk_idx_t>(),
         next_clean_meta.first,
         next_clean_meta.second,
@@ -1028,7 +1092,7 @@ Buffer::low_latency_combine(const Tensor&                x,
         combined_x = out.value();
     }
     else {
-        combined_x = Tensor({num_combined_tokens, hidden}, x.dtype(), turbomind::kDEVICE);
+        combined_x = Tensor(ll_buffer.combined_x.view(x.dtype()), {num_combined_tokens, hidden});
     }
 
     // Kernel launch
@@ -1112,6 +1176,7 @@ Buffer::internode_dispatch(const Tensor&                x,
                            const std::optional<Tensor>& cached_recv_gbl_rank_prefix_sum,
                            int                          expert_alignment,
                            int                          num_worst_tokens,
+                           const core::Buffer&          output,
                            const Config&                config)
 {
 
@@ -1222,7 +1287,7 @@ Buffer::internode_dispatch(const Tensor&                x,
     std::vector<int> num_recv_tokens_per_expert_list;
 
     // used to compute offsets in MoeFfnLayer
-    auto moe_recv_expert_counter_ten = Tensor({num_local_experts}, turbomind::kInt32, turbomind::kDEVICE);
+    auto moe_recv_expert_counter_ten = Tensor(ht_buffer.moe_recv_expert_counter, {num_local_experts});
 
     auto dev_comm     = comm->get_device_communicator(false);
     auto nccl_win     = comm->get_device_nccl_window(rdma_buffer_ptr);
@@ -1233,10 +1298,10 @@ Buffer::internode_dispatch(const Tensor&                x,
         EP_HOST_ASSERT(not cached_mode);
     }
     else {
-        rdma_channel_prefix_matrix = Tensor({num_rdma_ranks, num_channels}, turbomind::kInt32, turbomind::kDEVICE);
-        recv_rdma_rank_prefix_sum  = Tensor({num_rdma_ranks}, turbomind::kInt32, turbomind::kDEVICE);
-        gbl_channel_prefix_matrix  = Tensor({num_ranks, num_channels}, turbomind::kInt32, turbomind::kDEVICE);
-        recv_gbl_rank_prefix_sum   = Tensor({num_ranks}, turbomind::kInt32, turbomind::kDEVICE);
+        rdma_channel_prefix_matrix = Tensor(ht_buffer.rdma_channel_prefix_matrix, {num_rdma_ranks, num_channels});
+        recv_rdma_rank_prefix_sum  = Tensor(ht_buffer.recv_rdma_rank_prefix_sum, {num_rdma_ranks});
+        gbl_channel_prefix_matrix  = Tensor(ht_buffer.gbl_channel_prefix_matrix, {num_ranks, num_channels});
+        recv_gbl_rank_prefix_sum   = Tensor(ht_buffer.recv_gbl_rank_prefix_sum, {num_ranks});
 
         // Send sizes
         *moe_recv_counter = -1, *moe_recv_rdma_counter = -1;
@@ -1318,7 +1383,7 @@ Buffer::internode_dispatch(const Tensor&                x,
     }
 
     // Allocate new tensors
-    auto recv_x                          = Tensor({num_recv_tokens, hidden}, x.dtype(), turbomind::kDEVICE);
+    auto recv_x                          = Tensor(output.view(x.dtype()), {num_recv_tokens, hidden});
     auto recv_topk_idx                   = std::optional<Tensor>();
     auto recv_topk_weights               = std::optional<Tensor>();
     auto recv_x_scales                   = std::optional<Tensor>();
@@ -1328,12 +1393,12 @@ Buffer::internode_dispatch(const Tensor&                x,
     auto send_rdma_head                  = std::optional<Tensor>();
     auto send_nvl_head                   = std::optional<Tensor>();
     if (not cached_mode) {
-        recv_src_meta =
-            Tensor({num_recv_tokens, internode::get_source_meta_bytes()}, turbomind::kUint8, turbomind::kDEVICE);
-        recv_rdma_channel_prefix_matrix = Tensor({num_rdma_ranks, num_channels}, turbomind::kInt32, turbomind::kDEVICE);
-        recv_gbl_channel_prefix_matrix  = Tensor({num_ranks, num_channels}, turbomind::kInt32, turbomind::kDEVICE);
-        send_rdma_head                  = Tensor({num_tokens, num_rdma_ranks}, turbomind::kInt32, turbomind::kDEVICE);
-        send_nvl_head = Tensor({num_rdma_recv_tokens, NUM_MAX_NVL_PEERS}, turbomind::kInt32, turbomind::kDEVICE);
+        recv_src_meta = Tensor(ht_buffer.recv_src_meta, {num_recv_tokens, internode::get_source_meta_bytes()});
+        recv_rdma_channel_prefix_matrix =
+            Tensor(ht_buffer.recv_rdma_channel_prefix_matrix, {num_rdma_ranks, num_channels});
+        recv_gbl_channel_prefix_matrix = Tensor(ht_buffer.recv_gbl_channel_prefix_matrix, {num_ranks, num_channels});
+        send_rdma_head                 = Tensor(ht_buffer.send_rdma_head, {num_tokens, num_rdma_ranks});
+        send_nvl_head                  = Tensor(ht_buffer.send_nvl_head, {num_rdma_recv_tokens, NUM_MAX_NVL_PEERS});
     }
 
     // Assign pointers
@@ -1341,15 +1406,16 @@ Buffer::internode_dispatch(const Tensor&                x,
     float*      recv_topk_weights_ptr = nullptr;
     float*      recv_x_scales_ptr     = nullptr;
     if (topk_idx.has_value()) {
-        recv_topk_idx         = Tensor({num_recv_tokens, num_topk}, topk_idx->dtype(), turbomind::kDEVICE);
-        recv_topk_weights     = Tensor({num_recv_tokens, num_topk}, topk_weights->dtype(), turbomind::kDEVICE);
+        recv_topk_idx = Tensor(ht_buffer.recv_topk_idx.view(topk_idx->dtype()), {num_recv_tokens, num_topk});
+        recv_topk_weights =
+            Tensor(ht_buffer.recv_topk_weights.view(topk_weights->dtype()), {num_recv_tokens, num_topk});
         recv_topk_idx_ptr     = recv_topk_idx->data_or((topk_idx_t*)nullptr);
         recv_topk_weights_ptr = recv_topk_weights->data_or((float*)nullptr);
     }
     if (x_scales.has_value()) {
         recv_x_scales     = x_scales->ndim() == 1 ?
-                                Tensor({num_recv_tokens}, x_scales->dtype(), turbomind::kDEVICE) :
-                                Tensor({num_recv_tokens, num_scales}, x_scales->dtype(), turbomind::kDEVICE);
+                                Tensor(ht_buffer.recv_x_scales.view(x_scales->dtype()), {num_recv_tokens}) :
+                                Tensor(ht_buffer.recv_x_scales.view(x_scales->dtype()), {num_recv_tokens, num_scales});
         recv_x_scales_ptr = recv_x_scales->data_or((float*)nullptr);
     }
 
@@ -1477,7 +1543,7 @@ Buffer::internode_combine(const Tensor&                x,
         EP_HOST_ASSERT(topk_weights->dtype() == turbomind::kFloat32);
         num_topk                  = static_cast<int>(topk_weights->shape(1));
         topk_weights_ptr          = topk_weights->data_or((float*)nullptr);
-        combined_topk_weights     = Tensor({num_combined_tokens, num_topk}, turbomind::kFloat32, turbomind::kDEVICE);
+        combined_topk_weights     = Tensor(ht_buffer.combined_topk_weights, {num_combined_tokens, num_topk});
         combined_topk_weights_ptr = combined_topk_weights->data_or((float*)nullptr);
     }
 
@@ -1531,7 +1597,7 @@ Buffer::internode_combine(const Tensor&                x,
         }
 
     // Launch data combine
-    auto combined_x = Tensor({num_combined_tokens, hidden}, x.dtype(), turbomind::kDEVICE);
+    auto combined_x = Tensor(ht_buffer.combined_x.view(x.dtype()), {num_combined_tokens, hidden});
     internode::combine(CUDA_R_16BF,
                        combined_x.data_or((void*)nullptr),
                        combined_topk_weights_ptr,
diff --git a/3rdparty/deep_ep/deep_ep.hpp b/3rdparty/deep_ep/deep_ep.hpp
index e177b5c5d5..80ded74b9f 100644
--- a/3rdparty/deep_ep/deep_ep.hpp
+++ b/3rdparty/deep_ep/deep_ep.hpp
@@ -15,6 +15,7 @@
 #include <tuple>
 #include <vector>
 
+using namespace turbomind;
 using turbomind::comm::HostComm;
 using turbomind::comm::DeviceComm;
 using turbomind::core::Tensor;
@@ -114,6 +115,43 @@ class Buffer {
     volatile int* moe_recv_rdma_counter        = nullptr;
     int*          moe_recv_rdma_counter_mapped = nullptr;
 
+    // HT Buffer
+    struct {
+        // dispatch output
+        turbomind::core::Buffer moe_recv_expert_counter;
+        turbomind::core::Buffer recv_x;                           // allocated as bf16, view as x.dtype() (bf16/fp8)
+        turbomind::core::Buffer recv_x_scales;                    // allocated as float32, view as int32 (ue8m0)
+        turbomind::core::Buffer recv_topk_idx;                    // int64
+        turbomind::core::Buffer recv_topk_weights;                // float32
+        turbomind::core::Buffer recv_src_idx;                     // int32 (intranode)
+        turbomind::core::Buffer send_head;                        // int32 (intranode)
+        turbomind::core::Buffer recv_src_meta;                    // uint8 (internode)
+        turbomind::core::Buffer rank_prefix_matrix;               // int32 (intranode)
+        turbomind::core::Buffer channel_prefix_matrix;            // int32 (intranode)
+        turbomind::core::Buffer recv_channel_prefix_matrix;       // int32 (intranode)
+        turbomind::core::Buffer rdma_channel_prefix_matrix;       // int32 (internode)
+        turbomind::core::Buffer recv_rdma_rank_prefix_sum;        // int32 (internode)
+        turbomind::core::Buffer gbl_channel_prefix_matrix;        // int32 (internode)
+        turbomind::core::Buffer recv_gbl_rank_prefix_sum;         // int32 (internode)
+        turbomind::core::Buffer recv_rdma_channel_prefix_matrix;  // int32 (internode)
+        turbomind::core::Buffer recv_gbl_channel_prefix_matrix;   // int32 (internode)
+        turbomind::core::Buffer send_rdma_head;                   // int32 (internode)
+        turbomind::core::Buffer send_nvl_head;                    // int32 (internode)
+        // combine output
+        turbomind::core::Buffer combined_x;             // bf16
+        turbomind::core::Buffer combined_topk_weights;  // float32
+    } ht_buffer;
+
+    // LL Buffer
+    struct {
+        turbomind::core::Buffer packed_recv_x;
+        turbomind::core::Buffer packed_recv_src_info;
+        turbomind::core::Buffer packed_recv_layout_range;
+        turbomind::core::Buffer packed_recv_count;
+        turbomind::core::Buffer packed_recv_x_scales;
+        turbomind::core::Buffer combined_x;
+    } ll_buffer;
+
     shared_memory::SharedMemoryAllocator shared_memory_allocator;
 
     Buffer(int      rank,  //
@@ -125,6 +163,11 @@ class Buffer {
            bool     enable_shrink,
            bool     use_fabric,
            int      qps_per_rank,
+           int      num_max_tokens_per_rank_ht,
+           int      num_max_tokens_per_rank_ll,
+           int      num_experts,
+           int      experts_per_token,
+           int      hidden,
            HostComm h_comm);
 
     Buffer(): shared_memory_allocator{false} {};
@@ -175,6 +218,7 @@ class Buffer {
                        const std::optional<Tensor>& cached_channel_prefix_matrix,
                        int                          expert_alignment,
                        int                          num_worst_tokens,
+                       const core::Buffer&          output,
                        const Config&                config);
 
     std::tuple<Tensor,  //
@@ -249,6 +293,7 @@ class Buffer {
                        const std::optional<Tensor>& cached_recv_gbl_rank_prefix_sum,
                        int                          expert_alignment,
                        int                          num_worst_tokens,
+                       const core::Buffer&          output,
                        const Config&                config);
 
     std::tuple<Tensor, std::optional<Tensor>>  //
diff --git a/3rdparty/deep_ep/kernels/internode_ll.cu b/3rdparty/deep_ep/kernels/internode_ll.cu
index 8c098079e4..7344dc2707 100644
--- a/3rdparty/deep_ep/kernels/internode_ll.cu
+++ b/3rdparty/deep_ep/kernels/internode_ll.cu
@@ -41,7 +41,7 @@ __device__ __forceinline__ uint64_t nccl_get_p2p_ptr(const uint64_t&     dst_ptr
                                                      const int&          rank,
                                                      const int&          dst_rank,
                                                      const ncclWindow_t  dev_win,
-                                                     ncclDevComm         dev_comm)
+                                                     ncclDevComm&        dev_comm)
 {
     // Local rank, no need for peer mapping
     if (rank == dst_rank)
diff --git a/src/turbomind/comm/device_comm.h b/src/turbomind/comm/device_comm.h
index f67b0aa141..99b8d33546 100644
--- a/src/turbomind/comm/device_comm.h
+++ b/src/turbomind/comm/device_comm.h
@@ -17,7 +17,9 @@ namespace turbomind::comm {
 struct EpConfig {
     int num_nodes;
     int num_experts;
+    int experts_per_token;
     int hidden;
+    int ht_max_tokens_per_rank;
     int ll_max_tokens_per_rank;
 };
 
@@ -33,6 +35,7 @@ struct EpDispatchInput {
     core::Tensor&           x;
     core::Tensor_<float>&   topk_weights;
     core::Tensor_<int64_t>& topk_idx;
+    core::Buffer&           ht_buffer;
     int                     num_worst_tokens;
     bool                    use_fp8;
     bool                    output_scales;
diff --git a/src/turbomind/comm/nccl/nccl_ep.cu b/src/turbomind/comm/nccl/nccl_ep.cu
index c7c4486355..5099368404 100644
--- a/src/turbomind/comm/nccl/nccl_ep.cu
+++ b/src/turbomind/comm/nccl/nccl_ep.cu
@@ -50,6 +50,11 @@ void NcclCommImpl::InitializeEp(const EpConfig& config)
         false,
         false,
         qps_per_rank,
+        ep_config_.ht_max_tokens_per_rank,
+        ep_config_.ll_max_tokens_per_rank,
+        ep_config_.num_experts,
+        ep_config_.experts_per_token,
+        ep_config_.hidden,
         h_comm_);
 
     temp_storage_bytes_ = 0;
@@ -225,6 +230,7 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                                                                std::nullopt,
                                                                1,
                                                                input.num_worst_tokens,
+                                                               input.ht_buffer,
                                                                config);
             sync_check_cuda_error();
 
@@ -281,6 +287,7 @@ void NcclCommImpl::Dispatch(const EpDispatchInput& input, EpDispatchOutput& outp
                                                            std::nullopt,
                                                            1,
                                                            input.num_worst_tokens,
+                                                           input.ht_buffer,
                                                            config);
             sync_check_cuda_error();
 
diff --git a/src/turbomind/models/llama/moe_ffn_layer.cc b/src/turbomind/models/llama/moe_ffn_layer.cc
index 1b73f17f81..77f234a8fd 100644
--- a/src/turbomind/models/llama/moe_ffn_layer.cc
+++ b/src/turbomind/models/llama/moe_ffn_layer.cc
@@ -202,6 +202,12 @@ void MoeFfnLayer::RouteEP(ForwardParam& p, Tensor_<float>& logits)
                     core::Context::stream().handle());
     sync_check_cuda_error();
 
+    input_ = empty_like(p.input);
+    if (p.input.shape(0) > 0) {
+        cudaMemcpyAsync(input_.raw_data(), p.input.raw_data(), p.input.byte_size(), cudaMemcpyDefault, st);
+        sync_check_cuda_error();
+    }
+
     ep_mode_ = p.max_tokens_per_rank <= param_.ll_max_tokens_per_rank ? comm::EpMode::kLowLatency :
                                                                         comm::EpMode::kHighThroughput;
 
@@ -215,12 +221,12 @@ void MoeFfnLayer::RouteEP(ForwardParam& p, Tensor_<float>& logits)
     TM_CHECK_LE(p.max_tokens_per_rank * d_comm_->n_ranks(0) * param_.experts_per_token, en2f_.size());
 
     const auto input_type    = p.weights->block.fused_gating_intermediate.input_type;
-    const bool use_fp8       = false;  // input_type == kFloat8_e4m3 || input_type == kBfloat16;
+    const bool use_fp8       = false;  // input_type == kFloat8_e4m3;
     const bool output_scales = use_fp8 && input_type == kFloat8_e4m3;
     const bool zero_copy     = ep_mode_ == comm::EpMode::kLowLatency;
 
     comm::EpDispatchInput dispatch_input{
-        ep_mode_, p.input, topk_weights, topk_idx, num_worst_tokens, use_fp8, output_scales, zero_copy};
+        ep_mode_, input_, topk_weights, topk_idx, p.ht_buffer, num_worst_tokens, use_fp8, output_scales, zero_copy};
     comm::EpDispatchOutput dispatch_output{{}, {}, {}, f2n_, f2E_, en2f_, offsets_, {}};
     d_comm_->Dispatch(dispatch_input, dispatch_output, 0);
     sync_check_cuda_error();
diff --git a/src/turbomind/models/llama/moe_ffn_layer.h b/src/turbomind/models/llama/moe_ffn_layer.h
index 8ec3468108..974e049f3c 100644
--- a/src/turbomind/models/llama/moe_ffn_layer.h
+++ b/src/turbomind/models/llama/moe_ffn_layer.h
@@ -21,6 +21,7 @@ class MoeFfnLayer {
         const MoeFfnWeight* weights;
         float               scale;
         int                 max_tokens_per_rank;
+        Buffer              ht_buffer;
         int                 layer_id;
     };
 
diff --git a/src/turbomind/models/llama/unified_decoder.cc b/src/turbomind/models/llama/unified_decoder.cc
index bb8cb966bc..6b6569af37 100644
--- a/src/turbomind/models/llama/unified_decoder.cc
+++ b/src/turbomind/models/llama/unified_decoder.cc
@@ -194,6 +194,11 @@ void UnifiedDecoder::Forward(int phase, TensorMap& args, const std::vector<Weigh
     auto& global_token_num     = layout.global_token_num;
     auto& ffn_input            = (is_warm_up_ || ep_size_ == 1) ? global_hidden_states : layout.partial_hidden_states;
 
+    Buffer ht_buffer;
+    if (d_comm_ && ep_size_ > 1) {
+        ht_buffer = args.at("symm_buf").buffer();
+    }
+
     const DataType dtype = local_residual.dtype();
 
     TM_DEBUG_TENSOR(local_residual, "res", 1);
@@ -273,6 +278,7 @@ void UnifiedDecoder::Forward(int phase, TensorMap& args, const std::vector<Weigh
                                                       weights.at(layer)->moe_weights.get(),
                                                       ffn_layer_ ? 1.f : 0.f,
                                                       layout.max_tokens_per_rank,
+                                                      ht_buffer,
                                                       layer};
             moe_ffn_layer_->Forward(*moe_fwd_param);
         }
diff --git a/src/turbomind/turbomind.cc b/src/turbomind/turbomind.cc
index 0131de2fe8..8ff380d8c7 100644
--- a/src/turbomind/turbomind.cc
+++ b/src/turbomind/turbomind.cc
@@ -590,7 +590,9 @@ void TurboMind::Impl::CreateContext(int index)
             const int ll_max_tokens_per_rank = moe_param_.ll_max_tokens_per_rank;
             comm::EpConfig cfg{engine_param_.nnodes,  //
                                max_expert_num,
+                               moe_param_.experts_per_token,
                                (int)model_param_.hidden_units,
+                               engine_param_.max_forward_token_num / tp_cp_size,
                                ll_max_tokens_per_rank};
             c.d_comm->InitializeEp(cfg);
         }