/****************************************************************************** * Copyright (c) 2023, Tri Dao. ******************************************************************************/ #pragma once #include #include #include // For C10_CUDA_CHECK and C10_CUDA_KERNEL_LAUNCH_CHECK #include // For atomicAdd on complex #ifndef USE_ROCM #include #include #include #include #else #include namespace cub = hipcub; #endif #include "selective_scan.h" #include "selective_scan_common.h" #include "reverse_scan.cuh" #include "static_switch.h" template __device__ __forceinline__ scalar_t conj(scalar_t x); template<> __device__ __forceinline__ float conj(float x) { return x; } template<> __device__ __forceinline__ complex_t conj(complex_t x) { return std::conj(x); } template struct Selective_Scan_bwd_kernel_traits { static_assert(kNItems_ % 4 == 0); using input_t = input_t_; using weight_t = weight_t_; static constexpr int kNThreads = kNThreads_; static constexpr int kNItems = kNItems_; static constexpr int kNBytes = sizeof(input_t); static_assert(kNBytes == 2 || kNBytes == 4); static constexpr int kNElts = kNBytes == 4 ? 4 : constexpr_min(8, kNItems); static_assert(kNItems % kNElts == 0); static constexpr int kNLoads = kNItems / kNElts; static constexpr bool kIsComplex = std::is_same_v; static constexpr bool kIsEvenLen = kIsEvenLen_; static constexpr bool kIsVariableB = kIsVariableB_; static constexpr bool kIsVariableC = kIsVariableC_; static constexpr bool kDeltaSoftplus = kDeltaSoftplus_; static constexpr bool kHasZ = kHasZ_; // Setting MinBlocksPerMP to be 3 (instead of 2) for 128 threads with float improves occupancy. // For complex this would lead to massive register spilling, so we keep it at 2. static constexpr int kMinBlocks = kNThreads == 128 && !kIsComplex ? 3 : 2; using vec_t = typename BytesToType::Type; using scan_t = std::conditional_t; using BlockLoadT = cub::BlockLoad; using BlockLoadVecT = cub::BlockLoad; using BlockLoadWeightT = cub::BlockLoad; using BlockLoadWeightVecT = cub::BlockLoad; using BlockStoreT = cub::BlockStore; using BlockStoreVecT = cub::BlockStore; // using BlockScanT = cub::BlockScan; using BlockScanT = cub::BlockScan; // using BlockScanT = cub::BlockScan; using BlockReverseScanT = BlockReverseScan; using BlockReduceT = cub::BlockReduce; using BlockReduceFloatT = cub::BlockReduce; using BlockReduceComplexT = cub::BlockReduce; using BlockExchangeT = cub::BlockExchange; static constexpr int kSmemIOSize = custom_max({sizeof(typename BlockLoadT::TempStorage), sizeof(typename BlockLoadVecT::TempStorage), (int(kIsVariableB) + int(kIsVariableC)) * sizeof(typename BlockLoadWeightT::TempStorage), (int(kIsVariableB) + int(kIsVariableC)) * sizeof(typename BlockLoadWeightVecT::TempStorage), sizeof(typename BlockStoreT::TempStorage), sizeof(typename BlockStoreVecT::TempStorage)}); static constexpr int kSmemExchangeSize = (int(kIsVariableB) + int(kIsVariableC)) * sizeof(typename BlockExchangeT::TempStorage); static constexpr int kSmemReduceSize = sizeof(typename BlockReduceT::TempStorage); static constexpr int kSmemSize = kSmemIOSize + kSmemExchangeSize + kSmemReduceSize + sizeof(typename BlockScanT::TempStorage) + sizeof(typename BlockReverseScanT::TempStorage); }; template __global__ __launch_bounds__(Ktraits::kNThreads, Ktraits::kMinBlocks) void selective_scan_bwd_kernel(SSMParamsBwd params) { constexpr bool kIsComplex = Ktraits::kIsComplex; constexpr bool kIsVariableB = Ktraits::kIsVariableB; constexpr bool kIsVariableC = Ktraits::kIsVariableC; constexpr bool kDeltaSoftplus = Ktraits::kDeltaSoftplus; constexpr bool kHasZ = Ktraits::kHasZ; constexpr int kNThreads = Ktraits::kNThreads; constexpr int kNItems = Ktraits::kNItems; using input_t = typename Ktraits::input_t; using weight_t = typename Ktraits::weight_t; using scan_t = typename Ktraits::scan_t; // Shared memory. extern __shared__ char smem_[]; // cast to lvalue reference of expected type // char *smem_loadstorescan = smem_ + 2 * MAX_DSTATE * sizeof(weight_t); // auto& smem_load = reinterpret_cast(smem_ + 2 * MAX_DSTATE * sizeof(weight_t)); // auto& smem_load = reinterpret_cast(smem_loadstorescan); auto& smem_load = reinterpret_cast(smem_); auto& smem_load_weight = reinterpret_cast(smem_); auto& smem_load_weight1 = *reinterpret_cast(smem_ + sizeof(typename Ktraits::BlockLoadWeightT::TempStorage)); auto& smem_store = reinterpret_cast(smem_); auto& smem_exchange = *reinterpret_cast(smem_ + Ktraits::kSmemIOSize); auto& smem_exchange1 = *reinterpret_cast(smem_ + Ktraits::kSmemIOSize + sizeof(typename Ktraits::BlockExchangeT::TempStorage)); auto& smem_reduce = *reinterpret_cast(reinterpret_cast(&smem_exchange) + Ktraits::kSmemExchangeSize); auto& smem_reduce_float = *reinterpret_cast(&smem_reduce); auto& smem_reduce_complex = *reinterpret_cast(&smem_reduce); auto& smem_scan = *reinterpret_cast(reinterpret_cast(&smem_reduce) + Ktraits::kSmemReduceSize); auto& smem_reverse_scan = *reinterpret_cast(reinterpret_cast(&smem_scan) + sizeof(typename Ktraits::BlockScanT::TempStorage)); weight_t *smem_delta_a = reinterpret_cast(smem_ + Ktraits::kSmemSize); scan_t *smem_running_postfix = reinterpret_cast(smem_delta_a + 2 * MAX_DSTATE + kNThreads); weight_t *smem_da = reinterpret_cast(smem_running_postfix + MAX_DSTATE); weight_t *smem_dbc = reinterpret_cast(smem_da + MAX_DSTATE); const int batch_id = blockIdx.x; const int dim_id = blockIdx.y; const int group_id = dim_id / (params.dim_ngroups_ratio); input_t *u = reinterpret_cast(params.u_ptr) + batch_id * params.u_batch_stride + dim_id * params.u_d_stride; input_t *delta = reinterpret_cast(params.delta_ptr) + batch_id * params.delta_batch_stride + dim_id * params.delta_d_stride; input_t *dout = reinterpret_cast(params.dout_ptr) + batch_id * params.dout_batch_stride + dim_id * params.dout_d_stride; weight_t *A = reinterpret_cast(params.A_ptr) + dim_id * params.A_d_stride; weight_t *B = reinterpret_cast(params.B_ptr) + dim_id * params.B_d_stride; input_t *Bvar = reinterpret_cast(params.B_ptr) + batch_id * params.B_batch_stride + group_id * params.B_group_stride; weight_t *C = reinterpret_cast(params.C_ptr) + dim_id * params.C_d_stride; input_t *Cvar = reinterpret_cast(params.C_ptr) + batch_id * params.C_batch_stride + group_id * params.C_group_stride; weight_t *dA = reinterpret_cast(params.dA_ptr) + dim_id * params.dA_d_stride; weight_t *dB = reinterpret_cast(params.dB_ptr) + (!kIsVariableB ? dim_id * params.dB_d_stride : batch_id * (!kIsComplex ? params.dB_batch_stride : params.dB_batch_stride / 2) + group_id * params.dB_group_stride); weight_t *dC = reinterpret_cast(params.dC_ptr) + (!kIsVariableC ? dim_id * params.dC_d_stride : batch_id * (!kIsComplex ? params.dC_batch_stride : params.dC_batch_stride / 2) + group_id * params.dC_group_stride); float *dD = params.dD_ptr == nullptr ? nullptr : reinterpret_cast(params.dD_ptr) + dim_id; float D_val = params.D_ptr == nullptr ? 0 : reinterpret_cast(params.D_ptr)[dim_id]; float *ddelta_bias = params.ddelta_bias_ptr == nullptr ? nullptr : reinterpret_cast(params.ddelta_bias_ptr) + dim_id; float delta_bias = params.delta_bias_ptr == nullptr ? 0 : reinterpret_cast(params.delta_bias_ptr)[dim_id]; scan_t *x = params.x_ptr == nullptr ? nullptr : reinterpret_cast(params.x_ptr) + (batch_id * params.dim + dim_id) * (params.n_chunks) * params.dstate; float dD_val = 0; float ddelta_bias_val = 0; constexpr int kChunkSize = kNThreads * kNItems; u += (params.n_chunks - 1) * kChunkSize; delta += (params.n_chunks - 1) * kChunkSize; dout += (params.n_chunks - 1) * kChunkSize; Bvar += (params.n_chunks - 1) * kChunkSize * (!kIsComplex ? 1 : 2); Cvar += (params.n_chunks - 1) * kChunkSize * (!kIsComplex ? 1 : 2); for (int chunk = params.n_chunks - 1; chunk >= 0; --chunk) { input_t u_vals[kNItems]; input_t delta_vals_load[kNItems]; input_t dout_vals_load[kNItems]; __syncthreads(); load_input(u, u_vals, smem_load, params.seqlen - chunk * kChunkSize); u -= kChunkSize; __syncthreads(); load_input(delta, delta_vals_load, smem_load, params.seqlen - chunk * kChunkSize); // Will reload delta at the same location if kDeltaSoftplus if constexpr (!kDeltaSoftplus) { delta -= kChunkSize; } __syncthreads(); load_input(dout, dout_vals_load, smem_load, params.seqlen - chunk * kChunkSize); dout -= kChunkSize; float dout_vals[kNItems], delta_vals[kNItems]; #pragma unroll for (int i = 0; i < kNItems; ++i) { dout_vals[i] = float(dout_vals_load[i]); delta_vals[i] = float(delta_vals_load[i]) + delta_bias; if constexpr (kDeltaSoftplus) { delta_vals[i] = delta_vals[i] <= 20.f ? log1pf(expf(delta_vals[i])) : delta_vals[i]; } } if constexpr (kHasZ) { input_t *z = reinterpret_cast(params.z_ptr) + batch_id * params.z_batch_stride + dim_id * params.z_d_stride + chunk * kChunkSize; input_t *out = reinterpret_cast(params.out_ptr) + batch_id * params.out_batch_stride + dim_id * params.out_d_stride + chunk * kChunkSize; input_t *dz = reinterpret_cast(params.dz_ptr) + batch_id * params.dz_batch_stride + dim_id * params.dz_d_stride + chunk * kChunkSize; input_t z_vals[kNItems], out_vals[kNItems]; __syncthreads(); load_input(z, z_vals, smem_load, params.seqlen - chunk * kChunkSize); __syncthreads(); load_input(out, out_vals, smem_load, params.seqlen - chunk * kChunkSize); float dz_vals[kNItems], z_silu_vals[kNItems]; #pragma unroll for (int i = 0; i < kNItems; ++i) { float z_val = z_vals[i]; float z_sigmoid_val = 1.0f / (1.0f + expf(-z_val)); z_silu_vals[i] = z_val * z_sigmoid_val; dz_vals[i] = dout_vals[i] * float(out_vals[i]) * z_sigmoid_val * (1.0f + z_val * (1.0f - z_sigmoid_val)); dout_vals[i] *= z_silu_vals[i]; } __syncthreads(); store_output(dz, dz_vals, smem_store, params.seqlen - chunk * kChunkSize); if (params.out_z_ptr != nullptr) { // Recompute and store out_z float out_z_vals[kNItems]; #pragma unroll for (int i = 0; i < kNItems; ++i) { out_z_vals[i] = float(out_vals[i]) * z_silu_vals[i]; } // if (blockIdx.x == 0 && blockIdx.y == 0 && threadIdx.x == 0) { // printf("out_val=%f, z_silu_val = %f, out_z_val = %f\n", float(out_vals[0]), z_silu_vals[0], out_z_vals[0]); // } input_t *out_z = reinterpret_cast(params.out_z_ptr) + batch_id * params.out_z_batch_stride + dim_id * params.out_z_d_stride + chunk * kChunkSize; __syncthreads(); store_output(out_z, out_z_vals, smem_store, params.seqlen - chunk * kChunkSize); } } float du_vals[kNItems]; #pragma unroll for (int i = 0; i < kNItems; ++i) { du_vals[i] = D_val * dout_vals[i]; } #pragma unroll for (int i = 0; i < kNItems; ++i) { dD_val += dout_vals[i] * float(u_vals[i]); } float ddelta_vals[kNItems] = {0}; __syncthreads(); for (int state_idx = 0; state_idx < params.dstate; ++state_idx) { const weight_t A_val = A[state_idx * params.A_dstate_stride]; // Multiply the real part of A with LOG2E so we can use exp2f instead of expf. weight_t A_scaled; constexpr float kLog2e = M_LOG2E; if constexpr (!kIsComplex) { A_scaled = A_val * kLog2e; } else { A_scaled = complex_t(A_val.real_ * kLog2e, A_val.imag_); } weight_t B_val, C_val; weight_t B_vals[kNItems], C_vals[kNItems]; if constexpr (!kIsVariableB) { B_val = B[state_idx * params.B_dstate_stride]; } else { load_weight(Bvar + state_idx * params.B_dstate_stride, B_vals, smem_load_weight, (params.seqlen - chunk * kChunkSize) * (!kIsComplex ? 1 : 2)); } if constexpr (!kIsVariableC) { C_val = C[state_idx * params.C_dstate_stride]; } else { auto &smem_load_weight_C = !kIsVariableB ? smem_load_weight : smem_load_weight1; load_weight(Cvar + state_idx * params.C_dstate_stride, C_vals, smem_load_weight_C, (params.seqlen - chunk * kChunkSize) * (!kIsComplex ? 1 : 2)); } // const weight_t A_val = smem_a[state_idx]; scan_t thread_data[kNItems], thread_reverse_data[kNItems]; if constexpr (!kIsComplex) { #pragma unroll for (int i = 0; i < kNItems; ++i) { const float delta_a_exp = exp2f(delta_vals[i] * A_scaled); thread_data[i] = make_float2(delta_a_exp, !kIsVariableB ? delta_vals[i] * float(u_vals[i]) : delta_vals[i] * float(u_vals[i]) * B_vals[i]); if (i == 0) { smem_delta_a[threadIdx.x == 0 ? state_idx + (chunk % 2) * MAX_DSTATE : threadIdx.x + 2 * MAX_DSTATE] = delta_a_exp; } else { thread_reverse_data[i - 1].x = delta_a_exp; } thread_reverse_data[i].y = dout_vals[i] * (!kIsVariableC ? (!kIsVariableB ? B_val * C_val : C_val) : (!kIsVariableB ? B_val * C_vals[i] : C_vals[i])); } __syncthreads(); thread_reverse_data[kNItems - 1].x = threadIdx.x == kNThreads - 1 ? (chunk == params.n_chunks - 1 ? 1.f : smem_delta_a[state_idx + ((chunk + 1) % 2) * MAX_DSTATE]) : smem_delta_a[threadIdx.x + 1 + 2 * MAX_DSTATE]; // Initialize running total scan_t running_prefix = chunk > 0 && threadIdx.x % 32 == 0 ? x[(chunk - 1) * params.dstate + state_idx] : make_float2(1.f, 0.f); SSMScanPrefixCallbackOp prefix_op(running_prefix); typename Ktraits::BlockScanT(smem_scan).InclusiveScan( thread_data, thread_data, SSMScanOp(), prefix_op ); scan_t running_postfix = chunk < params.n_chunks - 1 && threadIdx.x % 32 == 0 ? smem_running_postfix[state_idx] : make_float2(1.f, 0.f); SSMScanPrefixCallbackOp postfix_op(running_postfix); typename Ktraits::BlockReverseScanT(smem_reverse_scan).InclusiveReverseScan( thread_reverse_data, thread_reverse_data, SSMScanOp(), postfix_op ); if (threadIdx.x == 0) { smem_running_postfix[state_idx] = postfix_op.running_prefix; } weight_t dA_val = 0, dBC_val = 0; weight_t dB_vals[kNItems], dC_vals[kNItems]; #pragma unroll for (int i = 0; i < kNItems; ++i) { const float dx = thread_reverse_data[i].y; const float ddelta_u = !kIsVariableB ? dx : dx * B_vals[i]; du_vals[i] += ddelta_u * delta_vals[i]; const float a = thread_data[i].y - (!kIsVariableB ? delta_vals[i] * float(u_vals[i]) : delta_vals[i] * float(u_vals[i]) * B_vals[i]); ddelta_vals[i] += ddelta_u * float(u_vals[i]) + dx * A_val * a; dA_val += dx * delta_vals[i] * a; if constexpr (!kIsVariableB || !kIsVariableC) { if constexpr (!kIsVariableB) { // dBC_val is dB_val dBC_val += dout_vals[i] * (!kIsVariableC ? thread_data[i].y : thread_data[i].y * C_vals[i]); } else { // dBC_val is dC_val dBC_val += dout_vals[i] * thread_data[i].y; } } if constexpr (kIsVariableB) { dB_vals[i] = dx * delta_vals[i] * float(u_vals[i]); } if constexpr (kIsVariableC) { dC_vals[i] = dout_vals[i] * (!kIsVariableB ? thread_data[i].y * B_val : thread_data[i].y); } } // Block-exchange to make the atomicAdd's coalesced, otherwise they're much slower if constexpr (kIsVariableB || kIsVariableC) { if constexpr (kIsVariableB) { typename Ktraits::BlockExchangeT(smem_exchange).BlockedToStriped(dB_vals, dB_vals); } if constexpr (kIsVariableC) { auto &smem_exchange_C = !kIsVariableB ? smem_exchange : smem_exchange1; typename Ktraits::BlockExchangeT(smem_exchange_C).BlockedToStriped(dC_vals, dC_vals); } const int seqlen_remaining = params.seqlen - chunk * kChunkSize - threadIdx.x; weight_t *dB_cur = dB + state_idx * params.dB_dstate_stride + chunk * kChunkSize + threadIdx.x; weight_t *dC_cur = dC + state_idx * params.dC_dstate_stride + chunk * kChunkSize + threadIdx.x; #pragma unroll for (int i = 0; i < kNItems; ++i) { if (i * kNThreads < seqlen_remaining) { if constexpr (kIsVariableB) { gpuAtomicAdd(dB_cur + i * kNThreads, dB_vals[i]); } if constexpr (kIsVariableC) { gpuAtomicAdd(dC_cur + i * kNThreads, dC_vals[i]); } } } } if constexpr (!kIsVariableB || !kIsVariableC) { float2 dA_dBC_val = make_float2(dA_val, dBC_val); dA_dBC_val = typename Ktraits::BlockReduceT(smem_reduce).Sum(dA_dBC_val); dA_val = dA_dBC_val.x; if (threadIdx.x == 0) { smem_dbc[state_idx] = chunk == params.n_chunks - 1 ? dA_dBC_val.y : dA_dBC_val.y + smem_dbc[state_idx]; } } else { dA_val = typename Ktraits::BlockReduceFloatT(smem_reduce_float).Sum(dA_val); } if (threadIdx.x == 0) { smem_da[state_idx] = chunk == params.n_chunks - 1 ? dA_val : dA_val + smem_da[state_idx]; } } else { #pragma unroll for (int i = 0; i < kNItems; ++i) { // Pytorch's implementation of complex exp (which calls thrust) is very slow complex_t delta_a_exp = cexp2f(delta_vals[i] * A_scaled); weight_t B_delta_u_val = !kIsVariableB ? delta_vals[i] * float(u_vals[i]) : B_vals[i] * delta_vals[i] * float(u_vals[i]); thread_data[i] = make_float4(delta_a_exp.real_, delta_a_exp.imag_, B_delta_u_val.real_, B_delta_u_val.imag_); if (i == 0) { smem_delta_a[threadIdx.x == 0 ? state_idx + (chunk % 2) * MAX_DSTATE : threadIdx.x + 2 * MAX_DSTATE] = delta_a_exp; } else { thread_reverse_data[i - 1].x = delta_a_exp.real_; thread_reverse_data[i - 1].y = -delta_a_exp.imag_; } complex_t dout_BC = 2 * dout_vals[i] * conj(!kIsVariableC ? (!kIsVariableB ? B_val * C_val : C_val) : (!kIsVariableB ? B_val * C_vals[i] : C_vals[i])); thread_reverse_data[i].z = dout_BC.real_; thread_reverse_data[i].w = dout_BC.imag_; } __syncthreads(); complex_t delta_a_exp = threadIdx.x == kNThreads - 1 ? (chunk == params.n_chunks - 1 ? 1.f : smem_delta_a[state_idx + ((chunk + 1) % 2) * MAX_DSTATE]) : smem_delta_a[threadIdx.x + 1 + 2 * MAX_DSTATE]; thread_reverse_data[kNItems - 1].x = delta_a_exp.real_; thread_reverse_data[kNItems - 1].y = -delta_a_exp.imag_; // Initialize running total scan_t running_prefix = chunk > 0 && threadIdx.x % 32 == 0 ? x[(chunk - 1) * params.dstate + state_idx] : make_float4(1.f, 0.f, 0.f, 0.f); SSMScanPrefixCallbackOp prefix_op(running_prefix); typename Ktraits::BlockScanT(smem_scan).InclusiveScan( thread_data, thread_data, SSMScanOp(), prefix_op ); scan_t running_postfix = chunk < params.n_chunks - 1 && threadIdx.x % 32 == 0 ? smem_running_postfix[state_idx] : make_float4(1.f, 0.f, 0.f, 0.f); SSMScanPrefixCallbackOp postfix_op(running_postfix); typename Ktraits::BlockReverseScanT(smem_reverse_scan).InclusiveReverseScan( thread_reverse_data, thread_reverse_data, SSMScanOp(), postfix_op ); if (threadIdx.x == 0) { smem_running_postfix[state_idx] = postfix_op.running_prefix; } weight_t dA_val = 0, dBC_val = 0; weight_t dB_vals[kNItems], dC_vals[kNItems]; #pragma unroll for (int i = 0; i < kNItems; ++i) { complex_t x = complex_t(thread_data[i].z, thread_data[i].w); complex_t dx = complex_t(thread_reverse_data[i].z, thread_reverse_data[i].w); float ddelta_u = !kIsVariableB ? dx.real_ : (dx * conj(B_vals[i])).real_; if constexpr (!kIsVariableB || !kIsVariableC) { if constexpr (!kIsVariableB) { // dBC_val is dB_val dBC_val += (2 * dout_vals[i]) * conj(!kIsVariableC ? x : x * C_vals[i]); } else { // dBC_val is dC_val dBC_val += (2 * dout_vals[i]) * conj(x); } } const complex_t a_conj = conj(x - (!kIsVariableB ? delta_vals[i] * float(u_vals[i]) : delta_vals[i] * float(u_vals[i]) * B_vals[i])); du_vals[i] += ddelta_u * delta_vals[i]; ddelta_vals[i] += ddelta_u * float(u_vals[i]) + (dx * conj(A_val) * a_conj).real_; dA_val += delta_vals[i] * dx * a_conj; if constexpr (kIsVariableB) { dB_vals[i] = dx * delta_vals[i] * float(u_vals[i]); } if constexpr (kIsVariableC) { dC_vals[i] = (2 * dout_vals[i]) * conj(!kIsVariableB ? x * B_val : x); } } // Block-exchange to make the atomicAdd's coalesced, otherwise they're much slower if constexpr (kIsVariableB || kIsVariableC) { float dB_vals_f[kNItems * 2], dC_vals_f[kNItems * 2]; if constexpr (kIsVariableB) { #pragma unroll for (int i = 0; i < kNItems; ++i) { dB_vals_f[i * 2] = dB_vals[i].real_; dB_vals_f[i * 2 + 1] = dB_vals[i].imag_; } typename Ktraits::BlockExchangeT(smem_exchange).BlockedToStriped(dB_vals_f, dB_vals_f); } if constexpr (kIsVariableC) { #pragma unroll for (int i = 0; i < kNItems; ++i) { dC_vals_f[i * 2] = dC_vals[i].real_; dC_vals_f[i * 2 + 1] = dC_vals[i].imag_; } auto &smem_exchange_C = !kIsVariableB ? smem_exchange : smem_exchange1; typename Ktraits::BlockExchangeT(smem_exchange_C).BlockedToStriped(dC_vals_f, dC_vals_f); } const int seqlen_remaining = (params.seqlen - chunk * kChunkSize) * 2 - threadIdx.x; float *dB_cur = reinterpret_cast(dB) + state_idx * params.dB_dstate_stride + chunk * kChunkSize * 2 + threadIdx.x; float *dC_cur = reinterpret_cast(dC) + state_idx * params.dC_dstate_stride + chunk * kChunkSize * 2 + threadIdx.x; #pragma unroll for (int i = 0; i < kNItems * 2; ++i) { if (i * kNThreads < seqlen_remaining) { if constexpr (kIsVariableB) { gpuAtomicAdd(dB_cur + i * kNThreads, dB_vals_f[i]); } if constexpr (kIsVariableC) { gpuAtomicAdd(dC_cur + i * kNThreads, dC_vals_f[i]); } } } } if constexpr (!kIsVariableB || !kIsVariableC) { float4 dA_dBC_val = make_float4(dA_val.real_, dA_val.imag_, dBC_val.real_, dBC_val.imag_); dA_dBC_val = typename Ktraits::BlockReduceT(smem_reduce).Sum(dA_dBC_val); dA_val = complex_t(dA_dBC_val.x, dA_dBC_val.y); dBC_val = complex_t(dA_dBC_val.z, dA_dBC_val.w); if (threadIdx.x == 0) { smem_dbc[state_idx] = chunk == params.n_chunks - 1 ? dBC_val : dBC_val + smem_dbc[state_idx]; } } else { dA_val = typename Ktraits::BlockReduceComplexT(smem_reduce_complex).Sum(dA_val); } if (threadIdx.x == 0) { smem_da[state_idx] = chunk == params.n_chunks - 1 ? dA_val : dA_val + smem_da[state_idx]; } } } if constexpr (kDeltaSoftplus) { __syncthreads(); input_t delta_vals_load[kNItems]; load_input(delta, delta_vals_load, smem_load, params.seqlen - chunk * kChunkSize); delta -= kChunkSize; #pragma unroll for (int i = 0; i < kNItems; ++i) { float delta_val = float(delta_vals_load[i]) + delta_bias; float delta_val_neg_exp = expf(-delta_val); ddelta_vals[i] = delta_val <= 20.f ? ddelta_vals[i] / (1.f + delta_val_neg_exp) : ddelta_vals[i]; } } for (int i = 0; i < kNItems; ++i) { ddelta_bias_val += ddelta_vals[i]; } input_t *du = reinterpret_cast(params.du_ptr) + batch_id * params.du_batch_stride + dim_id * params.du_d_stride + chunk * kChunkSize; input_t *ddelta = reinterpret_cast(params.ddelta_ptr) + batch_id * params.ddelta_batch_stride + dim_id * params.ddelta_d_stride + chunk * kChunkSize; __syncthreads(); store_output(du, du_vals, smem_store, params.seqlen - chunk * kChunkSize); __syncthreads(); store_output(ddelta, ddelta_vals, smem_store, params.seqlen - chunk * kChunkSize); Bvar -= kChunkSize * (!kIsComplex ? 1 : 2); Cvar -= kChunkSize * (!kIsComplex ? 1 : 2); } if (params.dD_ptr != nullptr) { dD_val = typename Ktraits::BlockReduceFloatT(smem_reduce_float).Sum(dD_val); if (threadIdx.x == 0) { gpuAtomicAdd(dD, dD_val); } } if (params.ddelta_bias_ptr != nullptr) { __syncthreads(); ddelta_bias_val = typename Ktraits::BlockReduceFloatT(smem_reduce_float).Sum(ddelta_bias_val); if (threadIdx.x == 0) { gpuAtomicAdd(ddelta_bias, ddelta_bias_val); } } for (int state_idx = threadIdx.x; state_idx < params.dstate; state_idx += blockDim.x) { gpuAtomicAdd(&(dA[state_idx * params.dA_dstate_stride]), smem_da[state_idx]); weight_t dBC_val; if (!kIsVariableB || !kIsVariableC) { dBC_val = smem_dbc[state_idx]; } if constexpr (!kIsVariableB) { gpuAtomicAdd(&(dB[state_idx * params.dB_dstate_stride]), !kIsVariableC ? dBC_val * conj(C[state_idx * params.C_dstate_stride]) : dBC_val); } if constexpr (!kIsVariableC) { gpuAtomicAdd(&(dC[state_idx * params.dC_dstate_stride]), !kIsVariableB ? dBC_val * conj(B[state_idx * params.B_dstate_stride]) : dBC_val); } } } template void selective_scan_bwd_launch(SSMParamsBwd ¶ms, cudaStream_t stream) { BOOL_SWITCH(params.seqlen % (kNThreads * kNItems) == 0, kIsEvenLen, [&] { BOOL_SWITCH(params.is_variable_B, kIsVariableB, [&] { BOOL_SWITCH(params.is_variable_C, kIsVariableC, [&] { BOOL_SWITCH(params.delta_softplus, kDeltaSoftplus, [&] { BOOL_SWITCH(params.z_ptr != nullptr , kHasZ, [&] { using Ktraits = Selective_Scan_bwd_kernel_traits; // using Ktraits = Selective_Scan_bwd_kernel_traits; // TODO: check this constexpr int kSmemSize = Ktraits::kSmemSize + MAX_DSTATE * sizeof(typename Ktraits::scan_t) + (kNThreads + 4 * MAX_DSTATE) * sizeof(typename Ktraits::weight_t); dim3 grid(params.batch, params.dim); auto kernel = &selective_scan_bwd_kernel; if (kSmemSize >= 48 * 1024) { #ifndef USE_ROCM C10_CUDA_CHECK(cudaFuncSetAttribute( kernel, cudaFuncAttributeMaxDynamicSharedMemorySize, kSmemSize)); #else C10_CUDA_CHECK(cudaFuncSetAttribute( (void *) kernel, cudaFuncAttributeMaxDynamicSharedMemorySize, kSmemSize)); std::cerr << "Warning (selective_scan_bwd_kernel): attempting to set maxDynamicSharedMemorySize on an AMD GPU which is currently a non-op (in ROCm versions <= 6.1). This might lead to undefined behavior. \n" << std::endl; #endif } kernel<<>>(params); C10_CUDA_KERNEL_LAUNCH_CHECK(); }); }); }); }); }); } template void selective_scan_bwd_cuda(SSMParamsBwd ¶ms, cudaStream_t stream) { #ifndef USE_ROCM if (params.seqlen <= 128) { selective_scan_bwd_launch<32, 4, input_t, weight_t>(params, stream); } else if (params.seqlen <= 256) { selective_scan_bwd_launch<32, 8, input_t, weight_t>(params, stream); } else if (params.seqlen <= 512) { selective_scan_bwd_launch<32, 16, input_t, weight_t>(params, stream); } else if (params.seqlen <= 1024) { selective_scan_bwd_launch<64, 16, input_t, weight_t>(params, stream); } else { selective_scan_bwd_launch<128, 16, input_t, weight_t>(params, stream); } #else if (params.seqlen <= 256) { selective_scan_bwd_launch<64, 4, input_t, weight_t>(params, stream); } else if (params.seqlen <= 512) { selective_scan_bwd_launch<64, 8, input_t, weight_t>(params, stream); } else if (params.seqlen <= 1024) { selective_scan_bwd_launch<64, 16, input_t, weight_t>(params, stream); } else { selective_scan_bwd_launch<128, 16, input_t, weight_t>(params, stream); } #endif }