cuda_learning learning how CUDA works project list: custom op [Done] CUDA 编程基础 memory & reduction [Done] GPU的内存体系及其优化指南 gemm [Done] 通用矩阵乘法:从入门到熟练 Transformer [WIP] 基础算子: LayerNorm 算子的 CUDA 实现与优化 SoftMax 算子的 CUDA 实现与优化 Cross Entropy 的 CUDA 实现 AdamW 优化器的 CUDA 实现 激活函数与残差连接的 CUDA 实现 embedding 层与 LM head 层的 CUDA 实现 核心模块 self-attention 的 CUDA 实现及优化 (上) self-attention 的 CUDA 实现及优化 (下)