从 CPU 到 GPU:LLM 推理引擎的 CUDA 优化之路
用 nsys profiling 驱动优化:CUDA 后端、FP16 全链路、Flash Attention、caching allocator。从 33 tok/s 到 504 tok/s,15 倍加速。
用 nsys profiling 驱动优化:CUDA 后端、FP16 全链路、Flash Attention、caching allocator。从 33 tok/s 到 504 tok/s,15 倍加速。
不用任何 ML 框架,用纯 C++ 从 mmap 加载权重到自回归生成,手搓一个能跑 Qwen2.5-0.5B 的推理引擎。
从教科书的三重循环到接近硬件峰值的 GEMM 实现,逐步优化的完整记录。