Performance

2026-03-18

用 nsys profiling 驱动优化：CUDA 后端、FP16 全链路、Flash Attention、caching allocator。从 33 tok/s 到 504 tok/s，15 倍加速。

2026-02-19

不用任何 ML 框架，用纯 C++ 从 mmap 加载权重到自回归生成，手搓一个能跑 Qwen2.5-0.5B 的推理引擎。

2026-02-16

从教科书的三重循环到接近硬件峰值的 GEMM 实现，逐步优化的完整记录。