Will's Inference Calculations

Things everyone should know about inference

Will Arnold — LinkedIn · GitHub · will@swaglu.com · warnold@nvidia.com

Roofline Calculations

Data Type:

MLA Multi-head Latent Attention | MHA Multi-Head Attention | SWA Sliding Window

max reqs = ⌊(GPU × 0.9 − weights/N) / (KV/tok × seq_len + fixed)⌋

GPU Memory: 192 GB

GPUs

Weight Precision

Model	Type	Layers	KV Heads	Head Dim	BF16 B/tok	FP8 B/tok	128K BF16	128K FP8