Pourquoi le contexte long est coûteux : attention O(n²) et KV-cache linéaire. MQA/GQA, FlashAttention, PagedAttention, RoPE/YaRN, attention sinks.