Contexte long

Connectez-vous pour suivre cette catégorie

Contexte long et gestion du KV-cache

Pourquoi le contexte long est coûteux : attention O(n²) et KV-cache linéaire. MQA/GQA, FlashAttention, PagedAttention, RoPE/YaRN, attention sinks.

2026-06-13 12 min de lecture