Architecture
Connectez-vous pour suivre cette catégorie-
State Space Models et Mamba (au-delà des Transformers)
SSM classiques, S4 (HiPPO, Long Range Arena), sélectivité de Mamba, dualité Mamba-2 et hybrides Jamba. Coût linéaire vs attention quadratique.
16 min de lecture -
Mixture-of-Experts (MoE) à grande échelle
MoE : routeur, routage top-k, perte d'équilibrage, capacité, parallélisme d'experts. Paramètres totaux vs actifs (Switch, GLaM, Mixtral, DeepSeek-V3).
16 min de lecture