De CLIP et ViT aux VLM (LLaVA, Flamingo, GPT-4o) puis aux VLA pour la robotique (RT-2, OpenVLA, π0) : fusion des modalités et action comme tokens.