LoRA

Connectez-vous pour suivre cette catégorie

Fine-tuning et post-training (LoRA, DPO, RLHF)

Le pipeline de post-training : SFT, RLHF (reward model + PPO) et DPO, plus LoRA/QLoRA. Quand affiner vs RAG vs prompt engineering.

2026-06-14 15 min de lecture