Mesurer la qualité d'un LLM sans réponse unique est difficile. Le pattern LLM-as-a-judge offre une évaluation scalable.