Pourquoi l'évaluation est dure
Évaluer un LLM est difficile parce qu'il n'existe souvent pas une seule bonne réponse. Un résumé, une explication ou un email peuvent être corrects de plusieurs façons — les métriques exactes (accuracy) ne s'appliquent plus.
L'idée : un modèle qui juge
Le pattern LLM-as-a-judge utilise un modèle pour noter les sorties d'un autre selon une grille explicite (pertinence, exactitude, ton). Bien cadré, il corrèle fortement avec le jugement humain tout en restant automatisable.
Une grille de notation
Donnez au juge des critères et une échelle, pas une consigne vague :
Note la réponse de 1 à 5 sur :
- Exactitude factuelle (les affirmations sont-elles vraies ?)
- Pertinence (répond-elle à la question posée ?)
- Clarté (est-elle compréhensible et bien structurée ?)
Justifie chaque note en une phrase, puis donne le total.
Les biais à neutraliser
Les juges LLM ont des biais connus : préférence pour les réponses longues, pour la première option présentée, ou pour leur propre style. On les atténue en mélangeant l'ordre, en masquant la source, et en faisant voter plusieurs juges (ou plusieurs passes) avant de conclure.
En pratique
Combinez trois niveaux : tests déterministes pour ce qui est vérifiable, LLM-as-a-judge pour le qualitatif, et un échantillon de revue humaine pour calibrer le juge. C'est le trépied d'une évaluation fiable.