Peut-on juger avec le même modèle que celui évalué ?

C'est possible mais risqué (biais d'auto-préférence). Mieux vaut un modèle différent, ou au minimum masquer quelle réponse vient de qui.

Le juge doit-il être le plus gros modèle disponible ?

Pas toujours, mais un juge plus capable que la tâche aide. L'essentiel est une grille claire et la neutralisation des biais d'ordre et de longueur.

Évaluer un LLM : le pattern LLM-as-a-judge

Pourquoi l'évaluation est dure

Évaluer un LLM est difficile parce qu'il n'existe souvent pas une seule bonne réponse. Un résumé, une explication ou un email peuvent être corrects de plusieurs façons — les métriques exactes (accuracy) ne s'appliquent plus.

L'idée : un modèle qui juge

Le pattern LLM-as-a-judge utilise un modèle pour noter les sorties d'un autre selon une grille explicite (pertinence, exactitude, ton). Bien cadré, il corrèle fortement avec le jugement humain tout en restant automatisable.

Une grille de notation

Donnez au juge des critères et une échelle, pas une consigne vague :

Note la réponse de 1 à 5 sur :
- Exactitude factuelle (les affirmations sont-elles vraies ?)
- Pertinence (répond-elle à la question posée ?)
- Clarté (est-elle compréhensible et bien structurée ?)
Justifie chaque note en une phrase, puis donne le total.

Les biais à neutraliser

Les juges LLM ont des biais connus : préférence pour les réponses longues, pour la première option présentée, ou pour leur propre style. On les atténue en mélangeant l'ordre, en masquant la source, et en faisant voter plusieurs juges (ou plusieurs passes) avant de conclure.

En pratique

Combinez trois niveaux : tests déterministes pour ce qui est vérifiable, LLM-as-a-judge pour le qualitatif, et un échantillon de revue humaine pour calibrer le juge. C'est le trépied d'une évaluation fiable.