## Pourquoi l'évaluation est dure

Évaluer un LLM est difficile parce qu'il n'existe souvent pas une seule bonne réponse. Un résumé, une explication ou un email peuvent être corrects de plusieurs façons — les métriques exactes (accuracy) ne s'appliquent plus.

## L'idée : un modèle qui juge

Le pattern **LLM-as-a-judge** utilise un modèle pour noter les sorties d'un autre selon une grille explicite (pertinence, exactitude, ton). Bien cadré, il corrèle fortement avec le jugement humain tout en restant automatisable.

## Une grille de notation

Donnez au juge des critères et une échelle, pas une consigne vague :

```text
Note la réponse de 1 à 5 sur :
- Exactitude factuelle (les affirmations sont-elles vraies ?)
- Pertinence (répond-elle à la question posée ?)
- Clarté (est-elle compréhensible et bien structurée ?)
Justifie chaque note en une phrase, puis donne le total.
```

## Les biais à neutraliser

Les juges LLM ont des biais connus : préférence pour les réponses **longues**, pour la **première** option présentée, ou pour leur propre style. On les atténue en mélangeant l'ordre, en masquant la source, et en faisant voter plusieurs juges (ou plusieurs passes) avant de conclure.

## En pratique

Combinez trois niveaux : tests déterministes pour ce qui est vérifiable, LLM-as-a-judge pour le qualitatif, et un échantillon de revue humaine pour calibrer le juge. C'est le trépied d'une évaluation fiable.