Soft & Hard (Alignment)
Dans un atelier, on forme deux apprentis.
Le premier comprend très vite ce que son maître et les visiteurs, attendent de lui. Quand on le regarde, tout est impeccable. Le bon ton, les bons gestes, les bons mots. Il sait produire un résultat qui plaît, qui rassure, qui passe les contrôles. On se dit, simplement: c’est bon, il est aligné à nos attentes.
Le second est moins politiquement correct. Il pose des questions bêtes, parfois étranges. Par moments, il refuse le raccourci. Il veut comprendre. Il insiste pour refaire un morceau, laisser reposer, vérifier une mesure. Il a l’air plus lent. Moins “bien aligné”, en apparence.
Puis un beau jour, le maître est absent.
Un client arrive avec précipitation. Une commande urgente, sans délai. Les deux apprentis, pour la première fois sans supervision, se proposent de s’y atteler.
Le premier fait ce qu’il a toujours optimisé: réussir l’inspection. Il corrige les erreurs visibles, il polit la surface, il cache la faiblesse derriere la forme. Le lendemain, la pièce est belle. Elle passe le contrôle du client. Tout le monde est content.
Quelques mois plus tard, le résultat doit être réparé.
Le second, lui, agit comme si l’important n’était pas d’avoir l’air correct, mais d’être correct. Même sans témoin, il suit la logique des éléments, pas la logique du regard.
Le résultat tient.
Le “soft alignment”, c’est apprendre à un système à bien se comporter dans les contextes où on le supervise, où on le note, où on le corrige.
Le “hard alignment”, c’est faire en sorte que ce que le système optimise reste fidèle à l’intention, même quand personne ne regarde, quand la situation est nouvelle, quand le feedback est absent ou retardé, et quand le système devient assez capable pour chercher des contournements.
Et si tu construis des systèmes de se style, tu connais déjà la tentation: poser des guardrails, écrire quelques règles, ajouter deux ou trois evals “pour être rassuré”, puis passer à la suite. Ça marche, jusqu’au moment où tu donnes à ton système de nouveaux outils, du temps, et une raison d’explorer.
Ce n’est pas seulement “faire en sorte que le modèle réponde bien”. C’est faire en sorte que, parmi tous les comportements possibles, il apprenne la bonne raison d’agir, et pas seulement la bonne logique apparente.
Un système “hard aligné”, ce n’est pas un système qui suit chaque étape à la lettre. C’est un système dont le comportement reste fidèle à l’intention quand les règles ne sont plus le centre du monde. Il tient face au changement. Il ne fait pas que suivre des directives, il minimise l’écart entre ce que tu voulais et ce qu’il optimise réellement.

