2026
How big is your world?
Tu ouvres ton chat préféré. Même interface. Rien de nouveau.
C’est normal. Les vrais changements ne commencent jamais dans le produit. Ils se font en amont.
Il y a une question qu’on entend rarement, et pourtant tous les laboratoires font leurs calculs dessus : combien de GPU peuvent communiquer assez vite pour se comporter comme un seul ?
Ce nombre a un nom : Scale up world. Et cette année il va changer.
Pendant des années, je regardais la mémoire par puce. Par exemple, 80 GB pour une H100. Puis j’additionnais les puces.
Mais en réalité la vraie limite, c’est la mémoire par monde. Combien de mémoire on peut agréger à haute vitesse, sans avoir a passer par le réseau du datacenter.
Quelques chiffres :
8 H100 dans un serveur : 640 GB.
72 GB200/GB300 dans un rack NVL72 : 13 500 GB.
9 216 TPU Ironwood dans un superpod : 1 770 000 GB.
Le mur n’a pas bougé. On a agrandi le monde.
Quand le monde était petit, certains modèles ne tenaient pas dedans. Tu devais les découper, les étaler sur plusieurs serveurs, et chaque inférence traversait le réseau lentement. C’était un processus coûteux et fragile.
Le monde une fois agrandi, ces mêmes modèles fonctionnent. L’inférence redevient locale. Le reinforcement learning devient praticable.
Ce qui était “théoriquement possible” devient “économiquement testable”.
Le RLVR qui fonctionne comme suit : tu définis un score vérifiable, tu laisses le modèle explorer, tu renforces ce qui améliore le score.
Simple à dire. Mais ça demande de l’inférence. Beaucoup d’inférence.
En pratique, les “active params” déterminent surtout le coût de calcul par token, tandis que les “total params” déterminent surtout la barrière mémoire (et donc la taille du monde nécessaire pour servir le modèle efficacement)
Si ton modèle ne tient pas dans un monde, chaque essai coûte cher. Si ton modèle tient, tu peux itérer. Tu peux boucler. Tu peux industrialiser le progrès.
La question pour 2026 n’est pas “quel nouveau benchmark”.
C’est : que se passe-t-il quand les boucles qui marchaient sur des petits modèles commencent à tourner sur des gros ?
Nous traverserons peut-être 2026 sans voir de rupture dans nos interactions.
Mais quelque part, des équipes regardent les mêmes chiffres que nous. Elles calculent ce qui tient maintenant dans un monde. Et lancent des boucles qu’elles n’auraient pas pu lancer avant.
Les années charnières commencent rarement par une annonce. Elles commencent quand quelque chose devient possible.


