IA : Les dynamiques en cours et ce à quoi s'attendre en 2026

Où en est l'IA début 2026 ? Voici mes notes et réflexions sur les dynamiques en cours : ce qui a vraiment changé, ce qui stagne, et ce à quoi s'attendre.

Inspiré de l'épisode #490 du podcast Lex Fridman, avec Sebastian Raschka (auteur de Build a Large Language Model from Scratch) et Nathan Lambert (lead post-training, Allen Institute for AI).

Une architecture étonnamment stable

Premier constat, et peut-être le plus contre-intuitif : malgré les sorties de nouveaux modèles (GPT-5.2, Claude Opus 4.6, Gemini 3, Llama 4...) et les produits construits autour par OpenAI, Anthropic, Google et Meta, l'architecture fondamentale des LLMs n'a quasiment pas évolué depuis GPT-2 (2019).

L'architecture de base est toujours un transformeur decoder-only, issu du papier "Attention Is All You Need" de 2017. Il est d'ailleurs théoriquement possible de partir du code de GPT-2 et d'arriver à un modèle 2026 par ajouts successifs : pas de réécriture, juste des modifications incrémentales. Ce qui veut dire qu'il n'y a pas eu de changement de paradigme. L'architecture a évolué, mais c'est la même idée de base.

Les améliorations portent sur l'efficacité : comment activer moins de paramètres par requête, comment compresser la mémoire pendant l'inférence, comment optimiser les calculs. Des optimisations, pas une nouvelle façon de penser le problème. Sept ans que l'industrie itère sur la même idée de base, et il reste encore beaucoup d'optimisations à explorer.

D'où viennent alors les progrès réels ? De trois sources : la qualité des données d'entraînement, les techniques de post-training (notamment le reinforcement learning), et le compute alloué au moment de l'inférence. L'architecture, elle, attend toujours sa prochaine rupture.

Laisser le modèle réfléchir

L'avancée technique la plus significative de 2025, c'est l'inference-time scaling : plutôt que de construire un modèle plus gros, on lui laisse plus de temps pour réfléchir avant de répondre. Le modèle génère un raisonnement interne, parfois pendant plusieurs minutes, avant de produire sa réponse finale.

C'est ce qui se passe quand on active le mode "thinking" sur ChatGPT, Claude ou Gemini. Les implications sont allées bien au-delà de ce qu'on anticipait.

Réfléchir plus longtemps, ce n'est pas seulement mieux formuler. C'est pouvoir enchaîner des étapes : tenter un appel API, observer le résultat, ajuster, recommencer. C'est ce qui a permis aux LLMs d'effectuer des recherches web autonomes, d'exécuter du code de façon itérative, d'explorer des projets entiers. Il y a un an, un LLM ne savait pas enchaîner des appels API. Aujourd'hui, on peut lancer plusieurs requêtes en parallèle, chacune cherchant un papier de recherche ou vérifiant une équation.

"It has totally transformed how we think of using AI. But it's not clear what the next avenue will be in terms of unlocking stuff like this." Nathan Lambert

L'inference-time scaling a transformé les usages. Mais personne ne sait quelle sera la prochaine avancée de ce calibre.

L'économie du compute

Chaque année, quelqu'un annonce la fin des scaling laws. Chaque année, elles tiennent. La question pertinente en 2026 n'est plus "est-ce que ça scale ?" mais "où investir son compute ?"

Les trois axes d'amélioration (pré-entraînement, post-training, inference-time) fonctionnent tous. Mais l'équation économique a changé. Les scaling laws du pré-training ont tenu sur 13 ordres de grandeur de compute. Aucune raison qu'elles s'arrêtent. Mais servir un modèle géant à des centaines de millions d'utilisateurs coûte des milliards, bien plus que l'entraînement initial.

Le calcul est simple : le pré-entraînement est un coût fixe, l'inférence un coût variable. Si le modèle est obsolète dans six mois, l'équation penche vers l'inférence. C'est pour ça qu'OpenAI a mis en place un système de routage avec GPT-5 : la majorité des requêtes sont dirigées vers un modèle plus léger et moins coûteux.

Des clusters d'un gigawatt arrivent en ligne. Les abonnements aux versions "pro" pourraient passer de 200$ à 2 000$/mois. Le défi n'est plus technique, il est économique.

La donnée comme avantage compétitif

Pour avoir de l'impact dans un laboratoire d'IA, le conseil le plus pragmatique est de trouver de meilleures données.

"If you join a frontier lab and you want to have impact, the best way to do it is just find new data that's better." Nathan Lambert

Le modèle OLMo 3 (Allen Institute) a été entraîné avec moins de données que plusieurs concurrents. Et il les a surpassés. Le secret : la curation. La qualité prime sur la quantité.

Les laboratoires investissent dans l'OCR de PDFs scientifiques, le filtrage du web brut avec des classifieurs spécialisés, l'optimisation du mix de données. On échantillonne des sous-ensembles, on entraîne des petits modèles sur chaque mix, on mesure les performances, et on ajuste. Quand les benchmarks évoluent, le mix change. C'est un travail itératif qui n'est jamais terminé.

Sur les données synthétiques : il ne s'agit pas de laisser l'IA inventer du contenu. C'est souvent reformuler un article en questions-réponses, ou résumer un document technique en langage accessible. Comme pour l'apprentissage humain, on apprend mieux avec un texte bien structuré.

Le paradoxe du RLHF

Le RLHF (Reinforcement Learning from Human Feedback) est la méthode standard pour rendre les modèles utiles et alignés. Lambert en est l'un des experts, ce qui rend son constat d'autant plus intéressant : la méthode a un défaut structurel que personne ne sait résoudre.

Le problème est dans la formulation même. On collecte les préférences de milliers de personnes sur ce qu'est une "bonne" réponse. On entraîne le modèle à maximiser cette préférence agrégée. Résultat : des réponses qui satisfont le plus grand nombre, c'est-à-dire des réponses lisses, consensuelles, sans aspérité.

Lambert appelle ça perdre sa "voix". Un chercheur qui écrit essaie de transformer une intuition à la frontière de sa compréhension en mots. C'est parfois maladroit, mais c'est précis et ça porte un point de vue. Le RLHF, en moyennant les retours, empêche cette forme d'expression.

Une observation partagée par beaucoup d'utilisateurs avancés : même avec des prompts élaborés, les résumés générés par les LLMs passent systématiquement à côté des insights les plus importants. Le résumé est correct, il couvre les points principaux. Mais l'insight, la phrase qui fait voir les choses autrement, n'y est pas.

"These language models don't have this prior in their deep expression that they're trying to get at. I don't think it's impossible to do. But it's such a wonderful fundamental problem." Nathan Lambert

Ce n'est pas un bug. C'est un problème ouvert. Et probablement l'un des plus importants de la décennie.

Le basculement de l'open source

Dans le podcast, les intervenants essaient de lister de mémoire les modèles open weight significatifs. Ils en trouvent plus de vingt. Personne ne pense à mentionner Llama.

Le paysage open source a basculé en 2025. Ce sont désormais les laboratoires chinois qui mènent : DeepSeek a ouvert la voie avec R1 en janvier 2025, rapidement rejoint par Kimi, MiniMax et Qwen. Leurs licences sont plus permissives que Llama ou Gemma : pas de seuil d'utilisateurs, pas de reporting à Meta ou Google.

Les modèles chinois sont aussi plus gros, souvent avec des architectures Mixture of Experts de plusieurs centaines de milliards de paramètres, ce qui leur donne un avantage en performance brute. Côté américain, NVIDIA et Mistral annoncent des modèles équivalents pour début 2026, mais ils ne sont pas encore disponibles.

OpenAI a sorti son premier modèle open source depuis GPT-2. Conçu pour l'utilisation d'outils (tool use), mais loin de rivaliser avec les meilleurs modèles chinois. Sam Altman a été transparent sur la motivation : "We're releasing this because we can use your GPUs." Quand on manque de GPUs, on externalise l'inférence vers la communauté.

Projection à long terme

À la fin du podcast, Lex Fridman demande à ses invités de se projeter dans cent ans.

Les réponses convergent vers quelque chose de modeste. Pas de Singularité. Pas de conscience artificielle. Plutôt des robots spécialisés intégrés au quotidien, des interfaces cerveau-machine qui remplaceront nos smartphones, et une IA qui reste ce qu'elle est : un outil. Puissant, omniprésent, mais un outil.

Ce qui changera en profondeur, c'est la valeur que nous accorderons à ce qui est authentiquement humain. Les expériences physiques. Le lien. La communauté. Lambert parle de "préserver l'agency" : la capacité de choisir, de construire soi-même plutôt que de consommer ce que la machine génère.

C'est peut-être la leçon la plus inattendue de cette conversation. Ce qui compte, ce n'est pas la machine. C'est ce qu'on en fait. Et surtout, ce qu'on choisit de ne pas lui déléguer.

Écouter l'épisode complet →

Lex Fridman Podcast #490, avec Sebastian Raschka et Nathan Lambert