Quand les machines comptent sans calculer : voyage au cœur d’un malentendu
Par Jp@NeuroStratum — Article original publié le 13 janvier 2026
Résumé — Les LLM peuvent sortir « 7 × 8 = 56 » tout en ne faisant « que » prédire le mot suivant. Paradoxe ? Non — malentendu. Le mécanisme statistique ne détermine pas le comportement parfois bluffant. Ces modèles ont appris à singer les patterns arithmétiques de leurs données d’entraînement. Ça marche souvent, mais ça ne garantit rien. Dès que les nombres grossissent ou que les formats sortent des sentiers battus, le château de cartes vacille. La règle d’or : si l’exactitude compte, délègue à une vraie calculatrice. Si l’enjeu est faible, l’approximation peut suffire.
⏱ Temps de lecture estimé : 7 minutes
Comment les LLM produisent des résultats arithmétiques — et pourquoi il ne faut pas toujours leur faire confiance.
L’Objection Qui Pique
« Les grands modèles de langage ne pensent pas. Ils prédisent le prochain jeton. »
L’affirmation claque comme un verdict. Et immanquablement, la contre-attaque fuse : « Ah oui ? Alors comment font-ils pour calculer 347 × 28 ? »
Avoue que la question est malicieuse. Si ces machines ne font que deviner la suite probable d’une phrase, comment diable peuvent-elles résoudre une multiplication ? On n’a jamais vu un perroquet faire des divisions.
Sauf que derrière cet échange se cache un malentendu savoureux. « Prédire le prochain jeton » décrit le comment technique — pas le quoi observable. C’est confondre la mécanique du piano avec la musique qui en sort. Un pianiste produit du son en frappant des touches ; ça ne réduit pas du Chopin à de la percussion aléatoire.
Je te propose d’y voir plus clair. De démêler ce paradoxe, de comprendre quand les LLM réussissent leurs calculs (et pourquoi ils échouent parfois si spectaculairement), et surtout de te donner une boussole pratique pour savoir quand leur faire confiance.
Prêt pour le voyage ?
Posons les Mots sur la Table
« Prédire le prochain jeton », c’est le cœur du réacteur. Le modèle regarde ce qui précède, estime la probabilité de chaque mot possible, et en choisit un. Puis recommence. C’est le mécanisme — pas la finalité.
« Raisonner », au sens fort, c’est appliquer des règles logiques de manière systématique, avec des garanties de validité. Un logiciel de calcul formel raisonne : il déroule des axiomes et des règles d’inférence sans trembler.
La distinction qui change tout tient en trois étages :
Le mécanisme — comment la sortie est fabriquée (prédiction statistique).
Le comportement — ce que cette sortie semble montrer (résoudre un problème).
La garantie — ce qui est formellement assuré (spoiler : rien, côté LLM).
Ce que la recherche nous apprend, c’est que le comportement peut ressembler furieusement à du raisonnement sans que le mécanisme sous-jacent en offre les garanties. Ce n’est pas du raisonnement humain au sens noble. Mais ce n’est pas non plus « rien ». C’est autre chose — et c’est passionnant.
Fais le Test Toi-même
Ouvre ton LLM préféré — Claude, GPT, Gemini, peu importe — et soumets-lui ces trois exercices.
Premier test : l’échauffement. Calcule : 234 + 567. Résultat attendu : 801. La plupart des modèles s’en sortent sans broncher.
Deuxième test : on corse. Calcule : 987654321 × 123456789. Là, ça se gâte. Le résultat exact fait quinze chiffres, et les modèles patinent souvent.
Troisième test : le piège vicieux. Qu’est-ce qui est plus grand : 9.11 ou 9.9 ?
Tu connais la réponse : 9.9 est plus grand. Mais certains modèles répondent « 9.11 » — parce qu’ils traitent les décimales comme des entiers séparés (11 > 9).
Pourquoi ces différences ? La clé s’appelle tokenisation. Pour toi, « 987654321 » est un nombre. Pour le modèle, c’est une suite de morceaux découpés selon des règles qui n’ont rien de mathématique. Tu vois le décalage ?
Comment Ça Marche (quand Ça Marche)
La mémoire des régularités. Un LLM entraîné sur des milliards de textes a croisé « 7 × 8 = 56 » un nombre incalculable de fois. Il a absorbé ces patterns comme une éponge. Pour les petits nombres, cette mémorisation implicite fait le travail. Pas besoin de « calculer » : il suffit de reconnaître le schéma et de compléter.
Les limites de la généralisation. L’étude GSM-Symbolic a jeté un pavé dans la mare en 2024. Changer les valeurs numériques d’un problème (sans toucher à sa logique) fait varier les performances. Plus troublant : ajouter une information non pertinente peut faire chuter les performances de 65 %. Le modèle se laisse distraire par du bruit.
Exact ou plausible ? Voilà le nœud du problème. Un LLM ne distingue pas intrinsèquement entre « réponse correcte » et « réponse qui sonne bien ». Pour lui, « 7 × 8 = 56 » et « 7 × 8 = 54 » sont deux suites de tokens ; simplement, l’une apparaît beaucoup plus souvent dans les données d’entraînement.
La Distinction Qui Change Tout
Performance empirique : « Le modèle répond juste dans X % des cas. » C’est une mesure statistique. Utile, mais partielle.
Garantie formelle : « Le système produit toujours la bonne réponse. » C’est ce qu’offre ta calculatrice de poche.
La différence n’est pas de degré. Elle est de nature. C’est la différence entre « ça marche souvent » et « ça marche toujours ». Entre le talent et la certitude.
Le Pianiste et le Mathématicien
Un virtuose peut jouer une sonate de manière sublime. Mais il peut glisser une fausse note. Le mathématicien qui démontre un théorème n’a pas ce droit : soit la preuve tient, soit elle s’effondre.
Le LLM est du côté du pianiste. Brillant, souvent juste, parfois défaillant.
La Vraie Solution : les Systèmes Hybrides
Le LLM nu. Mode par défaut. Tu poses une question, le modèle génère une réponse en texte. Aucune garantie d’exactitude arithmétique. C’est du texte qui parle de calcul — pas du calcul.
Le LLM outillé. C’est l’approche qui change la donne. GPT-4 avec Code Interpreter, Claude avec ses outils de calcul : le LLM comprend la question, génère le code, et un interpréteur externe effectue le calcul réel. L’ajout d’outils réduit les erreurs d’un facteur 5 à 13. Ce n’est pas une amélioration marginale — c’est un changement de paradigme.
Ce qu’Il Faut Retenir
Les LLM peuvent produire des résultats arithmétiques corrects tout en n’étant « que » des prédicteurs de tokens. Ces modèles ont appris des régularités qui fonctionnent bien dans les cas courants. Et ils échouent de manière prévisible dans les cas limites.
La Règle d’Or
Si l’exactitude est critique — comptabilité, ingénierie, médical — externalise vers un outil dédié et vérifie le résultat. Toujours.
Si l’enjeu est faible — estimation, ordre de grandeur — l’approximation peut suffire.
Entre les deux ? Exerce ton jugement. Et dans le doute, une calculatrice ne coûte rien.
Comme disait un vieux manuel de comptabilité : « Faites confiance, mais vérifiez. » Les LLM n’ont pas inventé ce conseil. Ils l’ont juste rendu plus pertinent que jamais.
Et Toi, qu’En Penses-tu ?
As-tu déjà été surpris — agréablement ou non — par les capacités arithmétiques d’un LLM ?
Raconte-moi ton expérience en commentaire : je suis curieux de savoir si tu fais partie de ceux qui vérifient systématiquement, ou de ceux qui font confiance au feeling.
Écrit avec le soutien de l’IA pour aider à organiser les pensées et façonner le langage.
Jp@NeuroStratum
Pour Aller plus Loin
- GSM-Symbolic — Mirzadeh et al. (2024), Understanding the Limitations of Mathematical Reasoning in LLMs, ICLR 2025. L’étude qui a fait bouger les lignes sur les capacités de raisonnement des LLM :
→ https://arxiv.org/abs/2410.05229 - Tokenization Counts — Singh & Strouse (2024), The Impact of Tokenization on Arithmetic in Frontier LLMs. Première étude systématique sur le lien entre tokenisation et arithmétique :
→ https://arxiv.org/abs/2402.14903 - Survey Mathematical Reasoning — Ahn et al. (2024), Large Language Models for Mathematical Reasoning: Progresses and Challenges, EACL 2024. La cartographie la plus complète du terrain :
→ https://arxiv.org/abs/2402.00157 - Numerical Precision — Feng et al. (2024), How Numerical Precision Affects Arithmetical Reasoning Capabilities of LLMs. L’analyse théorique des capacités arithmétiques des Transformers :
→ https://arxiv.org/abs/2410.13857 - LLM Agents + Tools — Goodwin et al. (2025), npj Digital Medicine. L’évaluation la plus rigoureuse de l’apport des outils pour les calculs cliniques :
→ https://www.nature.com/articles/s41746-025-01475-8