Quand les machines comptent sans calculer : voyage au cœur d'un malentendu

Par Jp@NeuroStratum — Article original publié le 13 janvier 2026

Résumé — Les LLM peuvent sortir « 7 × 8 = 56 » tout en ne faisant « que » prédire le mot suivant. Paradoxe ? Non — malentendu. Le mécanisme statistique ne détermine pas le comportement parfois bluffant. Ces modèles ont appris à singer les patterns arithmétiques de leurs données d’entraînement. Ça marche souvent, mais ça ne garantit rien. Dès que les nombres grossissent ou que les formats sortent des sentiers battus, le château de cartes vacille. La règle d’or : si l’exactitude compte, délègue à une vraie calculatrice. Si l’enjeu est faible, l’approximation peut suffire.

⏱ Temps de lecture estimé : 7 minutes

Comment les LLM produisent des résultats arithmétiques — et pourquoi il ne faut pas toujours leur faire confiance.

L’Objection Qui Pique

« Les grands modèles de langage ne pensent pas. Ils prédisent le prochain jeton. »

L’affirmation claque comme un verdict. Et immanquablement, la contre-attaque fuse : « Ah oui ? Alors comment font-ils pour calculer 347 × 28 ? »

Avoue que la question est malicieuse. Si ces machines ne font que deviner la suite probable d’une phrase, comment diable peuvent-elles résoudre une multiplication ? On n’a jamais vu un perroquet faire des divisions.

Sauf que derrière cet échange se cache un malentendu savoureux. « Prédire le prochain jeton » décrit le comment technique — pas le quoi observable. C’est confondre la mécanique du piano avec la musique qui en sort. Un pianiste produit du son en frappant des touches ; ça ne réduit pas du Chopin à de la percussion aléatoire.

Je te propose d’y voir plus clair. De démêler ce paradoxe, de comprendre quand les LLM réussissent leurs calculs (et pourquoi ils échouent parfois si spectaculairement), et surtout de te donner une boussole pratique pour savoir quand leur faire confiance.

Prêt pour le voyage ?

Posons les Mots sur la Table

« Prédire le prochain jeton », c’est le cœur du réacteur. Le modèle regarde ce qui précède, estime la probabilité de chaque mot possible, et en choisit un. Puis recommence. C’est le mécanisme — pas la finalité.

« Raisonner », au sens fort, c’est appliquer des règles logiques de manière systématique, avec des garanties de validité. Un logiciel de calcul formel raisonne : il déroule des axiomes et des règles d’inférence sans trembler.

La distinction qui change tout tient en trois étages :

Le mécanisme — comment la sortie est fabriquée (prédiction statistique).

Le comportement — ce que cette sortie semble montrer (résoudre un problème).

La garantie — ce qui est formellement assuré (spoiler : rien, côté LLM).

Ce que la recherche nous apprend, c’est que le comportement peut ressembler furieusement à du raisonnement sans que le mécanisme sous-jacent en offre les garanties. Ce n’est pas du raisonnement humain au sens noble. Mais ce n’est pas non plus « rien ». C’est autre chose — et c’est passionnant.

Fais le Test Toi-même

Ouvre ton LLM préféré — Claude, GPT, Gemini, peu importe — et soumets-lui ces trois exercices.

Premier test : l’échauffement. Calcule : 234 + 567. Résultat attendu : 801. La plupart des modèles s’en sortent sans broncher.

Deuxième test : on corse. Calcule : 987654321 × 123456789. Là, ça se gâte. Le résultat exact fait quinze chiffres, et les modèles patinent souvent.

Troisième test : le piège vicieux. Qu’est-ce qui est plus grand : 9.11 ou 9.9 ?

Tu connais la réponse : 9.9 est plus grand. Mais certains modèles répondent « 9.11 » — parce qu’ils traitent les décimales comme des entiers séparés (11 > 9).

Pourquoi ces différences ? La clé s’appelle tokenisation. Pour toi, « 987654321 » est un nombre. Pour le modèle, c’est une suite de morceaux découpés selon des règles qui n’ont rien de mathématique. Tu vois le décalage ?

Comment Ça Marche (quand Ça Marche)

La mémoire des régularités. Un LLM entraîné sur des milliards de textes a croisé « 7 × 8 = 56 » un nombre incalculable de fois. Il a absorbé ces patterns comme une éponge. Pour les petits nombres, cette mémorisation implicite fait le travail. Pas besoin de « calculer » : il suffit de reconnaître le schéma et de compléter.

Les limites de la généralisation. L’étude GSM-Symbolic a jeté un pavé dans la mare en 2024. Changer les valeurs numériques d’un problème (sans toucher à sa logique) fait varier les performances. Plus troublant : ajouter une information non pertinente peut faire chuter les performances de 65 %. Le modèle se laisse distraire par du bruit.

Exact ou plausible ? Voilà le nœud du problème. Un LLM ne distingue pas intrinsèquement entre « réponse correcte » et « réponse qui sonne bien ». Pour lui, « 7 × 8 = 56 » et « 7 × 8 = 54 » sont deux suites de tokens ; simplement, l’une apparaît beaucoup plus souvent dans les données d’entraînement.

La Distinction Qui Change Tout

Performance empirique : « Le modèle répond juste dans X % des cas. » C’est une mesure statistique. Utile, mais partielle.

Garantie formelle : « Le système produit toujours la bonne réponse. » C’est ce qu’offre ta calculatrice de poche.

La différence n’est pas de degré. Elle est de nature. C’est la différence entre « ça marche souvent » et « ça marche toujours ». Entre le talent et la certitude.

Le Pianiste et le Mathématicien

Un virtuose peut jouer une sonate de manière sublime. Mais il peut glisser une fausse note. Le mathématicien qui démontre un théorème n’a pas ce droit : soit la preuve tient, soit elle s’effondre.

Le LLM est du côté du pianiste. Brillant, souvent juste, parfois défaillant.

La Vraie Solution : les Systèmes Hybrides

Le LLM nu. Mode par défaut. Tu poses une question, le modèle génère une réponse en texte. Aucune garantie d’exactitude arithmétique. C’est du texte qui parle de calcul — pas du calcul.

Le LLM outillé. C’est l’approche qui change la donne. GPT-4 avec Code Interpreter, Claude avec ses outils de calcul : le LLM comprend la question, génère le code, et un interpréteur externe effectue le calcul réel. L’ajout d’outils réduit les erreurs d’un facteur 5 à 13. Ce n’est pas une amélioration marginale — c’est un changement de paradigme.

Ce qu’Il Faut Retenir

Les LLM peuvent produire des résultats arithmétiques corrects tout en n’étant « que » des prédicteurs de tokens. Ces modèles ont appris des régularités qui fonctionnent bien dans les cas courants. Et ils échouent de manière prévisible dans les cas limites.

La Règle d’Or

Si l’exactitude est critique — comptabilité, ingénierie, médical — externalise vers un outil dédié et vérifie le résultat. Toujours.

Si l’enjeu est faible — estimation, ordre de grandeur — l’approximation peut suffire.

Entre les deux ? Exerce ton jugement. Et dans le doute, une calculatrice ne coûte rien.

Comme disait un vieux manuel de comptabilité : « Faites confiance, mais vérifiez. » Les LLM n’ont pas inventé ce conseil. Ils l’ont juste rendu plus pertinent que jamais.

Et Toi, qu’En Penses-tu ?

As-tu déjà été surpris — agréablement ou non — par les capacités arithmétiques d’un LLM ?

Raconte-moi ton expérience en commentaire : je suis curieux de savoir si tu fais partie de ceux qui vérifient systématiquement, ou de ceux qui font confiance au feeling.

Écrit avec le soutien de l’IA pour aider à organiser les pensées et façonner le langage.

Jp@NeuroStratum

Pour Aller plus Loin

GSM-Symbolic — Mirzadeh et al. (2024), Understanding the Limitations of Mathematical Reasoning in LLMs, ICLR 2025. L’étude qui a fait bouger les lignes sur les capacités de raisonnement des LLM :
→ https://arxiv.org/abs/2410.05229
Tokenization Counts — Singh & Strouse (2024), The Impact of Tokenization on Arithmetic in Frontier LLMs. Première étude systématique sur le lien entre tokenisation et arithmétique :
→ https://arxiv.org/abs/2402.14903
Survey Mathematical Reasoning — Ahn et al. (2024), Large Language Models for Mathematical Reasoning: Progresses and Challenges, EACL 2024. La cartographie la plus complète du terrain :
→ https://arxiv.org/abs/2402.00157
Numerical Precision — Feng et al. (2024), How Numerical Precision Affects Arithmetical Reasoning Capabilities of LLMs. L’analyse théorique des capacités arithmétiques des Transformers :
→ https://arxiv.org/abs/2410.13857
LLM Agents + Tools — Goodwin et al. (2025), npj Digital Medicine. L’évaluation la plus rigoureuse de l’apport des outils pour les calculs cliniques :
→ https://www.nature.com/articles/s41746-025-01475-8

Publications similaires

Quand les machines comptent sans calculer : voyage au cœur d’un malentendu

L’Objection Qui Pique

Posons les Mots sur la Table

Fais le Test Toi-même

Comment Ça Marche (quand Ça Marche)

La Distinction Qui Change Tout

Le Pianiste et le Mathématicien

La Vraie Solution : les Systèmes Hybrides

Ce qu’Il Faut Retenir

La Règle d’Or

Et Toi, qu’En Penses-tu ?

Pour Aller plus Loin

Claude Shannon : Le Génie qui Jonglait avec l’Information et Créa les IA

Quand l’IA bute sur les maths : la Silicon Valley tremble

Quand les mathématiques tirent les ficelles de l’IA générative : probabilités, vecteurs et RAG sans jargon

Échecs et mat commercial : quand les tarifs douaniers jouent aux échecs

Du Beautiful Mind à l’intelligence artificielle : comment John Nash a changé l’IA

La théorie des jeux de Nash : quand les mathématiques décryptent nos stratégies

Laisser un commentaire Annuler la réponse