Citation, mention, référence : ce que mesurent vraiment les outils d'AI Visibility, LLM par LLM
Quand un dirigeant demande « est-ce que ma marque apparaît dans ChatGPT ? » — la question semble simple. Elle ne l'est pas. Derrière ce mot — apparaître — il y a au moins cinq réalités techniques différentes. Elles ne se mesurent pas de la même façon, ne s'optimisent pas avec les mêmes leviers, et n'ont pas le même impact business. Et selon le LLM concerné — ChatGPT, Perplexity, Gemini ou Claude — ces réalités prennent des formes encore différentes. Ce guide donne aux dirigeants les concepts précis dont ils ont besoin pour piloter leur stratégie de visibilité IA.
Pourquoi cette confusion est un vrai problème business
Avant d'entrer dans le vif, posons l'enjeu.
Quand un acheteur B2B demande à ChatGPT « quels sont les meilleurs outils de [votre catégorie] ? », trois choses peuvent se produire :
- Votre marque est citée dans la réponse, avec un lien cliquable vers votre site.
- Votre marque est mentionnée dans la réponse, mais sans lien — le nom apparaît, c'est tout.
- Votre marque n'apparaît nulle part, alors qu'un concurrent moins établi est listé.
Ces trois scénarios ne se mesurent pas de la même façon, ne s'attaquent pas avec les mêmes tactiques, et n'ont pas le même impact sur le pipeline. Pourtant, beaucoup d'outils d'AI Visibility les fusionnent dans un score unique — ou ne mesurent qu'un seul des trois.
Si votre objectif est de générer du trafic depuis les IA, vous voulez optimiser les citations avec lien. Si votre objectif est l'autorité de marque (être perçu comme la référence d'une catégorie), vous voulez optimiser les mentions et recommandations. Si votre objectif est de vous défendre contre une perception erronée, vous voulez monitorer le sentiment de ces apparitions. Trois objectifs, trois métriques.
D'où l'importance de remettre les concepts au clair.
Les cinq niveaux de présence dans une réponse IA
Voici les cinq formes sous lesquelles une marque peut apparaître dans une réponse générée par un LLM. Comprenez-les, et vous comprendrez 90 % de ce que vendent les outils d'AI Visibility.
1. La citation avec source cliquable
C'est la forme la plus visible et la plus mesurable. La réponse contient une référence explicite à un site web — un lien hypertexte, un numéro entre crochets renvoyant à une URL, ou une carte source affichée sous le texte.
L'utilisateur peut cliquer. Cela génère du trafic vers le site cité. C'est l'équivalent IA d'un featured snippet sur Google : très convoité, très traqué.
Une citation s'analyse selon plusieurs dimensions : quelle URL exactement est citée (souvent une page profonde, pas la home), quelle phrase ou paragraphe a été retenu, et à quelle position dans la réponse la citation apparaît.
2. La mention de marque sans lien
Le nom de votre marque apparaît dans le texte de la réponse, mais sans lien associé. Par exemple, ChatGPT répond « les principaux acteurs sont [marque A], [marque B] et [marque C] » sans qu'aucun de ces noms ne soit cliquable.
C'est moins direct qu'une citation pour le trafic, mais c'est souvent plus précieux pour la notoriété. Une mention signifie que le LLM associe votre marque à votre catégorie de manière intrinsèque — soit parce qu'il l'a appris pendant son entraînement, soit parce que les sources qu'il a consultées la mentionnent assez fréquemment pour qu'elle remonte en synthèse.
C'est aussi le niveau le plus difficile à tracker, parce qu'il faut analyser le texte de la réponse pour y détecter le nom de la marque, en distinguant les vraies mentions des faux positifs (homonymies, sens commun, etc.).
3. La référence dans le panneau de sources
Plusieurs LLMs (ChatGPT en mode search, Perplexity, Gemini en mode AI Overview) affichent un panneau ou une liste de sources distinctes du corps de la réponse. Une page peut figurer dans cette liste sans être directement citée dans le texte généré.
C'est un niveau intermédiaire. Le LLM a consulté votre page, l'a jugée pertinente, mais n'en a pas extrait de passage spécifique pour la réponse finale. L'utilisateur peut quand même la voir et cliquer.
Cette nuance est importante : un outil qui ne tracke que les citations inline manque ces apparitions, alors qu'elles génèrent aussi du trafic.
4. La recommandation explicite
Cas particulier de la mention : votre marque est suggérée comme la réponse à une question de comparaison ou de choix. Pas juste citée parmi d'autres, mais positionnée comme l'option recommandée.
Exemple : à la question « quel est le meilleur outil pour [cas d'usage] ? », la réponse dit « le choix le plus adapté est [votre marque] parce que… ». Vous n'êtes plus dans la liste, vous êtes la liste.
C'est la forme de visibilité IA à plus forte valeur commerciale, parce qu'elle court-circuite la phase de comparaison de l'acheteur. Elle se mesure différemment d'une simple mention : il faut analyser la position de la marque dans la réponse et le langage qui l'entoure.
5. Le sentiment associé
Souvent ignoré, presque jamais tracké par défaut, et pourtant critique. Quand votre marque est citée ou mentionnée, l'IA en parle-t-elle positivement, neutralement, ou négativement ?
Une citation peut être à charge. « Évitez [votre marque] parce que… » est aussi une citation. Si votre outil de tracking comptabilise cette occurrence sans en analyser le sentiment, il vous donne un faux signal positif.
Ce niveau exige une couche d'analyse sémantique sur le texte de la réponse, pas juste une détection de présence. C'est ce qui distingue un audit superficiel d'un audit utile.
Ces cinq niveaux existent en théorie. En pratique, chaque LLM en active certains, en ignore d'autres, et les expose techniquement de manières très différentes. Voyons comment, plateforme par plateforme.
ChatGPT : deux moteurs cohabitent dans une seule interface
C'est le LLM le plus utilisé, et probablement celui dont le fonctionnement de citation est le plus mal compris. Parce qu'en réalité, ChatGPT n'a pas une logique de citation, mais deux.
Le mode "training data" (sans recherche web)
Quand vous posez une question à ChatGPT sans déclencher la recherche web, le modèle répond depuis sa mémoire d'entraînement. Il a été entraîné sur des milliards de pages web, et il puise dans cette connaissance figée à une date de cutoff.
Dans ce mode, aucune citation cliquable n'est générée. Les noms de marque qui apparaissent dans la réponse sont des mentions au sens 2 décrit plus haut. Le modèle a vu votre marque suffisamment de fois pendant son entraînement pour l'associer à votre catégorie.
C'est important pour deux raisons :
- Vous ne pouvez pas optimiser ce mode rétroactivement. Le modèle est entraîné, c'est fait.
- Vous ne pouvez le mesurer qu'en posant des questions au modèle et en analysant les réponses.
Le mode "ChatGPT search" (avec recherche web)
Quand la question implique de l'information récente, ou quand l'utilisateur active explicitement la recherche, ChatGPT exécute une recherche web. Il s'appuie historiquement sur l'index Bing comme partenaire principal pour ces requêtes.
Dans ce mode, deux choses se produisent :
- Des citations inline apparaissent dans la réponse, sous forme de petites références qu'on peut survoler ou cliquer pour voir la source.
- Un panneau "Sources" liste les pages consultées, accessible sous la réponse.
Ce sont deux formes distinctes de présence. Une page peut figurer dans le panneau Sources sans être citée inline, et inversement.
Une subtilité : ChatGPT réécrit votre requête
Avant de chercher, ChatGPT reformule souvent la question de l'utilisateur en une ou plusieurs requêtes optimisées pour le moteur partenaire. Si l'utilisateur écrit « j'ai besoin d'un bon outil pour [problème] », ChatGPT peut envoyer à Bing une requête plus structurée comme « best [catégorie] tools 2026 ».
Conséquence pour votre tracking : la requête réelle qui détermine votre visibilité n'est pas toujours celle posée par l'utilisateur. Un audit complet doit tester plusieurs reformulations possibles, pas seulement la requête nominale.
Ce qu'on peut tracker sur ChatGPT
Concrètement, un audit de visibilité sur ChatGPT doit mesurer :
- Les mentions dans le mode training data (réponses sans recherche).
- Les citations inline dans le mode search (avec URL et passage cité).
- Les sources listées dans le panneau de sources.
- Le sentiment associé à chaque apparition.
- La part de voix face aux concurrents nommés dans les mêmes réponses.
Un outil qui annonce « tracker ChatGPT » sans préciser lequel de ces signaux il mesure vous laisse dans le flou. Demandez la précision.
Perplexity : le moteur le plus "citation-first"
Perplexity est le LLM le plus pédagogique sur ses sources, parce que c'est sa proposition de valeur principale : être un answer engine qui montre toujours d'où il tire ses réponses.
Une mécanique simple et transparente
Pour chaque requête, Perplexity exécute une recherche web en temps réel sur sa propre infrastructure. Il sélectionne un nombre limité de sources jugées autoritaires, en extrait des passages, et génère une réponse qui cite chacune de ces sources avec un numéro entre crochets — exactement comme une note de bas de page académique.
Chaque citation est cliquable. Chaque source est visible. La synthèse est explicitement labellisée comme dérivée de ces sources.
Trois modes, trois logiques
Perplexity propose plusieurs modes de réponse qui ne se comportent pas de la même façon :
- Search standard — quelques sources sélectionnées, réponse rapide.
- Pro Search — décomposition de la requête en sous-questions, plus de sources consultées, raisonnement plus poussé.
- Research (deep research) — des dizaines de sources lues sur plusieurs minutes, rapport long et structuré.
Une page peut être citée dans Pro Search et invisible dans le mode standard, ou apparaître seulement dans le mode Research. Tracker uniquement le mode standard, c'est rater une grande partie du signal sur les requêtes complexes — qui sont précisément celles que les acheteurs B2B posent.
Ce qu'on peut tracker sur Perplexity
- Position de chaque source dans la liste numérotée.
- Nombre de citations par réponse (souvent élevé, plusieurs sources par requête).
- Présence dans le mode standard, Pro Search, et Research.
- Reddit et plateformes communautaires, que Perplexity privilégie nettement par rapport aux autres moteurs.
Là où Perplexity diffère vraiment des autres LLMs : la fraîcheur. Le moteur favorise nettement les contenus récents. Une page mise à jour récemment a un avantage citation significatif sur une page identique mais ancienne. Un audit qui ne mesure pas ce facteur de fraîcheur passe à côté d'un signal d'optimisation majeur.
Google Gemini : une galaxie de surfaces, pas un seul produit
C'est probablement le cas le plus complexe à tracker, parce que « Gemini » désigne en réalité plusieurs surfaces distinctes dans l'écosystème Google.
Les trois surfaces à distinguer
AI Overviews — les résumés IA qui apparaissent en haut de la page de résultats Google classique. Ils sont générés par Gemini, basés sur des résultats de recherche Google sélectionnés, et affichent un panneau de sources cliquables sur la droite ou en bas du résumé.
AI Mode — un onglet de recherche dédié dans Google Search, où l'expérience est entièrement conversationnelle, avec une logique de réponse et de sources plus proche de Perplexity.
Gemini app — l'application autonome (web et mobile), où l'utilisateur dialogue directement avec le modèle, qui peut activer ou non un grounding sur Google Search selon la requête.
Ces trois surfaces partagent le même modèle sous le capot, mais leurs comportements de citation diffèrent. Une page peut être citée dans les AI Overviews et invisible dans AI Mode, ou inversement.
La mécanique du grounding et du query fan-out
Sur les surfaces avec recherche web active, Gemini utilise un mécanisme appelé Grounding with Google Search. Mais ce qui rend Gemini structurellement différent des autres moteurs, c'est le query fan-out.
Concrètement : quand un utilisateur pose une question, Gemini ne fait pas une recherche. Il en fait plusieurs. Le modèle décompose la requête initiale en sous-requêtes liées, exécute une recherche Google sur chacune, et croise les résultats avant de synthétiser.
Exemple. À la question « quels sont les meilleurs outils de [catégorie] ? », Gemini peut générer en interne :
- « comparatif outils [catégorie] 2026 »
- « avis utilisateurs [catégorie] »
- « [catégorie] pricing »
- « alternatives à [marque leader de la catégorie] »
- « [catégorie] B2B vs B2C »
Une page qui ne ranke que sur la requête principale a beaucoup moins de chances d'apparaître que celle qui ranke sur plusieurs sous-requêtes — parce que la sélection finale des sources se fait à l'intersection des résultats.
Conséquence directe : votre stratégie de contenu doit couvrir le réseau sémantique autour de votre catégorie, pas juste la requête principale. Et votre tracking doit mesurer la couverture sur ces sous-requêtes, pas seulement sur la requête nominale.
L'API Gemini expose explicitement les webSearchQueries utilisées, les groundingChunks (sources consultées) et les groundingSupports (passages reliés au texte généré). C'est techniquement très traçable — pour qui sait y accéder.
Ce qu'on peut tracker sur Gemini
- Présence dans les AI Overviews pour vos requêtes cibles.
- Présence dans les sources affichées sous l'AI Overview.
- Présence dans les réponses AI Mode, qui ont leur propre logique de sélection.
- Présence dans les réponses de l'app Gemini en mode grounded.
- Couverture sur les sous-requêtes du query fan-out — souvent le levier le plus négligé.
Claude : la logique Brave Search
Claude est le quatrième pilier majeur de l'AI Visibility, en croissance rapide notamment auprès des audiences techniques et professionnelles.
Une mécanique différente de tous les autres
Quand la recherche web est activée sur Claude, le modèle utilise Brave Search comme backend principal pour récupérer les résultats. C'est un point souvent ignoré : optimiser pour Claude n'est pas optimiser pour Bing (ChatGPT), pour Google (Gemini), ni pour l'index propre de Perplexity. C'est une troisième mécanique d'indexation.
Concrètement, Claude exécute une recherche, affiche la requête utilisée et la liste des résultats consultés, puis génère une réponse conversationnelle avec des citations inline cliquables, similaires à ChatGPT.
Une logique de citation plus sélective
Claude a la réputation de citer moins de sources par réponse que Perplexity ou ChatGPT, mais avec plus de poids par citation. Quand le modèle cite, c'est parce qu'il a explicitement utilisé le contenu — pas seulement consulté la page. Le modèle a aussi tendance à privilégier les sources tierces (validation externe) plutôt que la propre description qu'une marque fait d'elle-même.
Cela a une implication directe : pour être cité par Claude, il ne suffit pas d'avoir un bon site. Il faut aussi être mentionné par des sources que Claude considère comme des tiers crédibles.
Le cas des intégrations API et agents
Une particularité critique de Claude souvent ignorée : le modèle est massivement utilisé hors de l'interface chat publique. Beaucoup d'outils SaaS, d'agents IA et d'applications métier utilisent Claude via API pour générer leurs réponses. Dans ces contextes, le comportement de citation peut différer significativement :
- Certaines intégrations désactivent la recherche web et s'appuient uniquement sur la connaissance entraînée du modèle.
- D'autres utilisent une logique RAG personnalisée avec des bases de données propriétaires, où Claude cite des sources internes plutôt que le web public.
- D'autres encore utilisent la fonction web_search de l'API Claude, qui produit des citations inline structurées.
Pour une marque, cela signifie que la visibilité dans Claude ne se résume pas à être cité dans claude.ai. Si votre catégorie est outillée par des agents IA construits sur Claude, votre présence dans les bases de connaissance et corpus utilisés par ces agents devient une variable autonome — qu'aucun outil d'AI Visibility grand public ne tracke aujourd'hui.
Ce qu'on peut tracker sur Claude
- Présence dans les requêtes en mode web search sur claude.ai.
- Citations inline dans la réponse générée.
- Sources consultées affichées avant la réponse.
- Mentions dans le mode training data (sans recherche).
- Sentiment et positionnement dans les réponses comparatives.
Le cas Grok (xAI) : pourquoi il est rarement tracké
À ce stade, vous vous demandez peut-être pourquoi cet article ne traite pas de Grok, le LLM de xAI intégré à X (ex-Twitter).
La réponse est pragmatique : pour un acheteur B2B en France et en Europe, Grok pèse aujourd'hui une fraction marginale du volume de requêtes liées à des décisions d'achat. Son audience est concentrée sur l'écosystème X, fortement orientée temps réel et débat public, et son comportement de citation est moins stable que celui des quatre moteurs traités plus haut.
Pour la majorité des stratégies B2B, allouer du budget tracking et optimisation à Grok produit un retour faible comparé aux quatre moteurs majeurs. Cela peut changer si votre audience est très active sur X ou si votre catégorie est particulièrement sensible à l'actualité — auquel cas Grok mérite une analyse spécifique.
Le principe à retenir : un outil d'AI Visibility doit vous expliquer quels moteurs il tracke et pourquoi. Pas vous lister Grok, DeepSeek et autres pour gonfler artificiellement la couverture annoncée.
Tableau comparatif
Voici la synthèse des quatre moteurs sur les dimensions clés.
| Dimension | ChatGPT | Perplexity | Gemini | Claude |
|---|---|---|---|---|
| Backend de recherche | Bing (partenaire) | Index propre | Google Search | Brave Search |
| Citations inline cliquables | Oui (mode search) | Oui, toujours | Oui (mode grounded) | Oui (mode search) |
| Panneau de sources distinct | Oui | Oui (numéroté) | Oui (sous AI Overview) | Oui |
| Mentions sans lien possibles | Oui (mode training) | Rare | Oui (sans grounding) | Oui (mode training) |
| Nombre moyen de citations | Moyen | Élevé | Variable | Faible |
| Importance de la fraîcheur | Élevée | Très élevée | Élevée | Moyenne |
| Importance des sources tierces | Élevée | Moyenne | Moyenne | Très élevée |
| Surfaces multiples | Oui (search/training) | Trois modes | Trois surfaces | Chat + API |
| Décomposition de requête | Oui (reformulation) | Oui (Pro Search) | Oui (query fan-out) | Limitée |
Ce tableau a une vertu pédagogique : il montre qu'un audit qui mesure la même chose sur les quatre moteurs passe forcément à côté de signaux spécifiques à chaque plateforme.
Ce que ça change pour votre stratégie de visibilité IA
Si vous êtes arrivé jusqu'ici, vous avez désormais le vocabulaire pour poser les bonnes questions. Trois conséquences pratiques.
1. Demandez à votre outil d'AI Visibility ce qu'il mesure exactement
Pas « est-ce que vous trackez ChatGPT ». Mais : « est-ce que vous trackez les citations inline, les sources dans le panneau, les mentions sans lien, et le sentiment ? Sur quels modes ? Avec quelle fréquence ? Sur combien de requêtes ? »
Si l'outil ne sait pas répondre, ou répond avec un score unique opaque, vous savez ce que vaut le score.
2. Définissez votre objectif de visibilité IA avant de regarder les outils
Trafic qualifié depuis les IA → optimisez et trackez les citations avec lien.
Notoriété et autorité de catégorie → optimisez et trackez les mentions et recommandations.
Défense de marque → optimisez et trackez le sentiment.
Visibilité totale → tout, mais en sachant que chaque dimension demande des leviers différents.
Sans cet alignement objectif/métrique, l'AI Visibility devient un exercice de score décoratif.
3. Ne fusionnez pas les LLMs dans une seule stratégie
Optimiser pour Perplexity (fraîcheur, structure) ne produit pas exactement les mêmes résultats que pour Claude (sources tierces, validation externe) ou pour Gemini (autorité Google, query fan-out). Une stratégie GEO/AEO mature considère ces différences et alloue les efforts en conséquence — pas un plan d'action générique appliqué partout.
Checklist : 5 questions à poser à votre outil d'AI Visibility
Si vous évaluez aujourd'hui une plateforme de tracking de visibilité IA, voici la grille minimale à appliquer. Toute réponse vague à l'une de ces cinq questions doit vous alerter.
1. Quels niveaux de présence mesurez-vous ?
La bonne réponse distingue clairement citations inline, sources dans panneau, mentions sans lien, recommandations et sentiment. Si l'outil parle uniquement de « citations » ou d'un « score de visibilité » sans détailler, il fusionne des choses qui n'ont pas la même valeur.
2. Quels modes de chaque LLM sont couverts ?
ChatGPT search ET training data ? Perplexity standard ET Pro Search ET Research ? Gemini AI Overviews ET AI Mode ET app ? Claude chat ET API ? Une couverture partielle est acceptable — à condition d'être explicite.
3. Combien de requêtes sont testées, et comment sont-elles choisies ?
Tester 10 requêtes choisies par vous donne un signal, mais biaisé. Tester 200 requêtes générées à partir de votre univers sémantique donne une cartographie. Demandez la méthodologie de génération des requêtes.
4. Le sentiment est-il analysé ?
Si la réponse est non, l'outil compte les apparitions sans qualifier leur valeur. Une marque peut avoir un score « positif » alors que 30 % de ses mentions sont à charge.
5. Que recommandez-vous concrètement après l'audit ?
Un score sans plan d'action est un thermomètre sans médecin. La vraie valeur d'un audit AI Visibility, c'est la capacité à transformer le diagnostic en feuille de route opérationnelle.
Glossaire AI Visibility
AEO — Answer Engine Optimization. Optimisation pour les moteurs qui répondent par une réponse synthétisée plutôt qu'une liste de liens.
AI Overview — Résumé IA généré par Gemini affiché en haut des résultats Google. A remplacé l'expérience SGE (Search Generative Experience).
AI Mode — Onglet de recherche conversationnelle dédié dans Google Search, distinct des AI Overviews.
Backend de recherche — Le moteur d'index utilisé par un LLM pour récupérer les pages web (Bing pour ChatGPT, Brave pour Claude, etc.).
Citation — Référence explicite à une source dans une réponse IA, généralement avec un lien cliquable.
Crawler IA — Robot d'un éditeur de LLM qui parcourt le web pour entraîner ses modèles ou alimenter sa recherche en direct (GPTBot, Google-Extended, ClaudeBot, etc.).
GEO — Generative Engine Optimization. Optimisation pour les moteurs génératifs (ChatGPT, Perplexity, Gemini, Claude).
Grounding — Mécanisme par lequel un LLM ancre sa réponse dans des sources web réelles plutôt que dans sa seule mémoire d'entraînement.
Mention — Apparition du nom d'une marque dans une réponse IA sans lien cliquable associé.
Query fan-out — Décomposition automatique d'une requête utilisateur en plusieurs sous-requêtes par le LLM avant la recherche. Caractéristique notamment de Gemini.
RAG (Retrieval-Augmented Generation) — Architecture qui combine la génération d'un LLM avec une étape préalable de récupération de documents pertinents.
Recommandation — Cas particulier de mention où la marque est positionnée comme la réponse à une question de choix ou de comparaison.
Sentiment — Tonalité positive, neutre ou négative associée à une mention ou citation.
Surface — Interface ou contexte dans lequel un LLM répond (ex. : ChatGPT chat, ChatGPT API, Gemini AI Overviews, Gemini app, etc.).
Training data — Corpus utilisé pour entraîner un LLM. Détermine ce que le modèle « sait » sans recherche web active.
Pour aller plus loin
C'est exactement le problème que Storyzee résout : produire un audit qui distingue chacun de ces signaux, par moteur, avec un plan d'action concret pour combler les écarts. Pas un score noir-boîte, mais une cartographie lisible de votre présence réelle dans ChatGPT, Perplexity, Gemini et Claude — avec ce qui la freine et ce qui peut la débloquer.
Si vous voulez voir ce que ça donne sur votre marque, demandez un audit Storyzee. Le diagnostic vous est rendu sous 48 h, prêt à être discuté en interne.
Cet article fait partie du pôle de contenus Storyzee sur la Generative Engine Optimization (GEO) et l'Answer Engine Optimization (AEO). Pour creuser un sujet spécifique, écrivez-nous.
Storyzee
Fondateur de Storyzee. Ancien dirigeant d'agence reconverti dans la visibilité IA. Construit l'outil et la méthode pour que les PME existent dans les réponses de ChatGPT, Perplexity, Gemini, Claude et Grok.
Parler à Benjamin — 30 min offertes