Aller au contenu principal

Doc-as-Data

Considérer la documentation comme une source de données pour l'IA

La documentation source de données pour l'IA

À quoi sert une documentation logicielle ?
Historiquement, elle a été conçue pour les humains — développeurs, utilisateurs, clients — afin de comprendre et d'utiliser un produit logiciel.

Mais à l'ère des intelligences artificielles génératives, la documentation devient aussi une source de données.

Elle n'est plus seulement un texte à lire, mais un corpus structuré, interrogeable et exploitable par les systèmes d'IA.
C'est le concept de Doc-as-Data.

Retour sur la documentation traditionnelle

Une ressource de référence et un document contractuel

La documentation est la source officielle de vérité sur le produit.
Elle décrit le logiciel tel qu'il est livré, pour une version donnée, et garantit la conformité entre ce qui a été conçu et ce qui est effectivement disponible.

  • C'est d'abord un document contractuel : il atteste que le logiciel est fourni avec une description complète de ses fonctionnalités.
    Ce rôle évite de devoir expliquer individuellement à chaque client comment utiliser le produit, et protège l'éditeur en cas de mauvaise manipulation ("RTFM" : Read The F***ing Manual).
    Elle peut être normée par une page de version, de dates et de responsables pour en suivre l'évolution, et même traduite en plusieurs langues.

  • Elle représente une photographie du produit à un instant T.
    Dans certains cas, elle devient une "rétro-spec" : lorsque les spécifications initiales sont absentes ou floues, c'est la documentation elle-même qui fait foi sur l'état réel du logiciel.

Dans cette approche, peu importe la forme ou la praticité : l'information doit être là, toute l'information, quitte à ce qu'elle soit longue à lire (et qu'elle n'ait pas de lecteur).

Une aide pour l'utilisateur

Le rédacteur technique sort de ce cadre contraignant et devient l'architecte du contenu. Il conçoit, organise et optimise le texte et les médias pour guider l'utilisateur dans l'usage du produit.

La documentation dépasse alors le cadre contractuel : elle devient un service rendu.

Elle occupe une position charnière entre la formation et le support client :

  • Une documentation bien scénarisée agit comme un support de formation détaillé.
  • Une documentation enrichie des retours utilisateurs allège le support en réduisant les tickets.

Le contenu combine texte, captures d'écran et éventuellement schémas, afin d'aider l'utilisateur à comprendre rapidement le fonctionnement et la logique du produit.

Le défi de la recherche d'information

Avant le numérique : sommaire et index

Les documentations papier "legacy" proposaient deux voies principales pour retrouver l'information :

  • Le sommaire, pour naviguer par structure logique (chapitres, sous-sections) ;
  • L'index, pour repérer l'occurrence d'un mot-clé et consulter les pages concernées.

L'aide en ligne a ensuite repris ces deux points d'entrée, en y ajoutant un moteur de recherche "full-text".

Aide en ligne avec sommaire, index et recherche

Le format PDF, qui permettait la recherche globale, a marqué un tournant : il a rendu l'accès à l'information plus rapide, sans changer la nature du contenu.

Ces outils répondaient au besoin de retrouver l'information, mais non de la comprendre ou la réutiliser.

L'ère Web : navigation et SEO

Avec l'arrivée des sites Web de documentation, l'index a souvent disparu — trop coûteux à maintenir.
Le moteur de recherche interne n'est pas toujours exhaustif, et on renvoie souvent l'utilisateur à la recherche du navigateur (Ctrl+F).

Site Web de documentation avec recherche intégrée

💡 RoboHelp
RoboHelp permettait déjà, il y a plus de vingt ans, de créer des aides Web avec moteur full-text et index manuel. C'est une des raisons pour lesquelles je l'appréciais : il offrait une expérience utilisateur riche et cohérente.

Dans un site moderne, le sommaire principal et le sommaire de page deviennent essentiels.
Ils donnent une vue d'ensemble immédiate du contenu et facilitent la navigation.

Mais le risque est double :

  • une grande partie de l'information peut être ignorée par l'utilisateur pressé ;
  • une autre partie peut échapper aux moteurs de recherche, si le SEO est absent ou mal structuré.

Cette limite annonce un changement de paradigme : la documentation doit devenir "lisible" non seulement par les humains, mais aussi par les machines.

La documentation à l'ère de l'IA

La documentation comme vecteur de communication

La documentation n'est plus un simple livrable technique : elle participe à l'identité et à la réputation du produit.
Elle reflète la charte graphique et le ton de l'entreprise, au même titre qu'un site corporate.

  • Elle fait partie intégrante de la stratégie de customer success : une documentation claire et agréable favorise la fidélité de l'utilisateur et limite le churn.

  • Sous forme de site Web, elle doit être accessible, inclusive et alignée sur le discours de marque.

  • C'est aussi un outil de communication produit. Elle met en contexte les fonctionnalités, raconte une histoire et valorise l'expérience utilisateur.

🧩 Exemple personnel
Le présent site Web, réalisé avec mon framework de documentation favori Docusaurus, a pour vocation de me permettre de tester et mettre en œuvre tout ce qui est décrit ici.

Visibilité et GEO

Le GEO (Generative Engine Optimization) vise à rendre la documentation visible et fiable pour les plateformes d'IA génératives.

L'objectif est que les réponses produites par ces IA s'appuient sur votre contenu officiel, validé et de qualité.
C'est une évolution naturelle du SEO vers un monde où les IA remplacent les moteurs de recherche classiques.

La documentation "AI-ready"

Rendre une documentation AI-ready, c'est la rendre exploitable aussi bien par les humains que par les modèles.
Cela implique deux approches complémentaires : technique et humaine.

Technique

  • Structurer le contenu avec des métadonnées claires et des formats exploitables (Markdown, JSON, schémas structurés).
  • Organiser la documentation pour les systèmes de RAG (Retrieval-Augmented Generation) et les LLMs internes.
  • Penser la navigation et le découpage logique comme des unités d'information exploitables par les IA.

Humaine

  • Adapter le ton, le vocabulaire et les visuels à chaque audience (profil, rôle, culture).
  • Localiser la documentation en tenant compte des spécificités régionales et linguistiques (ex. anglais US vs UK).
  • Utiliser l'IA pour générer des traductions "human-like", respecter les guides de style et ajuster le ton.
  • Décliner le contenu pour des usages mobiles ou accessibles (inclusivité, lecture vocale, contraste...).

Doc-as-Data – Le nouveau paradigme

La documentation n'est plus un simple livrable : c'est un corpus de données.
Elle décrit l'entreprise, ses produits, ses utilisateurs, ses technologies, son écosystème. Et surtout, elle est exploitable.

Ce corpus inclut :

  • les sites Web de documentation,
  • les dépôts Git,
  • les wikis internes (Confluence, Notion, etc.),
  • et tous les espaces où l'entreprise produit du contenu de référence.

Des usages orientés IA

Ce vivier peut être parcouru par différents systèmes :

  • Chatbots internes, capables de répondre avec précision sur les produits ;
  • LLMs d'entreprise, entraînés sur la documentation interne ;
  • Systèmes RAG, qui combinent recherche et génération ;
  • Moteurs génératifs exploitant la documentation publique (GEO).

Les enjeux du modèle Doc-as-Data

Traiter la documentation comme une donnée implique :

  • de garantir la qualité, la cohérence et la traçabilité des contenus ;
  • de structurer la gouvernance : qui valide, qui met à jour, comment ?
  • de penser la documentation comme interopérable, via des API et des formats ouverts.

Le rédacteur technique devient alors un curateur de données : il conçoit des contenus lisibles, mais aussi exploitables par les IA.

Vers une documentation symbiotique

La documentation devient un acteur à part entière du cycle de vie du logiciel : à la fois produit et donnée.
Elle ne s'adresse plus uniquement aux utilisateurs humains, mais aussi aux modèles d'IA qui l'analyseront, la comprendront et la diffuseront.

Le rôle du rédacteur technique évolue : il écrit pour deux publics — les utilisateurs humains et les intelligences artificielles.
Doc-as-Data inaugure ainsi une nouvelle ère : celle d'une documentation symbiotique, à la croisée du design de contenu, de la data science et de la stratégie produit.


© Auteur: Florence Venisse, STW – Première version du 29/10/2025