KATARIA

Agence digitale IA · Paris

KATARIA

Lexique · 55 termes · Mise à jour 2026

Le lexique IA
sans jargon ni vapeur.

55termes essentiels pour comprendre l'IA en entreprise. Pensé pour les dirigeants et les équipes du quotidien : pas de définitions recopiées de Wikipédia, pas de formules mathématiques, juste les notions utiles avec des exemples concrets.

Cette page est volontairement libre d'accès et citable. Si vous publiez du contenu IA et avez besoin d'une source de référence claire, vous pouvez créditer KATARIA et faire un lien vers cette page.

Navigation rapide

Modèles d'IA et architectures

6 termes

LLM (Large Language Model)
Un type d'intelligence artificielle qui comprend et génère du texte (comme ChatGPT). Entraînée sur des milliards de textes, elle est le moteur derrière ChatGPT, Claude ou Mistral.

Exemple
GPT-4o, Claude Sonnet 4.5, Mistral Large, Llama 3.

Transformer
La technologie inventée en 2017 qui a permis l'arrivée des IA comme ChatGPT. Elle permet à l'IA de comprendre le contexte d'une phrase en pesant l'importance de chaque mot.
Diffusion (modèles de)
Famille d'IA qui crée des images, vidéos ou sons en partant d'un bruit aléatoire et en l'affinant progressivement. C'est ce qui se cache derrière Sora, Flux ou Stable Diffusion.
MoE (Mixture of Experts)
Une architecture d'IA qui n'utilise qu'une partie de son cerveau à chaque question. Permet de faire des modèles très puissants sans exploser les coûts. Exemples : Mistral 8x22B, GPT-4 Turbo.
SLM (Small Language Model)
Une IA plus petite et plus rapide, qui peut tourner sur votre propre serveur à faible coût. Bien adaptée aux automatisations ciblées en entreprise.

Exemple
Phi-3, Mistral 7B, Llama 3 8B.

Multimodal
Une IA capable de comprendre plusieurs formats à la fois : texte, image, audio, vidéo. Vous pouvez par exemple lui montrer une photo et lui poser une question dessus.

Exemple
GPT-4o, Claude Sonnet, Gemini 1.5 Pro.

Tokens et mémoire de travail

5 termes

Token
Le morceau de texte que l'IA traite (un mot, un bout de mot ou un caractère). Un token vaut environ 0,75 mot en français. C'est l'unité que les fournisseurs d'IA facturent.

Exemple
« KATARIA » = environ 3 tokens.

Context window (mémoire de travail)
La quantité maximale de texte que l'IA peut lire en une seule fois (question + réponse). Plus elle est grande, plus l'IA peut analyser de documents d'un coup.

Exemple
GPT-4o : 128k tokens. Claude Sonnet 4.5 : 200k. Gemini 1.5 Pro : 2M.

Tokenizer
L'outil qui découpe le texte en tokens avant de l'envoyer à l'IA. Chaque IA a son propre tokenizer, ce qui explique des écarts de prix entre fournisseurs pour un même texte.
Embedding
Une façon de représenter un texte, une image ou un son sous forme de nombres. Permet à une IA de mesurer si deux contenus parlent de la même chose. Indispensable pour la technique RAG.
Vector database (base vectorielle)
Un type de base de données conçu pour stocker et retrouver rapidement des embeddings. Exemples : Pinecone, Weaviate, Qdrant, pgvector.

RAG et recherche

5 termes

RAG (Retrieval-Augmented Generation)
Une technique qui permet à une IA de répondre en se basant sur vos propres documents (contrats, dossiers, fiches). On retrouve d'abord les bons passages, puis on demande à l'IA de répondre à partir de ces passages — sans avoir à entraîner un nouveau modèle.

Exemple
Un cabinet d'avocats peut utiliser un RAG sur ses 800 dossiers pour aider à la recherche juridique.

Semantic search (recherche par sens)
Une recherche qui comprend le sens, pas seulement les mots-clés. « accident voiture » trouvera aussi des documents qui parlent de « collision automobile ».
Hybrid search (recherche mixte)
Combine la recherche par sens (embeddings) et la recherche par mots-clés classique. C'est ce qui marche le mieux en pratique sur la plupart des bases en entreprise.
Re-ranking (re-classement)
Une étape qui affine les résultats d'une première recherche en les re-classant avec un modèle plus précis. Améliore généralement la qualité de 15 à 30 points.
Knowledge graph (graphe de connaissances)
Une carte structurée des liens entre éléments (personnes, entreprises, idées). Utile en complément du RAG pour les questions qui demandent de croiser plusieurs informations.

Assistants IA et orchestration

6 termes

Assistant IA (agent IA)
Un système qui combine une IA, des outils (agenda, fichier client, base documentaire) et une logique de raisonnement pour effectuer des tâches en autonomie. Différent d'un simple chatbot avec questions/réponses pré-écrites.
Function calling (appel d'outils)
Capacité d'une IA à utiliser des outils externes pour récupérer des informations ou déclencher une action. C'est le mécanisme de base d'un assistant IA.

Exemple
L'assistant appelle « voir les créneaux disponibles » avant de proposer un rendez-vous.

MCP (Model Context Protocol)
Un standard ouvert créé par Anthropic en 2024 pour connecter facilement une IA à n'importe quel outil externe ou source de données, sans avoir à coder une intégration sur mesure à chaque fois.
A2A (Agent-to-Agent)
Une façon de faire dialoguer plusieurs assistants IA entre eux. Plusieurs assistants spécialisés peuvent ainsi collaborer pour résoudre une tâche complexe.
ReAct
Une méthode qui fait alterner l'IA entre réflexion et action. C'est devenu le standard pour les assistants qui doivent enchaîner plusieurs étapes pour accomplir une mission.
Assistant autonome
Un assistant IA capable de planifier et d'exécuter une tâche en plusieurs étapes sans supervision humaine entre chaque étape. Cas d'usage : qualification de prospects, veille concurrentielle, traitement de documents.

Techniques d'utilisation

6 termes

Prompt engineering (rédaction d'instructions)
L'art de bien formuler une consigne pour obtenir le résultat voulu d'une IA. Représente 60 à 80% du travail technique sur un projet IA en production.
Few-shot learning
Donner à l'IA quelques exemples dans la consigne pour qu'elle comprenne le format attendu. Évite d'avoir à ré-entraîner l'IA dans 90% des cas.
Zero-shot
Demander à l'IA d'effectuer une tâche sans lui donner d'exemple. Fonctionne pour les tâches simples ou très bien décrites.
Chain of thought (raisonnement étape par étape)
Demander à l'IA d'expliquer son raisonnement étape par étape avant de donner la réponse. Améliore la qualité sur les tâches complexes (raisonnement, calcul, programmation).
Structured output (sortie structurée)
Forcer l'IA à répondre dans un format précis (par exemple JSON) plutôt qu'en texte libre. Indispensable pour brancher l'IA à d'autres outils automatiques.
Streaming
Recevoir la réponse de l'IA mot après mot, au fur et à mesure qu'elle est générée. Améliore la sensation de rapidité côté utilisateur (premier mot affiché en 200ms au lieu de 5 secondes pour la réponse complète).

Entraînement et personnalisation

5 termes

Fine-tuning (spécialisation)
Ré-entraîner une IA existante sur vos propres données pour qu'elle se comporte différemment. Coûteux et rarement nécessaire : un bon RAG suffit dans 80% des cas.
RLHF (apprentissage par retours humains)
Une technique d'entraînement où des humains notent les réponses de l'IA pour qu'elle apprenne ce qu'on attend. C'est une des clés de la qualité de ChatGPT, Claude et Gemini.
DPO (Direct Preference Optimization)
Une alternative plus simple au RLHF, qui ajuste directement l'IA à partir de paires de réponses (la bonne, la moins bonne). Plus rapide à mettre en œuvre.
Distillation
Transférer les capacités d'une grande IA vers une plus petite, pour réduire les coûts d'utilisation sans trop perdre en qualité.
Quantization (compression)
Compresser une IA en réduisant la précision de ses chiffres internes. Permet de la faire tourner avec moins de mémoire et plus vite, avec une perte de qualité très faible.

Mise en production et exploitation

6 termes

Inference (utilisation)
La phase où l'on utilise une IA déjà entraînée pour obtenir une réponse. Chaque question d'un utilisateur déclenche une utilisation facturée par le fournisseur.
Latency (temps de réponse)
Le temps entre l'envoi de la question et l'arrivée du premier mot de réponse. Critère clé pour les assistants conversationnels (objectif : moins de 500 millisecondes).
Throughput (débit)
Le nombre de mots par seconde que l'IA peut produire. Détermine la vitesse de réponse complète et le coût en serveurs.
Caching (mise en cache)
Réutiliser des réponses ou calculs déjà faits pour éviter de payer deux fois la même chose. Anthropic propose une mise en cache native qui réduit les coûts jusqu'à 90% sur les usages répétitifs.
Rate limiting (limite d'appels)
Plafond imposé par les fournisseurs sur le nombre de questions ou de mots par minute. À anticiper avant la mise en production.
Observabilité IA
La surveillance spécifique des projets IA : suivi des consignes envoyées, des coûts, du temps de réponse, du taux d'erreur, des dérives du modèle. Outils : LangSmith, Helicone, Phoenix.

Qualité et limites

6 termes

Hallucination
Une réponse fausse mais qui semble crédible, inventée par l'IA. Cause : l'IA prédit le mot le plus probable, pas le plus vrai. On limite le risque avec le RAG, l'ancrage sur des sources et la vérification après coup.
Grounding (ancrage)
Forcer l'IA à appuyer ses réponses sur des sources vérifiables. La méthode principale est le RAG avec citation des passages sources.
Bias (biais)
Tendance d'une IA à reproduire ou amplifier les préjugés présents dans ses données d'entraînement. À vérifier dans tout projet grand public ou lié à des décisions humaines.
Alignment (alignement)
Le travail qui vise à aligner le comportement de l'IA sur les valeurs et intentions humaines. Englobe la sécurité, l'utilité et l'honnêteté des réponses.
Jailbreak
Technique pour contourner les garde-fous d'une IA et lui faire dire des choses qu'elle devrait refuser. À tester sur tout système accessible au grand public.
Prompt injection (injection de consigne)
Une attaque qui consiste à glisser des instructions malveillantes dans les données envoyées à l'IA. Considéré comme le risque numéro 1 par l'OWASP en 2024.

SEO, GEO et IA

4 termes

GEO (être cité par les IA comme ChatGPT)
Optimisation pour les moteurs de réponse à base d'IA (ChatGPT, Claude, Perplexity, Gemini). Le successeur du SEO classique : il ne s'agit plus seulement d'apparaître dans Google, mais aussi d'être cité dans les réponses des IA.
Schema.org
Un langage de balisage qui aide Google et les IA à comprendre le contenu d'une page (entreprise, article, FAQ, commerce local). Important pour être bien placé sur Google et cité par les IA.
E-E-A-T
Critères Google pour juger la qualité d'un contenu : Expertise, Expérience, Autorité et Confiance. Renforcés en 2023 face à l'arrivée de l'IA générative, pour distinguer un vrai contenu d'expert d'un contenu IA générique.
Featured snippet (extrait optimisé)
La réponse mise en avant tout en haut des résultats Google. Cible privilégiée pour les contenus questions/réponses bien structurés. C'est l'ancêtre du GEO.

Modèles et fournisseurs

6 termes

GPT (Generative Pre-trained Transformer)
La famille des IA d'OpenAI. En 2026, les modèles courants sont GPT-4o, GPT-4o mini, o1 et o3.
Claude
La famille des IA d'Anthropic. Reconnue pour la qualité de raisonnement, le respect des consignes et la grande mémoire de travail. En 2026 : Claude Opus 4.7, Claude Sonnet 4.5, Claude Haiku 4.5.
Mistral
Les IA de l'entreprise française Mistral AI. Certains modèles sont ouverts, d'autres payants. Exemples : Mistral Large, Codestral, Pixtral.
Llama
La famille d'IA libres de Meta. Llama 3 a permis aux entreprises d'héberger leur propre IA en interne, sans dépendre d'un fournisseur extérieur.
Open weights (poids ouverts)
Une IA dont les paramètres sont rendus publics. Permet de l'installer sur ses propres serveurs sans dépendre d'un fournisseur cloud. Différent de « open source » (qui inclut aussi le code et les données d'entraînement).
Open source
Une IA dont le code, les paramètres ET les données d'entraînement sont publics. Plus rare. Mistral, OLMo et certaines versions de Llama s'en approchent.

Un terme manque ?

On le rajoute, on le précise.

Ce lexique est mis à jour en continu. Si un terme manque ou qu'une définition vous semble imprécise, écrivez-nous — on corrige sous 48h.