GPT-3, GPT-4, ChatGPT... On voit ces lettres partout. Mais que signifient-elles vraiment ? Derrière l'acronyme se cache une architecture qui a changé le monde de l'IA. Voici ce qu'il faut comprendre.
L'acronyme décomposé
GPT = Generative Pre-trained Transformer
Trois mots, trois concepts fondamentaux :
Le Transformer — l'invention qui a tout changé
Avant 2017, les IA de langage traitaient le texte mot par mot, dans l'ordre. Lent et limité.
Le Transformer (inventé par des chercheurs de Google) a introduit un mécanisme appelé "attention" : le modèle peut regarder tous les mots d'une phrase en même temps et comprendre leurs relations.
Exemple concret :
Dans la phrase "Le chat qui était sur le tapis s'est endormi", un Transformer comprend que "s'est endormi" se rapporte à "chat", pas à "tapis". Les anciens modèles avaient du mal avec ça.
Pourquoi c'est important :
Cette capacité à saisir le contexte global est ce qui rend les LLM actuels si performants. Sans le Transformer, pas de ChatGPT.
Pre-trained — l'entraînement massif
"Pré-entraîné" signifie que le modèle a appris sur des données *avant* que vous l'utilisiez.
Les chiffres donnent le vertige :
Ce que ça implique :
Generative — la génération token par token
Un modèle GPT ne "réfléchit" pas puis écrit. Il génère un token à la fois, en prédisant le plus probable à chaque étape.
Concrètement :
Quand vous posez une question, le modèle :
C'est pour ça que :
GPT vs les autres (Claude, Gemini, Llama)
GPT est le nom des modèles d'OpenAI. Mais l'architecture Transformer est utilisée par tous :
La différence n'est pas dans l'architecture de base, mais dans :
En résumé : "GPT" est devenu un terme générique, mais techniquement c'est la marque OpenAI. Les autres sont des "cousins" qui partagent les mêmes fondations.
Pourquoi comprendre ça compte
Savoir ce que signifie GPT aide à :
1. Démystifier
Ce n'est pas de la magie, c'est de l'ingénierie statistique à grande échelle.
2. Comprendre les limites
Un modèle pré-entraîné ne "sait" que ce qu'il a vu. Pas plus.
3. Mieux utiliser
Savoir que le modèle génère token par token explique pourquoi la formulation du prompt compte tant.
4. Éviter le bullshit
Quand quelqu'un dit "notre IA propriétaire révolutionnaire", vous savez que c'est probablement un Transformer comme les autres.
Ce qu'il faut retenir
- -GPT = Generative Pre-trained Transformer.
- -Le Transformer (2017) est l'architecture qui a tout changé grâce au mécanisme d'attention.
- -"Pré-entraîné" = le modèle a appris avant que vous l'utilisiez, sur des données figées.
- -"Génératif" = il produit du texte token par token, en prédisant le suivant.
- -Claude, Gemini, Llama utilisent la même architecture de base — les différences sont dans les détails.