Catalogue des premiers CNN
Pourquoi ces architectures comptent encore en 2025
Même si les modèles récents — Vision Transformers, ConvNeXt ou EfficientNetV2 — dominent aujourd’hui les benchmarks, les réseaux convolutifs historiques restent essentiels pour comprendre l’évolution du domaine.
Ces architectures constituent les briques fondatrices de la vision par ordinateur moderne : convolutions, pooling, profondeur des réseaux, explosion du nombre de paramètres, stratégies de régularisation… Autant de notions qui se sont construites progressivement à travers les modèles présentés ci-dessous.
Entre 2010 et 2017, une véritable course à la précision s’est engagée autour de grandes bases de données, notamment ImageNet. Chaque amélioration, parfois minime, représentait un gain critique lorsqu’un système devait fonctionner des milliers d’heures ou être déployé dans des millions d’appareils. Aujourd’hui, l’intérêt principal de ces modèles est pédagogique : ils éclairent les principes qui ont permis l’émergence des architectures modernes.
LeNet
LeNet est l’un des premiers réseaux convolutifs opérationnels. Conçu en 1989 par Yann LeCun et ses collègues dans les laboratoires AT&T Bell, il a été appliqué avec succès à la reconnaissance de chiffres manuscrits, notamment pour le tri automatique du courrier postal américain.
Dans les années 1990, les limites matérielles empêchaient l’usage massif de
réseaux profonds. Les CNN étaient alors concurrencés par des méthodes moins
coûteuses comme les SVM. Malgré leur simplicité, les briques fondamentales de
LeNet — couches Conv, Pool et Linear — constituent encore la base
conceptuelle des architectures modernes.
LeNet contient environ 40 000 paramètres.
Couche |
Shape |
Nb paramètres |
|---|---|---|
conv2d_4 (Conv2D) |
(24, 24, 6) |
156 |
max_pooling2d_4 (MaxPooling2D) |
(12, 12, 6) |
|
conv2d_5 (Conv2D) |
(8, 8, 16) |
2 416 |
max_pooling2d_5 (MaxPooling2D) |
(4, 4, 16) |
|
flatten_2 (Flatten) |
||
dense_6 (Dense) |
30 840 |
|
dense_7 (Dense) |
10 164 |
|
dense_8 (Dense) |
850 |
|
TOTAL |
44 426 |
ImageNet
ImageNet est une base de données contenant plus de 14 millions d’images organisées en 22 000 catégories. Elle a joué un rôle majeur dans l’essor du deep learning, notamment à travers le concours ImageNet Large Scale Visual Recognition Challenge (ILSVRC), organisé de 2010 à 2017.
Ce concours visait à comparer objectivement les nouvelles architectures de réseaux. Au début, la métrique utilisée était la Top-5 accuracy ; aujourd’hui, la Top-1 accuracy est privilégiée.
AlexNet
En 2012, Alex Krizhevsky et ses collègues de l’Université de Toronto remportent l’ILSVRC avec AlexNet, réduisant l’erreur de plus de 10 points par rapport aux autres concurrents. Cette percée est due à plusieurs éléments :
un réseau plus profond,
l’utilisation des GPU pour l’apprentissage,
l’introduction de la fonction d’activation
ReLU.
Comparé à LeNet, AlexNet traite des images beaucoup plus grandes (224×224 RGB) et comporte 60 millions de paramètres. Il empile des couches convolutives (kernels 11×11, 5×5, 3×3) séparées par du pooling, suivies de trois couches entièrement connectées.
Couche |
Shape |
Nb paramètres |
|---|---|---|
input_shape |
(227, 227, 3) |
|
conv2d 11x11 96 filters |
(55, 55, 96) |
34 944 |
max_pooling2d 3x3 |
(27, 27, 96) |
|
conv2d 5x5 |
(27, 27, 256) |
614 656 |
max_pooling2d 3x3 |
(13, 13, 256) |
|
conv2d 3x3 |
(13, 13, 384) |
885 120 |
conv2d 3x3 |
(13, 13, 384) |
1 327 488 |
conv2d 3x3 |
(13, 13, 256) |
884 992 |
max_pooling2d 3x3 |
(6, 6, 256) |
|
flatten |
||
dense |
37 752 832 |
|
dense |
16 781 312 |
|
dense |
4 097 000 |
|
TOTAL |
62 383 848 |
VGG16
Présenté en 2014 par l’équipe Visual Geometry Group (Université d’Oxford), VGG16 se distingue par sa simplicité : empilement systématique de convolutions 3×3 suivies de pooling. Cette architecture atteint 92,7% de précision (Top-5) sur ImageNet. L’entraînement a nécessité plusieurs semaines sur des cartes NVIDIA Titan.
VGG16 comporte 140 millions de paramètres.
Couche |
Shape |
Nb paramètres |
|---|---|---|
InputLayer |
(224, 224, 3) |
|
Conv2D 3x3 |
(224, 224, 64) |
1 792 |
Conv2D 3x3 |
(224, 224, 64) |
36 928 |
MaxPooling 2x2 |
(112, 112, 64) |
|
Conv2D 3x3 |
(112, 112, 128) |
73 856 |
Conv2D 3x3 |
(112, 112, 128) |
147 584 |
MaxPooling 2x2 |
(56, 56, 128) |
|
Conv2D 3x3 |
(56, 56, 256) |
295 168 |
Conv2D 3x3 |
(56, 56, 256) |
590 080 |
Conv2D 3x3 |
(56, 56, 256) |
590 080 |
MaxPooling 2x2 |
(28, 28, 256) |
|
Conv2D 3x3 |
(28, 28, 512) |
1 180 160 |
Conv2D 3x3 |
(28, 28, 512) |
2 359 808 |
Conv2D 3x3 |
(28, 28, 512) |
2 359 808 |
MaxPooling 2x2 |
(14, 14, 512) |
|
Conv2D 3x3 |
(14, 14, 512) |
2 359 808 |
Conv2D 3x3 |
(14, 14, 512) |
2 359 808 |
Conv2D 3x3 |
(14, 14, 512) |
2 359 808 |
MaxPooling 2x2 |
(7, 7, 512) |
|
Flatten |
||
Dense |
102 764 544 |
|
Dense |
16 781 312 |
|
Dense |
4 097 000 |
|
TOTAL |
138 357 544 |
GoogLeNet et les modules Inception
Toujours en 2014, les chercheurs de Google proposent GoogLeNet, qui introduit le module Inception. Ce dernier combine plusieurs opérations en parallèle (convolutions 1×1, 3×3, 5×5, pooling) puis concatène les résultats.
Pour limiter le nombre de paramètres, des convolutions 1×1 sont utilisées comme réduction dimensionnelle. GoogLeNet empile 9 modules Inception et totalise seulement 7 millions de paramètres, une réduction spectaculaire comparée aux 140 millions de VGG16.
La version Inception v3 (2017) en comporte environ 26 millions.
ResNet
En 2015, Kaiming He et al. (Microsoft Research) présentent les réseaux résiduels ou ResNet, qui résolvent deux limitations majeures des réseaux profonds :
le vanishing gradient,
la saturation de précision : ajouter des couches dégrade parfois les performances.
Les skip connections permettent à l’information de contourner certaines couches, rendant possible l’entraînement de réseaux extrêmement profonds. Cette idée a révolutionné le domaine.
Grâce à cette approche, les architectures dépassent rapidement la centaine de couches. Par exemple, ResNet50 contient 25 millions de paramètres, bien moins que les 140 millions de VGG16.
Et après ?
Après ResNet, l’amélioration des CNN s’est poursuivie sans chercher uniquement à augmenter la profondeur. Plusieurs tendances structurantes se sont dégagées.
ResNeXt et WideResNet ont montré que la capacité d’un réseau peut être accrue en jouant sur d’autres dimensions comme la largeur des blocs, ce qui améliore les performances tout en restant simple à entraîner.
Les réseaux légers tels que MobileNet et ShuffleNet ont répondu au besoin de déployer des modèles sur des appareils à faible puissance. Leurs stratégies réduisent drastiquement le coût de calcul tout en conservant une précision acceptable.
Avec EfficientNet, l’accent a été mis sur un redimensionnement cohérent des architectures : profondeur, largeur et résolution évoluent ensemble selon une règle simple (compound scaling), permettant d’obtenir un excellent rapport précision / coût.
Révolutions au-delà des CNN
Après les premiers CNN, plusieurs avancées majeures ont transformé la vision artificielle :
U-Net a introduit une architecture capable de produire des prédictions pour chaque pixel, ouvrant la voie à la segmentation moderne.
Le mécanisme d’attention a permis d’analyser une image de manière globale plutôt que locale.
Cette idée a mené aux Transformers en vision, capables d’obtenir d’excellentes performances sans convolutions.
Les modèles génératifs ont appris à créer des images nouvelles et réalistes.
Les modèles multimodaux combinent désormais texte et image dans une même architecture.
L’apprentissage auto-supervisé permet d’exploiter des données non annotées pour préentraîner des modèles efficaces.
Ces innovations constituent les principales révolutions ayant suivi les CNN traditionnels.