Il y a cinq ans, toute l'inférence IA se faisait dans le cloud. Aujourd'hui, un modèle TensorFlow Lite quantifié tourne sur un microcontrôleur à 2 €. Alors où votre IA doit-elle vraiment vivre ? Voici notre cadre de décision.
Les quatre architectures
L'inférence peut se faire à quatre niveaux dans un système connecté, chacun avec ses compromis :
- Edge appareil : directement sur le capteur/MCU (Cortex-M, ESP32, NPU dédié)
- Edge passerelle : sur un hub local (Raspberry Pi, NVIDIA Jetson, PC industriel x86)
- Cloud : serveurs distants (AWS, Azure, GCP)
- Hybride : distribué sur plusieurs niveaux
Quand utiliser l'edge appareil
Faire tourner l'inférence sur l'appareil lui-même quand :
- La latence est critique : décisions critiques en <10ms (vision industrielle, contrôle moteur)
- La connectivité est instable : sites isolés, actifs mobiles, couverture intermittente
- La confidentialité est primordiale : données qui ne quittent jamais l'appareil (médical, biométrique)
- La bande passante est chère : IoT cellulaire où chaque octet compte
Idéal pour : détection de mots-clés, détection d'anomalies en vibration, classification d'images avec petits modèles, reconnaissance de gestes simples.
Quand utiliser l'edge passerelle
Déporter l'inférence sur une passerelle locale quand :
- Les modèles sont trop gros pour un microcontrôleur (>10 Mo)
- Plusieurs capteurs doivent être corrélés localement
- Vous avez besoin d'une interface utilisateur ou tableaux de bord locaux
- La bande passante vers le cloud est limitée mais le réseau local OK
Idéal pour : bâtiments intelligents (corréler des dizaines de capteurs), pipelines de vision industrielle, analyse multi-caméras, serveurs edge pour chaînes de retail/restauration.
Quand utiliser l'IA cloud
Garder l'inférence dans le cloud quand :
- Les modèles sont très gros (LLMs, grands modèles vision)
- Vous avez besoin d'accéder aux données de nombreux appareils simultanément
- Les exigences de latence sont souples (secondes à minutes)
- Vous voulez faire évoluer les modèles fréquemment sans mise à jour firmware
- Les ressources de calcul doivent s'adapter dynamiquement à la demande
Idéal pour : analytics au niveau flotte, IA générative (chatbots LLM, agents), reconnaissance de patterns historiques, maintenance prédictive avancée.
L'approche hybride (souvent la bonne réponse)
Dans les déploiements en production, nous utilisons fréquemment les trois niveaux :
- Appareil : détecter & pré-classer les événements (faible latence, pas de bande passante)
- Passerelle : agréger, corréler, modèles moyens
- Cloud : entraîner les modèles, inférence lourde, stockage historique
Cette architecture hybride est plus complexe à concevoir et opérer, mais gagne généralement sur coût, latence et fiabilité.
Concevoir votre architecture IA ?
Le bon placement de l'inférence fait souvent la différence entre un produit réussi et un gouffre coûteux. Parlons de votre cas d'usage.
Parler à l'ingénierie →