Edge AI vs Cloud AI : choisir la bonne architecture

Il y a cinq ans, toute l'inférence IA se faisait dans le cloud. Aujourd'hui, un modèle TensorFlow Lite quantifié tourne sur un microcontrôleur à 2 €. Alors où votre IA doit-elle vraiment vivre ? Voici notre cadre de décision.

Les quatre architectures

L'inférence peut se faire à quatre niveaux dans un système connecté, chacun avec ses compromis :

Edge appareil : directement sur le capteur/MCU (Cortex-M, ESP32, NPU dédié)
Edge passerelle : sur un hub local (Raspberry Pi, NVIDIA Jetson, PC industriel x86)
Cloud : serveurs distants (AWS, Azure, GCP)
Hybride : distribué sur plusieurs niveaux

Quand utiliser l'edge appareil

Faire tourner l'inférence sur l'appareil lui-même quand :

La latence est critique : décisions critiques en <10ms (vision industrielle, contrôle moteur)
La connectivité est instable : sites isolés, actifs mobiles, couverture intermittente
La confidentialité est primordiale : données qui ne quittent jamais l'appareil (médical, biométrique)
La bande passante est chère : IoT cellulaire où chaque octet compte

Idéal pour : détection de mots-clés, détection d'anomalies en vibration, classification d'images avec petits modèles, reconnaissance de gestes simples.

Quand utiliser l'edge passerelle

Déporter l'inférence sur une passerelle locale quand :

Les modèles sont trop gros pour un microcontrôleur (>10 Mo)
Plusieurs capteurs doivent être corrélés localement
Vous avez besoin d'une interface utilisateur ou tableaux de bord locaux
La bande passante vers le cloud est limitée mais le réseau local OK

Idéal pour : bâtiments intelligents (corréler des dizaines de capteurs), pipelines de vision industrielle, analyse multi-caméras, serveurs edge pour chaînes de retail/restauration.

Quand utiliser l'IA cloud

Garder l'inférence dans le cloud quand :

Les modèles sont très gros (LLMs, grands modèles vision)
Vous avez besoin d'accéder aux données de nombreux appareils simultanément
Les exigences de latence sont souples (secondes à minutes)
Vous voulez faire évoluer les modèles fréquemment sans mise à jour firmware
Les ressources de calcul doivent s'adapter dynamiquement à la demande

Idéal pour : analytics au niveau flotte, IA générative (chatbots LLM, agents), reconnaissance de patterns historiques, maintenance prédictive avancée.

L'approche hybride (souvent la bonne réponse)

Dans les déploiements en production, nous utilisons fréquemment les trois niveaux :

Appareil : détecter & pré-classer les événements (faible latence, pas de bande passante)
Passerelle : agréger, corréler, modèles moyens
Cloud : entraîner les modèles, inférence lourde, stockage historique

Cette architecture hybride est plus complexe à concevoir et opérer, mais gagne généralement sur coût, latence et fiabilité.

Concevoir votre architecture IA ?

Le bon placement de l'inférence fait souvent la différence entre un produit réussi et un gouffre coûteux. Parlons de votre cas d'usage.

Parler à l'ingénierie →