Chaque prompt que votre équipe envoie à une API d’IA hébergée est une copie de vos données qui quitte votre réseau. Pour la plupart des entreprises, c’est un risque calculé. Pour une banque, un hôpital, un cabinet d’avocats ou toute organisation qui traite des données personnelles sous le RGPD, c’est une responsabilité qui finira par ressortir lors d’un audit.
Exécuter les grands modèles de langage en local élimine cette responsabilité à la source. Aucun prompt ne franchit votre périmètre, aucun document n’atterrit dans le journal d’un tiers, et aucune juridiction étrangère ne peut contraindre l’accès à des données qu’elle n’a jamais reçues. Ce guide explique comment fonctionne l’IA on-premise, l’écosystème ouvert à partir duquel vous la construisez, et les compromis qu’elle implique. Le fil conducteur : choisir le bon outil pour chaque couche, s’appuyer sur des standards ouverts, et garder le contrôle de vos modèles, de vos clés et de vos données.
Pourquoi le « local » l’emporte sur la « région UE » pour les données sensibles
Choisir la région UE d’un fournisseur ne résout pas entièrement le problème de conformité. La résidence des données indique où se trouvent les octets. La souveraineté des données indique de quelles lois dépend l’accès à ces octets. Un fournisseur constitué aux États-Unis peut être contraint, en vertu du US CLOUD Act, de remettre des données quel que soit le centre de données qui les héberge.
Exécuter le modèle sur une infrastructure que vous contrôlez fait disparaître cette distinction. Si le GPU se trouve dans votre rack ou sur un serveur dédié que vous exploitez, et que les clés sont les vôtres, il n’y a aucun tiers à assigner en justice et aucune fuite de données à inspecter.
Les bénéfices concrets :
- Aucune fuite de données. Les prompts et les documents ne quittent jamais votre réseau.
- Aucune fuite vers l’entraînement. Vos données ne servent jamais à améliorer le modèle de quelqu’un d’autre.
- Coût prévisible. Pas de facturation au token qui croît avec l’adoption.
- Alignement avec le RGPD et l’EU AI Act dès la conception, et non par clause contractuelle.
L’écosystème ouvert qui rend tout cela possible
Vous n’avez pas besoin d’entraîner un modèle. L’écosystème des modèles à poids ouverts est assez mature pour que la difficulté réside dans l’exploitation, pas dans l’IA elle-même. L’avantage plus profond, c’est que presque chaque couche parle désormais un standard ouvert : vous assemblez une stack plutôt que d’en acheter une.
Des modèles que vous pouvez réellement exécuter
Des modèles à poids ouverts performants couvrent la plupart des cas d’usage en entreprise, avec des familles comme Llama, Mistral et Mixtral, Qwen, Gemma, Phi et DeepSeek qui couvrent le raisonnement général, le travail multilingue et le code. Les poids sont livrés au format Safetensors via Hugging Face Transformers, le format GGUF (issu de llama.cpp) est devenu le packaging de fait des modèles quantifiés, et ONNX offre une voie portable entre runtimes.
Règle empirique de dimensionnement : un modèle quantifié de 7B-8B tourne sur un seul GPU de 24 Go ; un modèle de classe 70B nécessite plusieurs GPU (généralement 2 à 4 A100/H100 ou équivalent). La quantification (GGUF, AWQ, GPTQ) échange un peu de précision contre une forte baisse de VRAM, et pour la plupart des tâches internes la différence de qualité est difficile à percevoir.
Runtimes de service : l’écosystème dans lequel nous opérons
Il n’existe pas de moteur d’inférence « correct » unique. Nous travaillons à travers l’écosystème ouvert de service et adaptons le runtime à votre concurrence, à votre matériel et à votre profil d’exploitation :
- vLLM - un cheval de trait pour la production ; PagedAttention et le batching continu poussent un débit élevé et une faible latence sous charge concurrente.
- SGLang - un service haute performance, fort sur la sortie structurée et les pipelines agentiques multi-appels.
- Hugging Face Text Generation Inference (TGI) - un serveur de production solide, surtout dans les environnements centrés sur Hugging Face.
- Ollama - le moyen le plus rapide de faire tourner un modèle sur un poste de travail ou un serveur unique. Idéal pour le prototypage et les petites équipes.
- llama.cpp - le moteur derrière nombre d’outils légers et la référence pour le CPU seul ou le matériel contraint.
- LocalAI - une passerelle compatible OpenAI prête à l’emploi qui fait face à plusieurs backends.
Le fil unificateur est l’API compatible OpenAI, qu’exposent toutes les solutions vLLM, SGLang, TGI, Ollama et LocalAI. Comme cette interface est le standard de fait de l’inférence auto-hébergée, le code de votre application change rarement lorsque vous remplacez le moteur en dessous. Un schéma courant : prototyper avec Ollama, puis passer derrière vLLM ou SGLang dès que vous avez besoin d’une vraie concurrence.
Récupération, agents et le reste du pipeline
L’essentiel de la valeur métier vient de l’ancrage du modèle dans vos propres données via le Retrieval-Augmented Generation (RAG). Une stack RAG locale associe un modèle d’embeddings auto-hébergé à un magasin vectoriel, puis une couche d’orchestration qui relie la récupération, le prompting et les appels d’outils. L’écosystème est vaste ici, et nous nous adaptons à votre stack :
- Bases de données vectorielles - pgvector (natif Postgres), Qdrant, Weaviate, Milvus et Chroma. Si vous exploitez déjà Postgres, pgvector évite souvent d’ajouter une nouvelle pièce mobile.
- Frameworks d’orchestration - LangChain et LlamaIndex pour câbler la récupération, les agents et l’usage d’outils.
- Connectivité aux outils et aux données - le Model Context Protocol (MCP), désormais gouverné par l’Agentic AI Foundation de la Linux Foundation, s’impose comme le standard ouvert pour connecter les modèles aux outils et données internes sans colle sur mesure.
Tout s’exécute à l’intérieur de votre périmètre : la base de connaissances et l’accès aux outils de l’agent ne le quittent jamais non plus.
Une architecture de référence
Une installation on-premise viable ressemble à ceci :
- Un ou des serveurs GPU exécutant le moteur d’inférence de votre choix et exposant une API interne compatible OpenAI.
- Une base de données vectorielle contenant les embeddings de vos documents internes.
- Une couche de confidentialité / PII qui détecte et caviarde les données personnelles avant qu’elles n’atteignent le modèle. Des outils ouverts comme Microsoft Presidio gèrent la détection et l’anonymisation, avec une tokenisation réversible optionnelle pour que les réponses restent personnalisées.
- Une couche applicative - un copilote de chat, un assistant de recherche interne, ou des agents qui appellent des outils internes via MCP.
- Une observabilité - journalisation des prompts (à l’intérieur de votre réseau), métriques de latence et de tokens, et contrôles d’accès, de plus en plus tracés via OpenTelemetry pour que la télémétrie LLM reste portable.
Pour les environnements plus stricts, toute la stack peut tourner en air-gapped, les poids des modèles étant importés une fois sans aucune connectivité sortante par la suite.
Coût : quand l’on-premise est réellement rentable
L’on-premise n’est pas automatiquement moins cher ; le seuil de rentabilité honnête dépend du volume. Pour un usage faible ou sporadique, les API cloud l’emportent - vous ne payez que ce que vous utilisez, sans aucune mise de fonds. Pour un usage soutenu et à fort volume, l’on-premise l’emporte généralement sur un horizon de deux à trois ans : un seul serveur GPU amorti sur des milliers de requêtes quotidiennes passe sous la tarification au token, et vous échappez entièrement aux frais de sortie. L’erreur consiste à acheter du matériel avant de connaître votre véritable volume de tokens. Dimensionnez l’architecture sur l’usage mesuré, pas sur la fiche technique d’un fournisseur.
Pièges courants
- Sous-dimensionner la VRAM, puis s’étonner que le modèle 70B refuse de se charger. Adaptez la taille du modèle au matériel avant de vous engager.
- Ignorer la concurrence. Une configuration mono-GPU réglée pour un seul développeur s’effondre face à cinquante. Planifiez la couche de service pour la charge de pointe et choisissez un moteur conçu pour le batching.
- Sauter la couche PII. L’hébergement on-premise bloque la fuite externe, mais vous voulez tout de même le caviardage et le contrôle d’accès pour le moindre privilège en interne.
- Considérer le RAG comme un problème résolu. La qualité de récupération, le découpage et le choix des embeddings déterminent la qualité des réponses bien plus que la taille du modèle.
- Se verrouiller trop tôt sur un seul outil. Comme l’API compatible OpenAI, le GGUF et l’ONNX sont des standards ouverts, vous pouvez garder vos options ouvertes entre moteurs et magasins vectoriels plutôt que de miser la plateforme sur un fournisseur unique.
FAQ
ChatGPT est-il conforme au RGPD pour un usage professionnel ?
La version grand public de ChatGPT n’est généralement pas conforme au RGPD, car les conversations peuvent être conservées et utilisées pour l’entraînement sans accord de traitement des données ni garantie de résidence des données dans l’UE. Un LLM auto-hébergé ou privé évite cela entièrement en gardant chaque prompt et chaque document au sein de votre propre infrastructure : aucune donnée personnelle ne quitte la juridiction de l’UE.
Qu’est-ce que l’IA privée ?
L’IA privée consiste à exécuter des modèles de langage et des agents IA sur une infrastructure que vous contrôlez, on-premise ou dans un environnement UE dédié, plutôt que d’envoyer des données à des API cloud externes. Vos données ne servent jamais à entraîner des modèles tiers, ce qui vous donne la souveraineté sur vos données et un alignement avec le RGPD et l’EU AI Act dès la conception.
Quel moteur d’inférence dois-je utiliser pour servir un LLM local ?
Cela dépend de votre charge de travail. vLLM et SGLang excellent dans le service de production à forte concurrence, TGI convient aux équipes centrées sur Hugging Face, Ollama et llama.cpp sont idéaux pour le prototypage ou le matériel contraint, et LocalAI offre une passerelle unifiée. Ils exposent tous une API compatible OpenAI : vous pouvez commencer simplement et changer de moteur plus tard sans réécrire votre application.
Quels modèles open source peuvent s’exécuter on-premise ?
Des modèles ouverts performants comme Llama, Mistral, Mixtral, Qwen, Gemma, Phi et DeepSeek tournent bien sur vos propres serveurs GPU. Les petits modèles quantifiés tiennent sur un seul GPU de 24 Go ; les modèles de classe 70B nécessitent une configuration multi-GPU. Le bon choix équilibre précision, latence et budget.
Comment empêcher les données sensibles et les PII de fuiter dans un LLM ?
Ajoutez une couche de confidentialité qui détecte et caviarde les PII - noms, e-mails, données financières et de santé - avant que les prompts n’atteignent le modèle, à l’aide d’outils ouverts comme Microsoft Presidio avec une tokenisation réversible optionnelle pour que les réponses restent personnalisées. Combinée à un hébergement on-premise et à un RAG local, aucune information sensible ne quitte jamais votre réseau.
Construisez-la avec une équipe qui livre de l’IA souveraine
Monter une démo sur un seul serveur prend un après-midi. Exploiter une plateforme de LLM privée qui dessert toute une organisation, reste alignée sur le RGPD et survit à une revue de sécurité, c’est un travail d’ingénierie.
Rapid Solutions conçoit et exploite de l’IA privée pour les entreprises européennes réglementées : LLM auto-hébergés, copilotes RAG, agents IA et protection des PII, le tout sur une infrastructure et des clés que vous contrôlez. Nous sommes open-source-first et agnostiques en matière d’outils - nous associons le bon moteur d’inférence, le bon magasin vectoriel et le bon framework d’orchestration à votre charge de travail plutôt que de vous verrouiller dans une seule stack. Nous concevons depuis Amsterdam et Dubaï et proposons la résidence des données dans l’UE comme capacité standard.
Vos données, vos clés, votre contrôle. Contactez Rapid Solutions pour cadrer un déploiement d’IA privée pour votre équipe.