Lokale LLM's privé draaien: on-prem AI zonder data-egress

Elke prompt die je team naar een gehoste AI-API stuurt, is een kopie van je data die je netwerk verlaat. Voor de meeste bedrijven is dat een berekend risico. Voor een bank, een ziekenhuis, een advocatenkantoor of elke organisatie die persoonsgegevens onder de AVG verwerkt, is het een aansprakelijkheid die wacht om in een audit op te duiken.

Door large language models lokaal te draaien, verdwijnt die aansprakelijkheid bij de bron. Geen enkele prompt steekt je perimeter over, geen enkel document belandt in een log van een derde partij, en geen enkele buitenlandse jurisdictie kan toegang afdwingen tot data die zij nooit heeft ontvangen. Deze gids behandelt hoe on-premise AI werkt, het open ecosysteem waaruit je het opbouwt, en de afwegingen. De rode draad: kies het juiste gereedschap voor elke laag, leun op open standaarden, en houd de controle over je modellen, je sleutels en je data.

Waarom “lokaal” beter is dan “EU-regio” voor gevoelige data

Het kiezen van de EU-regio van een provider lost het compliancevraagstuk niet volledig op. Dataresidentie vertelt je waar de bytes staan. Datasoevereiniteit vertelt je wiens wetten de toegang ertoe bepalen. Een in de VS gevestigde provider kan onder de Amerikaanse CLOUD Act gedwongen worden data uit te leveren, ongeacht in welk datacenter die staat.

Het model draaien op infrastructuur die je zelf beheert, doet dat onderscheid teniet. Als de GPU in je eigen rack staat of op een dedicated server die je zelf bedient, en de sleutels van jou zijn, is er geen derde partij om te dagvaarden en geen egress om te inspecteren.

De praktische winst:

Geen data-egress. Prompts en documenten verlaten nooit je netwerk.
Geen trainingslekkage. Je data wordt nooit gebruikt om andermans model te verbeteren.
Voorspelbare kosten. Geen facturering per token die meeschaalt met de adoptie.
AVG- en EU AI Act-conformiteit door ontwerp, niet door een contractclausule.

Het open ecosysteem dat dit mogelijk maakt

Je hoeft geen model te trainen. Het ecosysteem van open-weight modellen is volwassen genoeg dat het lastige deel de operatie is, niet de AI zelf. Het diepere voordeel is dat vrijwel elke laag inmiddels een open standaard spreekt, zodat je een stack samenstelt in plaats van er een koopt.

Modellen die je daadwerkelijk kunt draaien

Krachtige open-weight modellen dekken de meeste enterprise use cases, met families als Llama, Mistral en Mixtral, Qwen, Gemma, Phi en DeepSeek die algemeen redeneren, meertalig werk en code bestrijken. Gewichten worden geleverd als Safetensors via Hugging Face Transformers, het GGUF-formaat (van llama.cpp) is de de facto verpakking voor gekwantiseerde modellen, en ONNX biedt een portabel pad tussen runtimes.

Vuistregel voor sizing: een gekwantiseerd 7B-8B-model draait op een enkele 24GB-GPU; een model uit de 70B-klasse vereist multi-GPU (doorgaans 2x tot 4x A100/H100 of equivalent). Kwantisatie (GGUF, AWQ, GPTQ) ruilt een beetje nauwkeurigheid voor een grote daling in VRAM, en voor de meeste interne taken is het kwaliteitsverschil moeilijk merkbaar.

Serving-runtimes: het ecosysteem waarin we opereren

Er is geen enkele “juiste” inference-engine. Wij werken in het brede open serving-ecosysteem en stemmen de runtime af op je concurrency, hardware en operationeel profiel:

vLLM - een productiewerkpaard; PagedAttention en continuous batching leveren hoge doorvoer en lage latentie onder gelijktijdige belasting.
SGLang - high-performance serving, sterk in gestructureerde output en agentic pipelines met meerdere calls.
Hugging Face Text Generation Inference (TGI) - een solide productieserver, vooral in Hugging Face-georiënteerde omgevingen.
Ollama - de snelste manier om een model draaiend te krijgen op een workstation of enkele server. Ideaal voor prototyping en kleine teams.
llama.cpp - de engine achter veel lichtgewicht tooling en de eerste keuze voor CPU-only of beperkte hardware.
LocalAI - een drop-in OpenAI-compatibele gateway die meerdere backends ontsluit.

De verbindende draad is de OpenAI-compatibele API, die vLLM, SGLang, TGI, Ollama en LocalAI allemaal aanbieden. Omdat die interface de de facto standaard is voor self-hosted inferentie, hoeft je applicatiecode zelden te veranderen wanneer je de engine eronder verwisselt. Een veelvoorkomend patroon: prototype met Ollama en verplaats het daarna achter vLLM of SGLang zodra je echte concurrency nodig hebt.

Retrieval, agents en de rest van de pipeline

De meeste zakelijke waarde komt voort uit het verankeren van het model in je eigen data via Retrieval-Augmented Generation (RAG). Een lokale RAG-stack koppelt een self-hosted embeddingmodel aan een vectorstore, met daarna een orkestratielaag die retrieval, prompting en tool calls aan elkaar knoopt. Het ecosysteem is hier breed, en wij passen ons aan jouw stack aan:

Vectordatabases - pgvector (Postgres-native), Qdrant, Weaviate, Milvus en Chroma. Als je al Postgres draait, voorkomt pgvector vaak een nieuw bewegend onderdeel.
Orkestratieframeworks - LangChain en LlamaIndex om retrieval, agents en tool use aan elkaar te koppelen.
Tool- en dataconnectiviteit - het Model Context Protocol (MCP), dat nu valt onder de Agentic AI Foundation van de Linux Foundation, ontwikkelt zich tot de open standaard om modellen te verbinden met interne tools en data zonder maatwerklijmlaag.

Alles draait binnen je perimeter, dus de kennisbank en de toolingtoegang van de agent verlaten die ook nooit.

Een referentiearchitectuur

Een werkbare on-premise opstelling ziet er als volgt uit:

GPU-server(s) die jouw gekozen inference-engine draaien en een interne OpenAI-compatibele API aanbieden.
Vectordatabase met de embeddings van je interne documenten.
Een privacy- / PII-laag die persoonsgegevens detecteert en redigeert voordat ze het model bereiken. Open tools zoals Microsoft Presidio verzorgen detectie en anonimisering, met optionele omkeerbare tokenisatie zodat antwoorden gepersonaliseerd blijven.
Een applicatielaag - een chat-copilot, een interne zoekassistent of agents die via MCP interne tools aanroepen.
Observability - prompt-logging (binnen je netwerk), latentie- en token-metrics, en toegangscontroles, in toenemende mate getraceerd via OpenTelemetry zodat LLM-telemetrie portabel blijft.

Voor strengere omgevingen kan de volledige stack air-gapped draaien, met modelgewichten die eenmalig worden binnengehaald en daarna geen uitgaande connectiviteit meer.

Kosten: wanneer on-prem zich echt terugbetaalt

On-prem is niet automatisch goedkoper; het eerlijke break-evenpunt hangt af van het volume. Bij laag of sporadisch gebruik winnen cloud-API’s - je betaalt alleen voor wat je gebruikt, zonder kapitaaluitgaven. Bij aanhoudend, hoogvolumegebruik wint on-prem doorgaans over een horizon van twee tot drie jaar: een enkele GPU-server, afgeschreven over duizenden dagelijkse requests, gaat onder de tarifering per token zitten, en je ontsnapt volledig aan egress-kosten. De fout is hardware kopen voordat je je werkelijke tokenvolume kent. Dimensioneer de architectuur op gemeten gebruik, niet op de specsheet van een leverancier.

Veelgemaakte valkuilen

VRAM onderdimensioneren en dan verrast zijn dat het 70B-model niet laadt. Stem de modelgrootte af op de hardware voordat je je vastlegt.
Concurrency negeren. Een single-GPU-opstelling die is afgestemd op één ontwikkelaar bezwijkt onder vijftig. Plan de serving-laag voor piekbelasting en kies een engine die voor batching is gebouwd.
De PII-laag overslaan. On-prem hosting blokkeert externe egress, maar je wilt nog steeds redactie en toegangscontrole voor interne least-privilege.
RAG als opgelost beschouwen. Retrievalkwaliteit, chunking en de keuze van embeddings bepalen de antwoordkwaliteit veel sterker dan de modelgrootte.
Te vroeg vastlopen op één tool. Omdat de OpenAI-compatibele API, GGUF en ONNX open standaarden zijn, kun je je opties openhouden over engines en vectorstores heen in plaats van het platform op één leverancier te zetten.

FAQ

Is ChatGPT AVG-conform voor zakelijk gebruik?

De consumentenversie van ChatGPT is over het algemeen niet AVG-conform, omdat gesprekken kunnen worden bewaard en voor training gebruikt zonder verwerkersovereenkomst of garantie op EU-dataresidentie. Een self-hosted of private LLM voorkomt dit volledig door elke prompt en elk document binnen je eigen infrastructuur te houden, zodat er geen persoonsgegevens de EU-jurisdictie verlaten.

Wat is private AI?

Private AI betekent het draaien van language models en AI-agents op infrastructuur die je zelf beheert, on-premise of in een dedicated EU-omgeving, in plaats van data naar externe cloud-API’s te sturen. Je data wordt nooit gebruikt om modellen van derden te trainen, wat je datasoevereiniteit geeft en conformiteit met de AVG en de EU AI Act door ontwerp.

Welke inference-engine moet ik gebruiken om een lokale LLM te serveren?

Dat hangt af van je workload. vLLM en SGLang blinken uit in productie-serving met hoge concurrency, TGI past bij Hugging Face-georiënteerde teams, Ollama en llama.cpp zijn het beste voor prototyping of beperkte hardware, en LocalAI biedt een uniforme gateway. Ze bieden allemaal een OpenAI-compatibele API, dus je kunt eenvoudig beginnen en later van engine wisselen zonder je applicatie te herschrijven.

Welke open-source modellen kunnen on-premise draaien?

Krachtige open modellen zoals Llama, Mistral, Mixtral, Qwen, Gemma, Phi en DeepSeek draaien goed op je eigen GPU-servers. Kleinere gekwantiseerde modellen passen op een enkele 24GB-GPU; modellen uit de 70B-klasse vereisen een multi-GPU-opstelling. De juiste keuze balanceert nauwkeurigheid, latentie en budget.

Hoe voorkom je dat gevoelige data en PII in een LLM lekken?

Voeg een privacylaag toe die PII detecteert en redigeert - namen, e-mailadressen, financiële en gezondheidsgegevens - voordat prompts het model bereiken, met open tooling zoals Microsoft Presidio met optionele omkeerbare tokenisatie zodat antwoorden gepersonaliseerd blijven. Gecombineerd met on-premise hosting en lokale RAG verlaat er nooit gevoelige informatie je netwerk.

Bouw het met een team dat soevereine AI levert

Een demo op één server opzetten is een middagje werk. Een private LLM-platform draaien dat een hele organisatie bedient, AVG-conform blijft en een security review overleeft, is engineeringwerk.

Rapid Solutions ontwerpt en beheert private AI voor gereguleerde Europese bedrijven: self-hosted LLM’s, RAG-copilots, AI-agents en PII-bescherming, allemaal op infrastructuur en sleutels die jij beheert. Wij zijn open-source-first en tool-agnostisch - we koppelen de juiste inference-engine, vectorstore en orkestratieframework aan jouw workload in plaats van je vast te zetten in één stack. We engineeren in heel Europa en het Midden-Oosten en bieden EU-dataresidentie als standaardcapaciteit.

Jouw data, jouw sleutels, jouw controle. Neem contact op met Rapid Solutions om een private AI-implementatie voor je team uit te werken.