rapidsolutions
Plan een gesprek
AI & data

Private AI en self-hosted LLM's: uw data, uw sleutels, uw controle

Stuur één prompt naar een gehoste Amerikaanse cloud-API en er verlaat een kopie van uw data uw jurisdictie. Wij ontwerpen en beheren private AI die binnen uw perimeter blijft: self-hosted LLM's, RAG-copilots en AI-agents op infrastructuur die u beheert. We zijn open-source-first en leverancierneutraal en bouwen rond open standaarden zoals de OpenAI-compatibele inference-API, GGUF-modelgewichten en het Model Context Protocol in plaats van u aan één tool vast te zetten. Het resultaat is GDPR- en EU AI Act-afstemming door ontwerp, niet er achteraf opgeplakt.

Bespreek dit

Wat we bouwen

  • Self-hosted LLM-serving op open-weight modellen (bijvoorbeeld Llama, Mistral, Mixtral, Qwen, DeepSeek), gedimensioneerd op uw nauwkeurigheid, latency en budget, geserveerd via inference engines waarmee we werken zoals vLLM, Ollama, llama.cpp, SGLang, LocalAI en Hugging Face TGI
  • Private RAG-copilots verankerd in uw eigen documenten, wiki's en databases, met retrieval en vectorzoeken die volledig op uw infrastructuur draaien (bijvoorbeeld pgvector, Qdrant, Weaviate, Milvus of Chroma, georkestreerd met LangChain of LlamaIndex)
  • AI-agents die op uw systemen en tools handelen via open interfaces zoals het Model Context Protocol, zonder dat er data naar API's van derden gaat
  • Air-gapped en geïsoleerde deployments voor gereguleerde workloads in zorg, juridische dienstverlening, finance en de publieke sector
  • Modelselectie, fine-tuning en evaluatie zodat u het juiste model voor de taak inzet, en we passen ons aan op uw bestaande stack in plaats van de onze op te leggen

Privacy en compliance ingebouwd

  • Een PII-beschermingslaag die namen, e-mailadressen, financiële en gezondheidsdata detecteert en redigeert voordat prompts het model bereiken, gebouwd op open tooling (bijvoorbeeld Microsoft Presidio) met optionele omkeerbare tokenisatie zodat antwoorden gepersonaliseerd blijven
  • EU-dataresidentie als capaciteit aangeboden, met engineering gevestigd in Europa, zodat prompts, documenten en embeddings binnen uw jurisdictie en buiten het bereik van de CLOUD Act blijven
  • Data wordt nooit gebruikt om modellen van derden te trainen, en er verlaat geen telemetrie uw netwerk
  • GDPR- en EU AI Act-afstemming, met verwerkersovereenkomsten, auditeerbare toegangscontroles en prompt- en responselogging die van u is
  • Encryptie met sleutels die u beheert (BYOK/HYOK), op infrastructuur die u controleert, met confidential computing waar het dreigingsmodel daarom vraagt

Draai het op het juiste fundament

  • Deploy op uw bestaande cloud, uw dedicated GPU-servers, of een soevereine open-source private cloud die wij voor u bouwen en beheren
  • On-prem GPU-infrastructuur gedimensioneerd op werkelijk gebruik zodat de business case standhoudt over een horizon van twee tot drie jaar
  • Porteerbare, leverancierneutrale platformen in het CNCF-ecosysteem (bijvoorbeeld Kubernetes, KubeVirt, OpenStack, Proxmox VE, Ceph) zodat er geen hyperscaler-lock-in is
  • DevOps- en AIOps-automatisering, met open observability via OpenTelemetry, om uw AI-stack te beheren, te monitoren en te schalen
  • Geëngineerd in Europa, geleverd vanuit Amsterdam en Dubai, neutraal in tooling en afgestemd op uw soevereiniteits- en compliance-eisen
FAQ
Is ChatGPT GDPR-compliant voor zakelijk gebruik?

De consumentenversie van ChatGPT is over het algemeen niet GDPR-compliant, omdat gesprekken bewaard en voor training gebruikt kunnen worden zonder verwerkersovereenkomst of garantie op EU-dataresidentie. Een self-hosted of private LLM voorkomt dit door elke prompt en elk document binnen infrastructuur te houden die u beheert, zodat er geen persoonsgegevens de EU-jurisdictie verlaten. Wij bouwen het GDPR-compliante alternatief rond open modellen en open standaarden, niet rond één leverancier.

Wat is private AI?

Private AI betekent dat u large language models, RAG-pipelines en AI-agents draait op infrastructuur die u beheert, on-premise of in een dedicated EU-omgeving, in plaats van data naar externe cloud-API's te sturen. Uw prompts, documenten en modelgewichten verlaten nooit uw perimeter en worden nooit gebruikt om andermans model te trainen, wat u volledige datasoevereiniteit geeft en afstemming met GDPR en de EU AI Act door ontwerp.

Welke open-source-modellen en -tools kunnen on-premise draaien?

Capabele open-weight modellen zoals Llama, Mistral, Mixtral, Qwen en DeepSeek draaien goed op uw eigen GPU-servers, met kleinere modellen op een enkele 24GB-GPU en modellen van 70B-klasse op multi-GPU-opstellingen. We serveren ze via de inference engine die past, bijvoorbeeld vLLM, Ollama, llama.cpp, SGLang, LocalAI of Hugging Face TGI, die allemaal de OpenAI-compatibele API blootstellen zodat u nooit vastzit. We helpen u de juiste combinatie te selecteren, te fine-tunen en te deployen voor uw nauwkeurigheid, latency en budget.

Hoe voorkomt u dat gevoelige data en PII in een LLM lekken?

We voegen een PII-beschermingslaag toe, doorgaans gebouwd op open tooling zoals Microsoft Presidio, die namen, e-mailadressen, financiële en gezondheidsdata detecteert en redigeert voordat prompts het model bereiken, met optionele omkeerbare tokenisatie zodat antwoorden gepersonaliseerd blijven. Gecombineerd met on-premise hosting en een lokale RAG- en vectorstore verlaat er nooit gevoelige informatie uw netwerk.

Is een LLM zelf hosten goedkoper dan cloud-API's gebruiken?

Dat hangt af van het gebruik. Bij laag of sporadisch volume zijn cloud-API's goedkoper; bij aanhoudende, hoogvolume workloads wint on-premise doorgaans op totale kosten over een horizon van twee tot drie jaar, en het voordeel van datasoevereiniteit is structureel in plaats van een post op de begroting. Wij dimensioneren de hardware en architectuur op uw werkelijke gebruik zodat het omslagpunt in uw voordeel uitvalt.

Breng dit naar uw stack.

Vertel ons wat u vandaag draait en wij brengen het snelste veilige pad vooruit in kaart.

Plan een gesprek