Hvorfor MCP feiler ved skalering – og hvordan Skills løser det

TLDR;

Standard MCP er ikke bygget for tusenvis av verktøy. Vi ser på hvorfor kontekstvinduet fylles opp, og hvordan en ny "Skills"-arkitektur med RAG-prinsipper og deterministisk kode er nøkkelen til robuste AI-systemer.

Hvorfor MCP knekker under press (og hvordan «Skills» redder dagen)

Problemet: For mye støy i systemet

Model Context Protocol (MCP) ble lansert som en «USB-C for AI» – en standardisert måte å koble språkmodeller til data og verktøy på. I små demoer fungerer dette utmerket. Men i storskala produksjon møter MCP veggen.

Hovedutfordringen er kontekst-overbelastning. I standard MCP må modellen laste inn definisjoner for alle tilgjengelige verktøy ved oppstart. Når systemet vokser, oppstår alvorlige utfordringer...

Konkrete utfordringer:

Token-eksplosjon: I bedrifts-systemer (f.eks. AWS eller Salesforce) teller hvert API-endepunkt som et verktøy. 1 000 funksjoner med gjennomsnittlig 100 tokens per definisjon betyr 100 000 tokens kun i metadata.

Kveler arbeidsminnet: Dette okkuperer store deler av kontekstvinduet (selv på store modeller) før brukeren har stilt ett spørsmål. Modellen blir som en ekspert som tvinges til å lese hele leksikonet på nytt før hvert svar – det går tregt, og evnen til resonnering forsvinner i støyen.

Eksponentiell feilrate: I komplekse kjeder av verktøykall (Agents) faller sannsynligheten for suksess dramatisk for hvert steg, fordi modellen overveldes av irrelevant informasjon.

Løsningen: Skills (MCP på diett)

Anthropic (skaperne av Claude) har introdusert konseptet Skills for å løse dette. I stedet for å dumpe hele verktøykatalogen i fanget på modellen med én gang, snur de på prosessen:

Indeksering: Modellen ser først kun på lette metadata (navn/beskrivelse) av tilgjengelige skills.

Seleksjon: Først når modellen finner en relevant skill, laster den inn instruksjonene (f.eks. fra en SKILL.md-fil).

Eksekvering: Selve verktøyet kalles kun helt til slutt, som en "last mile"-operasjon.

Fra simulering til deterministisk kode

En ofte oversett styrke med Skills er muligheten til å inkludere kjørbare kodesnutter for deterministiske oppgaver. Der språkmodeller ofte prøver å «simulere» matematikk eller kompleks logikk (og ofte feiler), kan en Skill inneholde definerte script. I stedet for at modellen prøver å gjette seg frem til et svar, kjører den faktisk kode. Dette eliminerer hallusinasjoner på oppgaver som krever en fasit.

Konseptet: RAG for verktøy

Du kan tenke på dette som MCP-RAG. Akkurat som RAG (Retrieval Augmented Generation) henter dokumenter kun ved behov, henter Skills-arkitekturen verktøydefinisjoner og kodesnutter kun når de er relevante.

Skills er bare begynnelsen: En ny industristandard

Anthropic kaller det «Skills», men dette designmønsteret er større enn én leverandør. I bunn og grunn handler det om å innføre en triage-prosess: en mekanisme som søker gjennom overordnede beskrivelser for å identifisere riktig verktøy før de tunge tekniske definisjoner lastes inn.

Vi ser samme prinsipp hos andre store aktører. Google Vertex AI bruker metoder for «Tool Retrieval», og i økosystemer som LangChain/LangGraph har dynamisk verktøyutvelgelse via router-agenter lenge vært standarden for å håndtere store mengder verktøy.

Selv har jeg lenge praktisert nettopp denne metodikken i egenutviklede, agentiske workflows hos XPLISITT og SafeWorks. Ved å la agenter triagere funksjonsbeskrivelser og velge verktøy dynamisk, løste vi skaleringsutfordringene lenge før metodikken fikk et markedsføringsnavn. «Skills» bekrefter bare at bransjen nå beveger seg mot den arkitekturen vi allerede har erfart er nødvendig for robuste AI-systemer.

December 7, 2025