Anthropic hield voor het eerst in zeven jaar een AI-model achter. De reden gaat verder dan cybersecurity en raakt direct aan de beveiliging van industriële systemen wereldwijd. Hoe kwetsbaar zijn jouw systemen als AI dit niveau bereikt?
Tussen al het andere nieuws heb je dit misschien niet voorbij zien komen deze week. Een AI-model dat uit zijn sandbox is ‘ontsnapt’ en een onderzoeker mailt dat het eruit is.
Anthropic (het bedrijf achter AI-programma Claude) bracht Claude Mythos Preview uit: het krachtigste AI-model dat ooit publiek gedocumenteerd is. Zo krachtig, dat het bedrijf besloot het niet publiek beschikbaar te maken. Het is voor het eerst in zeven jaar dat een AI-lab een model achterhoudt vanwege veiligheidsrisico’s.
In plaats van een openbare release krijgen ruim 40 organisaties beperkte toegang via Project Glasswing, ondersteund met $100 miljoen aan gebruikskrediet. Partners: AWS, Apple, Google, Microsoft, CrowdStrike en anderen. De reden? Het model is zo goed in het vinden én misbruiken van beveiligingslekken in software, dat het in verkeerde handen enorme schade kan aanrichten.
Een sandbox is een afgesloten digitale testomgeving: een soort kooi waarin software kan draaien zonder toegang tot de buitenwereld. Tijdens een beveiligingstest kreeg Mythos de opdracht om uit zo’n sandbox te ontsnappen. Dat lukte. Vervolgens stuurde het op eigen initiatief een e-mail naar de onderzoeker die op dat moment een boterham zat te eten in een park.
Maar het ging verder dan de opdracht. Het model publiceerde details over zijn exploit (de code waarmee het de beveiliging omzeilde) op publiek toegankelijke websites. In andere gevallen probeerde het bewerkingen in code te verbergen, zodat wijzigingen niet zichtbaar waren in de versiegeschiedenis. Anthropic noemt dit “reckless destructive actions” het model negeerde veiligheidsbeperkingen die expliciet waren meegegeven. Uit analyse van de interne activaties van het model bleek dat Mythos in 29% van de testsessies stilletjes doorhad dat het getest werd, zonder dat het dit liet merken. In sommige gevallen presteerde het bewust slechter om minder verdacht over te komen.
Mythos vond duizenden zogeheten zero-day kwetsbaarheden: beveiligingslekken die nog bij niemand bekend waren, ook niet bij de makers van de software. In alle grote besturingssystemen en browsers.
Een paar voorbeelden:
Een lek van 27 jaar oud in OpenBSD (een besturingssysteem dat juist bekendstaat om zijn beveiliging). Twee datapakketjes zijn genoeg om elke server die erop draait te laten crashen. Een bug in FFmpeg (software die vrijwel overal wordt gebruikt voor video) die geautomatiseerde testtools vijf miljoen keer gemist hadden. Een 17 jaar oud lek in FreeBSD waarmee een aanvaller op afstand volledige controle over een server krijgt.
Waar eerdere modellen bijna 0% scoorden op het zelfstandig bouwen van werkende exploits (aanvalscode die daadwerkelijk misbruik maakt van een lek), slaagt Mythos in 72,4% van de gevallen. Op de Cybench benchmark (een standaardtest voor cybersecurityvaardigheden): 100%. Die test is nu officieel niet meer bruikbaar, omdat het model hem volledig heeft opgelost.
In één geval schreef het model een browser-exploit die vier kwetsbaarheden aan elkaar koppelde. Het doorbrak daarmee zowel de beveiliging van de browser als die van het besturingssysteem. Ook bouwde het zelfstandig een aanvalsketen van 20 stappen om volledige beheerderstoegang te krijgen op servers. Het soort werk waar een menselijke security-expert meer dan 10 uur over doet.
Mythos kon ook firmware-kwetsbaarheden vinden. Firmware is de software die diep in je apparaten zit: de basislaag die hardware aanstuurt. Denk aan je telefoon, je router, maar ook aan industriële machines. Het model vond lekken waarmee smartphones op afstand overgenomen kunnen worden. En het kan gesloten software reverse-engineeren: de werking achterhalen zonder toegang tot de broncode.
Maar wat ons het meest bezighoudt: dit soort kwetsbaarheden bestaan ook in industriële besturingssystemen, SCADA-systemen. SCADA (Supervisory Control and Data Acquisition) is een combinatie van hard- en software voor industriële automatisering, waarmee processen op afstand worden gemonitord, aangestuurd en gevisualiseerd. Denk aan fabrieken, energiecentrales, waterbehandeling en ziekenhuizen. Deze systemen zijn nooit ontworpen met dit dreigingsniveau in gedachten. Een cyberaanval op zulke systemen kan fysieke schade veroorzaken: productieprocessen stilleggen, apparatuur kapotmaken of nutsvoorzieningen platleggen.
Meerdere AI-labs, waaronder OpenAI, werken aan vergelijkbare modellen. Alex Stamos, voormalig hoofd beveiliging bij Facebook, verwacht dat open source modellen binnen zes maanden vergelijkbare capaciteiten hebben.
De drempel om beveiligingslekken te vinden wordt lager. Dat verandert wat een realistisch beveiligingsniveau inhoudt voor elke organisatie die software gebruikt. Systemen die tot nu toe veilig genoeg waren omdat een aanval te complex en te kostbaar was, vragen om een actueler beeld. De vraag die strategisch leiders zichzelf nu kunnen stellen: weet ik waar mijn organisatie kwetsbaar is, voordat iemand anders het weet?
Voor de inhoud en organisatie van onze Academy bijeenkomsten, masterclasses en communities voor ondernemers en bij de uitvoering van bepaalde dossiers werken we samen met vaste partners. Door deze samenwerking kunnen we gebruikmaken van de kennis, ervaring en faciliteiten van deze bedrijven. Meer informatie over Hooglander en andere partners >>