Lasso Security: ‘Microsoft Copilot lekt inhoud 20.000 private GitHub-repositories’
.png)
Lasso Security: ‘Microsoft Copilot lekt inhoud 20.000 private GitHub-repositories’
Meer dan 20.000 privé GitHub-repositories van duizenden bedrijven blijken via Microsoft Copilot openbaar opvraagbaar te zijn. Dit werd ontdekt tijdens een onderzoek naar AI-blootstelling van codeopslagplaatsen. Lasso zegt op haar site:
A quick search showed that the repository in question had once been public, as its pages were still indexed by Bing. However, when we tried accessing these pages directly on GitHub, we were met with a 404 error, confirming that the repository had since been made private.
Opslagplek
Een repository (afgekort repo) is in de context van softwareontwikkeling een soort opslagplaats waar je de bestanden van een project bewaart, inclusief de volledige geschiedenis van wijzigingen.
Halverwege 2024 kwam aan het licht dat Copilot informatie bleef bewaren uit repositories die eerst openbaar waren gezet, maar later weer privé waren gemaakt. Zodra een repository ook maar kort publiekelijk toegankelijk is geweest, wordt deze door Copilot geïndexeerd en kan de inhoud later alsnog worden opgevraagd.
Zo bleken er duizenden zogenoemde ‘zombie repositories’ te bestaan: oude caches van repositories die officieel privé zijn, maar via Copilot toch vindbaar blijven. Onder de betrokken organisaties bevinden zich grote technologiebedrijven, maar ook tal van andere ondernemingen. De gelekte gegevens bevatten onder meer softwarepakketten die kwetsbaar zijn voor aanvallen, evenals honderden tokens, sleutels en andere vertrouwelijke toegangsgegevens.
De ontdekking begon toen onderzoekers merkten dat één van hun eigen privé repositories via Copilot toegankelijk was. De oorzaak lag in een cachingprobleem: de zoekmachine achter Copilot had pagina’s geïndexeerd toen ze nog publiek waren, en verwijderde deze niet toen de repositories privé werden gezet. Hierdoor bleef de inhoud in het AI-systeem beschikbaar.
Hoewel er een aanpassing werd doorgevoerd om de data uit zoekresultaten te halen, bleek Copilot de gegevens toch nog te tonen. De zoekmachinecache zelf was niet opgeschoond, waardoor de eerder vastgelegde informatie alsnog opvraagbaar bleef.
