Endor Labs enthüllt neuen Code‑Security-Benchmark: Wie KI‑Codierer in realen Szenarien sicher und korrekt performen

Hintergrund

Endor Labs hat einen neuen agentischen Code‑Security-Benchmark veröffentlicht, der auf dem Carnegie‑Mellon‑SusVibes‑Framework aufbaut. Ziel ist es, die Sicherheitsleistung von KI‑Codierungsagenten in realistischen Szenarien zu messen. Der Benchmark nutzt eine große Sammlung von Aufgaben aus Open‑Source‑Projekten und deckt zahlreiche Schwachstellenkategorien ab.

Benchmark‑Methodik

Element	Beschreibung
Aufgabensammlung	Reale Aufgaben aus Open‑Source‑Projekten.
Schwachstellenkategorien	Umfassende Abdeckung, einschließlich häufiger Sicherheitslücken.
Bewertung	Zwei Dimensionen: funktionale Korrektheit und Sicherheitsauswirkungen.
Aktualisierung	Kontinuierlich, sobald neue Agenten und Modelle verfügbar sind.

Agent Security League

Parallel zum Benchmark wurde die Agent Security League ins Leben gerufen. Sie ist eine öffentliche Rangliste, die Agenten nach ihrer Leistung in Bezug auf funktionale Korrektheit und Sicherheitskorrektheit bewertet. Die League bietet einen transparenten Überblick über die aktuelle Leistungsfähigkeit verschiedener KI‑Codierungswerkzeuge.

Frühere Ergebnisse

Die ersten Messungen zeigen eine klare Kluft:

Funktionale Korrektheit: Spitzenagenten erzielen hohe Scores und generieren korrekt funktionierenden Code.
Sicherheitskorrektheit: Die meisten generierten Codes enthalten Schwachstellen. Selbst bei den besten Agenten bleibt die Sicherheitskorrektheit deutlich unter dem Niveau der funktionalen Korrektheit.

Bedeutung für die Industrie

Entwickler: Erhalten ein klares Bild darüber, welche Agenten in realen Szenarien zuverlässig funktionieren.
Sicherheitsteams: Können gezielt Schwachstellen identifizieren und Sicherheitslücken in KI‑generiertem Code adressieren.
Modellentwickler: Profitieren von transparenten, kontinuierlich aktualisierten Benchmarks, um die Sicherheit ihrer Modelle zu verbessern.

Ausblick

Endor Labs betont, dass der Benchmark und die League regelmäßig erweitert werden, um den sich rasch entwickelnden KI‑Codierungslandschaft gerecht zu werden. Das Unternehmen verfolgt die Mission, die Software‑Versorgungskette im Zeitalter der KI zu sichern, indem es robuste, datenbasierte Messinstrumente bereitstellt.