Hintergrund
Endor Labs hat einen neuen agentischen Code‑Security-Benchmark veröffentlicht, der auf dem Carnegie‑Mellon‑SusVibes‑Framework aufbaut. Ziel ist es, die Sicherheitsleistung von KI‑Codierungsagenten in realistischen Szenarien zu messen. Der Benchmark nutzt eine große Sammlung von Aufgaben aus Open‑Source‑Projekten und deckt zahlreiche Schwachstellenkategorien ab.
Benchmark‑Methodik
| Element | Beschreibung |
|---|---|
| Aufgabensammlung | Reale Aufgaben aus Open‑Source‑Projekten. |
| Schwachstellenkategorien | Umfassende Abdeckung, einschließlich häufiger Sicherheitslücken. |
| Bewertung | Zwei Dimensionen: funktionale Korrektheit und Sicherheitsauswirkungen. |
| Aktualisierung | Kontinuierlich, sobald neue Agenten und Modelle verfügbar sind. |
Agent Security League
Parallel zum Benchmark wurde die Agent Security League ins Leben gerufen. Sie ist eine öffentliche Rangliste, die Agenten nach ihrer Leistung in Bezug auf funktionale Korrektheit und Sicherheitskorrektheit bewertet. Die League bietet einen transparenten Überblick über die aktuelle Leistungsfähigkeit verschiedener KI‑Codierungswerkzeuge.
Frühere Ergebnisse
Die ersten Messungen zeigen eine klare Kluft:
- Funktionale Korrektheit: Spitzenagenten erzielen hohe Scores und generieren korrekt funktionierenden Code.
- Sicherheitskorrektheit: Die meisten generierten Codes enthalten Schwachstellen. Selbst bei den besten Agenten bleibt die Sicherheitskorrektheit deutlich unter dem Niveau der funktionalen Korrektheit.
Bedeutung für die Industrie
- Entwickler: Erhalten ein klares Bild darüber, welche Agenten in realen Szenarien zuverlässig funktionieren.
- Sicherheitsteams: Können gezielt Schwachstellen identifizieren und Sicherheitslücken in KI‑generiertem Code adressieren.
- Modellentwickler: Profitieren von transparenten, kontinuierlich aktualisierten Benchmarks, um die Sicherheit ihrer Modelle zu verbessern.
Ausblick
Endor Labs betont, dass der Benchmark und die League regelmäßig erweitert werden, um den sich rasch entwickelnden KI‑Codierungslandschaft gerecht zu werden. Das Unternehmen verfolgt die Mission, die Software‑Versorgungskette im Zeitalter der KI zu sichern, indem es robuste, datenbasierte Messinstrumente bereitstellt.




