Hintergrund

Endor Labs hat einen neuen agentischen Code‑Security-Benchmark veröffentlicht, der auf dem Carnegie‑Mellon‑SusVibes‑Framework aufbaut. Ziel ist es, die Sicherheitsleistung von KI‑Codierungsagenten in realistischen Szenarien zu messen. Der Benchmark nutzt eine große Sammlung von Aufgaben aus Open‑Source‑Projekten und deckt zahlreiche Schwachstellenkategorien ab.

Benchmark‑Methodik

ElementBeschreibung
AufgabensammlungReale Aufgaben aus Open‑Source‑Projekten.
SchwachstellenkategorienUmfassende Abdeckung, einschließlich häufiger Sicherheitslücken.
BewertungZwei Dimensionen: funktionale Korrektheit und Sicherheitsauswirkungen.
AktualisierungKontinuierlich, sobald neue Agenten und Modelle verfügbar sind.

Agent Security League

Parallel zum Benchmark wurde die Agent Security League ins Leben gerufen. Sie ist eine öffentliche Rangliste, die Agenten nach ihrer Leistung in Bezug auf funktionale Korrektheit und Sicherheitskorrektheit bewertet. Die League bietet einen transparenten Überblick über die aktuelle Leistungsfähigkeit verschiedener KI‑Codierungswerkzeuge.

Frühere Ergebnisse

Die ersten Messungen zeigen eine klare Kluft:

  • Funktionale Korrektheit: Spitzenagenten erzielen hohe Scores und generieren korrekt funktionierenden Code.
  • Sicherheitskorrektheit: Die meisten generierten Codes enthalten Schwachstellen. Selbst bei den besten Agenten bleibt die Sicherheitskorrektheit deutlich unter dem Niveau der funktionalen Korrektheit.

Bedeutung für die Industrie

  • Entwickler: Erhalten ein klares Bild darüber, welche Agenten in realen Szenarien zuverlässig funktionieren.
  • Sicherheitsteams: Können gezielt Schwachstellen identifizieren und Sicherheitslücken in KI‑generiertem Code adressieren.
  • Modellentwickler: Profitieren von transparenten, kontinuierlich aktualisierten Benchmarks, um die Sicherheit ihrer Modelle zu verbessern.

Ausblick

Endor Labs betont, dass der Benchmark und die League regelmäßig erweitert werden, um den sich rasch entwickelnden KI‑Codierungslandschaft gerecht zu werden. Das Unternehmen verfolgt die Mission, die Software‑Versorgungs­kette im Zeitalter der KI zu sichern, indem es robuste, datenbasierte Messinstrumente bereitstellt.