Anthropic hat mit „Constitutional Classifiers“ einen innovativen Ansatz zur Sicherung seiner Sprachmodelle entwickelt.
In Kürze
- 183 Testpersonen konnten trotz Anreiz keine Sicherheitsmaßnahmen überwinden
- Neue Technik blockiert über 95% der Manipulationsversuche
- Öffentliche Demo-Version für Experten im Februar 2025 geplant
Das KI-Unternehmen Anthropic und ihre neue Schutztechnik
Das KI-Unternehmen Anthropic hat einen neuen Ansatz entwickelt, um ihre Sprachmodelle besser vor Manipulationen zu schützen. Die Technik trägt den Namen „Constitutional Classifiers“ und zielt darauf ab, zu verhindern, dass KIs durch gezielte Eingaben, auch bekannt als Jailbreaks, zu fehlerhaften oder schädlichen Antworten verleitet werden. Besonders im Fokus stehen dabei die sogenannten Universal Jailbreaks, die in der Lage sind, alle Sicherheitsbarrieren zu umgehen.
Erste Testversuche und Ergebnisse
In einem Testversuch ließen die Verantwortlichen von Anthropic 183 Personen über einen Zeitraum von zwei Monaten versuchen, das KI-Modell Claude 3.5 zu manipulieren. Trotz eines Anreizes von 15.000 Dollar für den erfolgreichen Versuch gelang es niemandem, alle Sicherheitsmaßnahmen zu überwinden. Dabei zeigte sich, dass das System zwar robust ist, jedoch einige Schwächen aufweist: Es lehnte häufig harmlose Anfragen ab und benötigte eine erhebliche Menge an Rechenleistung. Eine weiterentwickelte Version des Modells konnte diese Probleme jedoch reduzieren und bewies in automatisierten Tests, dass sie über 95 Prozent der Manipulationsversuche abwehrt. Zum Vergleich: Das ungeschützte Modell ließ 86 Prozent der Versuche durch.
Grundlagen des Sicherheitssystems
Das Sicherheitssystem von Anthropic basiert auf klar definierten Regeln, die festlegen, welche Inhalte erlaubt sind und welche nicht. Mithilfe einer „Verfassung“ werden synthetische Beispiele in verschiedenen Sprachen generiert, um das System zu trainieren. Anthropic weist jedoch darauf hin, dass diese Technik nicht vollkommen narrensicher ist und zukünftige Manipulationen nicht ausgeschlossen werden können. Daher empfehlen sie, zusätzliche Sicherheitsvorkehrungen zu implementieren.
Öffentliche Testphase
Um die neue Technik weiter zu testen, wird vom 3. bis 10. Februar 2025 eine öffentliche Demo-Version zur Verfügung stehen. Experten sind eingeladen, zu versuchen, das System zu überlisten, und die Ergebnisse dieser Tests sollen später in einem Update veröffentlicht werden. Es bleibt abzuwarten, wie gut Anthropic mit dieser neuen Technologie die Herausforderungen der KI-Sicherheit bewältigen kann.
Quellen
- Quelle: Anthropic
- Der ursprüngliche Artikel wurde hier veröffentlicht