Anthropic präsentiert neuen Schutz gegen KI-Manipulationen

11.02.2025 | KI

Anthropic hat mit „Constitutional Classifiers“ einen innovativen Ansatz zur Sicherung seiner Sprachmodelle entwickelt.

In Kürze

  • 183 Testpersonen konnten trotz Anreiz keine Sicherheitsmaßnahmen überwinden
  • Neue Technik blockiert über 95% der Manipulationsversuche
  • Öffentliche Demo-Version für Experten im Februar 2025 geplant

Das KI-Unternehmen Anthropic und ihre neue Schutztechnik

Das KI-Unternehmen Anthropic hat einen neuen Ansatz entwickelt, um ihre Sprachmodelle besser vor Manipulationen zu schützen. Die Technik trägt den Namen „Constitutional Classifiers“ und zielt darauf ab, zu verhindern, dass KIs durch gezielte Eingaben, auch bekannt als Jailbreaks, zu fehlerhaften oder schädlichen Antworten verleitet werden. Besonders im Fokus stehen dabei die sogenannten Universal Jailbreaks, die in der Lage sind, alle Sicherheitsbarrieren zu umgehen.

Erste Testversuche und Ergebnisse

In einem Testversuch ließen die Verantwortlichen von Anthropic 183 Personen über einen Zeitraum von zwei Monaten versuchen, das KI-Modell Claude 3.5 zu manipulieren. Trotz eines Anreizes von 15.000 Dollar für den erfolgreichen Versuch gelang es niemandem, alle Sicherheitsmaßnahmen zu überwinden. Dabei zeigte sich, dass das System zwar robust ist, jedoch einige Schwächen aufweist: Es lehnte häufig harmlose Anfragen ab und benötigte eine erhebliche Menge an Rechenleistung. Eine weiterentwickelte Version des Modells konnte diese Probleme jedoch reduzieren und bewies in automatisierten Tests, dass sie über 95 Prozent der Manipulationsversuche abwehrt. Zum Vergleich: Das ungeschützte Modell ließ 86 Prozent der Versuche durch.

Grundlagen des Sicherheitssystems

Das Sicherheitssystem von Anthropic basiert auf klar definierten Regeln, die festlegen, welche Inhalte erlaubt sind und welche nicht. Mithilfe einer „Verfassung“ werden synthetische Beispiele in verschiedenen Sprachen generiert, um das System zu trainieren. Anthropic weist jedoch darauf hin, dass diese Technik nicht vollkommen narrensicher ist und zukünftige Manipulationen nicht ausgeschlossen werden können. Daher empfehlen sie, zusätzliche Sicherheitsvorkehrungen zu implementieren.

Öffentliche Testphase

Um die neue Technik weiter zu testen, wird vom 3. bis 10. Februar 2025 eine öffentliche Demo-Version zur Verfügung stehen. Experten sind eingeladen, zu versuchen, das System zu überlisten, und die Ergebnisse dieser Tests sollen später in einem Update veröffentlicht werden. Es bleibt abzuwarten, wie gut Anthropic mit dieser neuen Technologie die Herausforderungen der KI-Sicherheit bewältigen kann.

Quellen

  • Quelle: Anthropic
  • Der ursprüngliche Artikel wurde hier veröffentlicht

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

Nvidia öffnet Warp: Python-Framework jetzt Open Source

Nvidia öffnet Warp: Python-Framework jetzt Open Source

Nvidia hat sein Python-Framework Warp unter die Open-Source-Lizenz Apache 2 gestellt und reagiert damit auf Community-Kritik.In KürzeWarp wandelt Python-Funktionen in Echtzeit in Code um.Das Framework unterstützt sowohl x86- als auch CUDA-GPUs.Integration in...