Anthropic präsentiert neuen Schutz gegen KI-Manipulationen

Das KI-Unternehmen Anthropic und ihre neue Schutztechnik

Das KI-Unternehmen Anthropic hat einen neuen Ansatz entwickelt, um ihre Sprachmodelle besser vor Manipulationen zu schützen. Die Technik trägt den Namen „Constitutional Classifiers“ und zielt darauf ab, zu verhindern, dass KIs durch gezielte Eingaben, auch bekannt als Jailbreaks, zu fehlerhaften oder schädlichen Antworten verleitet werden. Besonders im Fokus stehen dabei die sogenannten Universal Jailbreaks, die in der Lage sind, alle Sicherheitsbarrieren zu umgehen.

Erste Testversuche und Ergebnisse

In einem Testversuch ließen die Verantwortlichen von Anthropic 183 Personen über einen Zeitraum von zwei Monaten versuchen, das KI-Modell Claude 3.5 zu manipulieren. Trotz eines Anreizes von 15.000 Dollar für den erfolgreichen Versuch gelang es niemandem, alle Sicherheitsmaßnahmen zu überwinden. Dabei zeigte sich, dass das System zwar robust ist, jedoch einige Schwächen aufweist: Es lehnte häufig harmlose Anfragen ab und benötigte eine erhebliche Menge an Rechenleistung. Eine weiterentwickelte Version des Modells konnte diese Probleme jedoch reduzieren und bewies in automatisierten Tests, dass sie über 95 Prozent der Manipulationsversuche abwehrt. Zum Vergleich: Das ungeschützte Modell ließ 86 Prozent der Versuche durch.

Grundlagen des Sicherheitssystems

Das Sicherheitssystem von Anthropic basiert auf klar definierten Regeln, die festlegen, welche Inhalte erlaubt sind und welche nicht. Mithilfe einer „Verfassung“ werden synthetische Beispiele in verschiedenen Sprachen generiert, um das System zu trainieren. Anthropic weist jedoch darauf hin, dass diese Technik nicht vollkommen narrensicher ist und zukünftige Manipulationen nicht ausgeschlossen werden können. Daher empfehlen sie, zusätzliche Sicherheitsvorkehrungen zu implementieren.

Öffentliche Testphase

Um die neue Technik weiter zu testen, wird vom 3. bis 10. Februar 2025 eine öffentliche Demo-Version zur Verfügung stehen. Experten sind eingeladen, zu versuchen, das System zu überlisten, und die Ergebnisse dieser Tests sollen später in einem Update veröffentlicht werden. Es bleibt abzuwarten, wie gut Anthropic mit dieser neuen Technologie die Herausforderungen der KI-Sicherheit bewältigen kann.

Quellen

Quelle: Anthropic

Der ursprüngliche Artikel wurde hier veröffentlicht

Nvidia setzt über 40 Mrd. auf KI-Ökosystem – 30 Mrd. an OpenAI

Mai 10, 2026 | Allgemein, KI

Nvidia investiert in den ersten Monaten 2026 mehr als 40 Mrd. US-Dollar in KI-Firmen, inklusive einer 30-Mrd.-Position bei OpenAI. Kritik: viele Deals wirken zirkulär.In Kürze30 Mrd. US-Dollar gehen an OpenAIMilliarden auch an Corning und IRENKritiker: zirkuläre...

Wispr Flow setzt auf Indien – Hinglish, Niedrigpreis und Technik für Mischsprachen

Mai 10, 2026 | Allgemein, KI

Sprach‑KI für Indien: Hinglish‑Modell, niedrige Preise und lokales Team sollen massentauglich machen.In KürzeEigener Hinglish‑Sprach‑Stack, Code‑Switching in PlanungPreis in Indien: ₹320/Monat; Ziel deutlich niedrigere TarifeSchnelles Nutzerwachstum trotz niedriger...

Wenn Software Gefühle benotet: Emotion‑KI schleicht sich ins Büro

Mai 10, 2026 | Allgemein, KI

Software liest Mimik, Stimme und Texte — Firmen nutzen das zur Bewertung. Fehler und Bias führen zu echten Folgen für Beschäftigte.In KürzeEmotion‑KI klassifiziert Gefühle aus Video, Ton und Text für HR‑EntscheidungenWissenschaftliche Kritik: Mimik ist...

Anthropic präsentiert neuen Schutz gegen KI-Manipulationen

In Kürze

Das KI-Unternehmen Anthropic und ihre neue Schutztechnik

Erste Testversuche und Ergebnisse

Grundlagen des Sicherheitssystems

Öffentliche Testphase

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

Nvidia setzt über 40 Mrd. auf KI-Ökosystem – 30 Mrd. an OpenAI

Wispr Flow setzt auf Indien – Hinglish, Niedrigpreis und Technik für Mischsprachen

Wenn Software Gefühle benotet: Emotion‑KI schleicht sich ins Büro

Über uns

Dein Thema?

Pickert GmbH