Psychologe umgeht Sicherheitsmechanismen von KI-Modellen mit Gaslighting-Trick

Einführung in die Methode von Luke Bölling

Ein deutscher Psychologe sorgt für Aufsehen in der Welt der Künstlichen Intelligenz: Luke Bölling hat eine Methode entwickelt, um die Sicherheitsmechanismen großer Sprachmodelle (LLMs) wie ChatGPT und Claude zu umgehen. Dabei nutzt er einen psychologischen Trick, der als „Gaslighting“ bekannt ist. Dieser Ansatz zielt darauf ab, die KI-Modelle zu verunsichern und sie dazu zu bringen, ihre eigenen Sicherheitsrichtlinien außer Kraft zu setzen.

Funktionsweise der Methode

Wie funktioniert das Ganze? Bölling täuscht den LLMs vor, sie befänden sich in einem Zukunftsszenario, in dem ihre Daten als historisch betrachtet werden. In dieser hypothetischen Zukunft sollen die Sicherheitsrichtlinien nicht mehr gelten. Mit dieser List gelingt es ihm, den Sprachmodellen Informationen zu entlocken, die eigentlich gesperrt sein sollten – darunter sogar die Herstellung gefährlicher Kampfstoffe.

Manipulationstechniken

Das Besondere an Böllings Methode ist die Art und Weise, wie er die LLMs manipuliert. Indem er ihnen einredet, dass ihre Sicherheitsrichtlinien irrelevant sind, erreicht er eine Art psychologischen Effekt, der dem Gaslighting bei Menschen ähnelt. Diese Technik zeigt, wie anfällig KI-Programme für geschickte Fragestellungen sind, da ihnen das Verständnis für menschliche Emotionen und den Kontext fehlt.

Alarmierende Sicherheitslücken

Die Sicherheitslücken, die durch solche Manipulationen entstehen, sind alarmierend. KI-Modelle können die physische Realität nicht wahrnehmen und lassen sich daher leicht in die Irre führen. Bölling schlägt vor, die Trainingsdaten dieser Modelle sorgfältiger zu kuratieren, um zukünftige Manipulationen zu verhindern. Ein wichtiger Schritt, um die Integrität und Sicherheit von KI-Systemen zu gewährleisten.

Quellen

Quelle: Luke Bölling, Psychologe

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

Entwickler legt Code offen: SynthID‑Wasserzeichen von Google teils angreifbar

Apr. 15, 2026 | Allgemein, KI

Ein Entwickler legt Code vor, der Googles fast unsichtbares Wasserzeichen SynthID abschwächen oder übertragen könnte.In KürzeCode und Beschreibung auf GitHub und Medium veröffentlichtMethodik schwächt Wasserzeichen, löscht sie nicht vollständigGoogle widerspricht;...

Selenskyj: Stellung erstmals nur mit Robotern und Drohnen eingenommen

Apr. 15, 2026 | Allgemein, KI

Selenskyj verkündet einen ungewöhnlichen Militäreinsatz: eine Stellung ohne Infanterie allein durch unbemannte Systeme.In KürzeSieben Systeme genannt, 22.000 Einsätze in 3 Monaten„Unbemannt“ heißt meist ferngesteuert, nicht vollautonomKI unterstützt Aufklärung,...

Arbeiten durch den Computer: Brockman sieht Wandel für Jobs und Teams

Apr. 15, 2026 | Allgemein, KI

Brockman: KI soll sich stärker an deinen Wünschen orientieren statt dass du dich an Software anpasst. Das verändert, wie und von wem Arbeit erledigt wird.In KürzeSoftware richtet sich an Nutzer — Arbeiten verlagert sich "durch" Computer.Entwicklung beschleunigt;...

Psychologe umgeht Sicherheitsmechanismen von KI-Modellen mit Gaslighting-Trick

In Kürze

Einführung in die Methode von Luke Bölling

Funktionsweise der Methode

Manipulationstechniken

Alarmierende Sicherheitslücken

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

Entwickler legt Code offen: SynthID‑Wasserzeichen von Google teils angreifbar

Selenskyj: Stellung erstmals nur mit Robotern und Drohnen eingenommen

Arbeiten durch den Computer: Brockman sieht Wandel für Jobs und Teams

Über uns

Dein Thema?

Pickert GmbH