Salesforce testet KI-Agenten: Wo sie scheitern und wo sie glänzen

Salesforce und der neue CRMArena-Pro Test

Salesforce hat mit CRMArena-Pro einen neuen Test ins Leben gerufen, der die Leistungsfähigkeit von KI-Agenten in realen Geschäftssituationen unter die Lupe nimmt. Dabei liegt der Fokus besonders auf komplexen Gesprächsverläufen und dem sensiblen Thema Datenschutz.

Ergebnisse des Tests

Die Ergebnisse sind aufschlussreich: Während fortschrittliche Modelle wie Gemini 2.5 Pro bei einfachen Aufgaben eine Erfolgsquote von 58 Prozent erreichen, fällt diese bei längeren Dialogen auf alarmierende 35 Prozent. Ein zentrales Problem scheint zu sein, dass diese KI-Modelle oft nicht die richtigen Fragen stellen, um fehlende Informationen zu erlangen.

Kritische Punkte der aktuellen KI-Systeme

Ein weiterer kritischer Punkt, der aus dem Test hervorgeht, ist die mangelhafte Fähigkeit aktueller KI-Systeme, sensible Daten wie persönliche Informationen zu erkennen und zu schützen. Dies deutet auf ein unzureichendes Bewusstsein für Datenschutz hin. Interessanterweise verbessert sich die Erkennungsrate solcher Daten erst durch spezielle Anpassungen, die auf Datenschutzrichtlinien hinweisen. Allerdings hat dies zur Folge, dass die allgemeine Leistung der KI darunter leidet.

Abhängigkeit von der Art der Aufgaben

Die Untersuchung zeigt zudem, dass die Fähigkeiten der KI-Modelle stark von der Art der Aufgaben abhängen. Während sie bei der automatisierten Fallbearbeitung im Kundenservice oft recht erfolgreich sind, hapert es bei komplexeren Aufgaben, die ein tiefergehendes Textverständnis oder das Erkennen ungültiger Konfigurationen erfordern.

Notwendigkeit der Weiterentwicklung

Diese Erkenntnisse verdeutlichen, dass es dringend notwendig ist, KI-Modelle weiterzuentwickeln, insbesondere in den Bereichen Dialogführung und Datenschutz.

Quellen

Quelle: Salesforce

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

Gefälschte Röntgenbilder: Radiolog:innen und KI erkennen Deepfakes oft nicht

Apr. 17, 2026 | Allgemein, KI

KI erzeugt so realistische Röntgenfakes, dass weder Ärzt:innen noch manche Detektoren zuverlässig unterscheiden können.In KürzeStudie am Mount Sinai: 17 Radiolog:innen testeten gegen KI-generierte BilderErkennungsrate lag bei gezielter Suche nur bei ~75 %, einige...

Canva AI 2.0 macht KI zur zentralen Schaltstelle für Design-Workflows

Apr. 17, 2026 | Allgemein, KI

Canva bringt editierbare Text‑to‑Design‑Entwürfe, layer‑basierte Dateien und tiefe Integrationen in den Workflow.In KürzeText‑to‑design: sofort editierbare VariantenLayer‑basierte Dateien für gezielte NachbearbeitungIntegrationen zu Anthropic, Google, OpenAI und Apps...

Google bringt Webseiten neben KI-Antworten in Chrome

Apr. 17, 2026 | Allgemein, KI

Chrome zeigt Webseiten direkt neben den KI-Antworten, sodass du Ergebnisse und Inhalte parallel vergleichen und gezielte Folgefragen stellen kannst.In KürzeGeöffnete Seite öffnet neben der KI-OberflächeKI bezieht Inhalte der Seite plus Webinfos in ihre...

Salesforce testet KI-Agenten: Wo sie scheitern und wo sie glänzen

In Kürze

Salesforce und der neue CRMArena-Pro Test

Ergebnisse des Tests

Kritische Punkte der aktuellen KI-Systeme

Abhängigkeit von der Art der Aufgaben

Notwendigkeit der Weiterentwicklung

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

Gefälschte Röntgenbilder: Radiolog:innen und KI erkennen Deepfakes oft nicht

Canva AI 2.0 macht KI zur zentralen Schaltstelle für Design-Workflows

Google bringt Webseiten neben KI-Antworten in Chrome

Über uns

Dein Thema?

Pickert GmbH