Salesforce hat einen Test gestartet, der die Leistung von KI-Agenten in realen Geschäftssituationen analysiert.
In Kürze
- Gemini 2.5 Pro erreicht nur 35% Erfolgsquote bei komplexen Dialogen
- Datenschutz bleibt eine große Herausforderung für KI-Systeme
- KI-Modelle müssen in Dialogführung und Datenschutz verbessert werden
Salesforce und der neue CRMArena-Pro Test
Salesforce hat mit CRMArena-Pro einen neuen Test ins Leben gerufen, der die Leistungsfähigkeit von KI-Agenten in realen Geschäftssituationen unter die Lupe nimmt. Dabei liegt der Fokus besonders auf komplexen Gesprächsverläufen und dem sensiblen Thema Datenschutz.
Ergebnisse des Tests
Die Ergebnisse sind aufschlussreich: Während fortschrittliche Modelle wie Gemini 2.5 Pro bei einfachen Aufgaben eine Erfolgsquote von 58 Prozent erreichen, fällt diese bei längeren Dialogen auf alarmierende 35 Prozent. Ein zentrales Problem scheint zu sein, dass diese KI-Modelle oft nicht die richtigen Fragen stellen, um fehlende Informationen zu erlangen.
Kritische Punkte der aktuellen KI-Systeme
Ein weiterer kritischer Punkt, der aus dem Test hervorgeht, ist die mangelhafte Fähigkeit aktueller KI-Systeme, sensible Daten wie persönliche Informationen zu erkennen und zu schützen. Dies deutet auf ein unzureichendes Bewusstsein für Datenschutz hin. Interessanterweise verbessert sich die Erkennungsrate solcher Daten erst durch spezielle Anpassungen, die auf Datenschutzrichtlinien hinweisen. Allerdings hat dies zur Folge, dass die allgemeine Leistung der KI darunter leidet.
Abhängigkeit von der Art der Aufgaben
Die Untersuchung zeigt zudem, dass die Fähigkeiten der KI-Modelle stark von der Art der Aufgaben abhängen. Während sie bei der automatisierten Fallbearbeitung im Kundenservice oft recht erfolgreich sind, hapert es bei komplexeren Aufgaben, die ein tiefergehendes Textverständnis oder das Erkennen ungültiger Konfigurationen erfordern.
Notwendigkeit der Weiterentwicklung
Diese Erkenntnisse verdeutlichen, dass es dringend notwendig ist, KI-Modelle weiterzuentwickeln, insbesondere in den Bereichen Dialogführung und Datenschutz.
Quellen
- Quelle: Salesforce
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.