Inclusion Arena: KI-Modelle im echten Test – Wer gewinnt?

Die Plattform „Inclusion Arena“

Die Plattform „Inclusion Arena“ bringt frischen Wind in die Welt der Sprachmodelle. Hier kannst du die Leistung von KI-Tools wie ChatGPT oder Claude in echten Nutzungssituationen testen – und das ganz ohne die typischen Labortests. Stattdessen greift die Plattform auf Daten aus realen Anwendungsfällen zurück, wie etwa Chats für Rollenspiele oder Bildungs-Apps. Das Besondere: Nutzer vergleichen die Antworten der KI-Modelle anonym, ohne zu wissen, welches Modell dahintersteckt. So entsteht ein Live-Ranking der beliebtesten Modelle.

Testphase und Nutzerbeteiligung

In der Testphase hat die Inclusion Arena bereits über 500.000 Vergleiche durchgeführt, an denen mehr als 46.000 Nutzer beteiligt waren. Dabei traten 49 verschiedene Modelle gegeneinander an. Um die Stärke der Modelle in direkten Duellen zu bewerten, wird das Bradley-Terry-Modell verwendet, das ähnlich wie ein Schachranking funktioniert. Neue Teilnehmer werden zunächst in sogenannten Placement Matches eingereiht, um die Rechenleistung optimal zu nutzen und stabile Ergebnisse zu erzielen.

Ergebnisse und Zukunftspläne

Die ersten Ergebnisse zeigen, dass bekannte Modelle von Unternehmen wie Anthropic und Alibaba stark abschneiden. Aktuell ist die Plattform zwar noch auf einige wenige Apps beschränkt, doch es gibt bereits Pläne zur Erweiterung, um eine breitere Abdeckung zu erreichen. Diese praxisnahen Ergebnisse sind besonders interessant für Unternehmen, die Large Language Models (LLMs) in ihren Produkten einsetzen möchten. Sie spiegeln reale Nutzerpräferenzen wider und bieten somit eine wertvolle Entscheidungsgrundlage.

Quellen

Quelle: Inclusion Arena

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

Australien warnt Banken: KI nicht für Verdachtsmeldungen missbrauchen

Dez. 26, 2025 | Allgemein, KI

Die australische Finanzaufsicht Austrac mahnt Banken zur Vorsicht beim Einsatz von KI für Verdachtsmeldungen.In KürzeAustrac warnt vor Überflutung irrelevanter DatenQualität der Berichte wichtiger als QuantitätModerne Sprachmodelle könnten gefährliche Fehler...

Nvidia Cosmos: KI versteht die Welt in 3D

Dez. 26, 2025 | Allgemein, KI

Die nächste Generation der KI bringt bahnbrechende Entwicklungen mit sich, die das Verständnis von physikalischen Vorgängen revolutionieren.In KürzeNvidia präsentiert „Cosmos“ für 3D-SimulationenRoboter lernen, physikalische Reaktionen eigenständig zu antizipierenMeta...

OpenAI präsentiert Hazelnuts: ChatGPT wird zum vielseitigen digitalen Assistenten

Dez. 26, 2025 | Allgemein, KI

OpenAI hat mit Hazelnuts ein neues Projekt gestartet, das ChatGPT revolutionieren könnte.In KürzeEinführung von 'Skills' für komplexe AufgabenModulare Struktur für bessere Software-IntegrationTestphase für alle Nutzer in Planung OpenAI's New Project: Hazelnuts OpenAI...

Inclusion Arena: KI-Modelle im echten Test – Wer gewinnt?

In Kürze

Die Plattform „Inclusion Arena“

Testphase und Nutzerbeteiligung

Ergebnisse und Zukunftspläne

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

Australien warnt Banken: KI nicht für Verdachtsmeldungen missbrauchen

Nvidia Cosmos: KI versteht die Welt in 3D

OpenAI präsentiert Hazelnuts: ChatGPT wird zum vielseitigen digitalen Assistenten

Über uns

Dein Thema?

Pickert GmbH