Voice‑Agent statt Take‑Home: KI prüft Studierende und deckt Lücken auf

05.01.2026 | Allgemein, KI

Voice‑Agent prüft mündlich statt Take‑Home: echte Verständnislücken werden sichtbar.

In Kürze

  • 36 Stud., rund 25 Min pro Prüfung
  • Gesamtkosten: 15 USD
  • KI‑Modelle erreichten nach Austausch 60% Übereinstimmung

Panos Ipeirotis, Professor an der NYU Stern School of Business, hat in einem Kurs zur Produktentwicklung mit KI die üblichen Take‑Home‑Aufgaben gegen mündliche Prüfungen mit einem Voice‑AI‑Agenten eingetauscht. Der Anlass: Viele eingereichte Arbeiten wirkten so poliert, dass Ipeirotis bezweifelte, dass Studierende sie wirklich verstanden hatten.

Wie die Prüfung funktionierte

Über neun Tage wurden 36 Studierende jeweils rund 25 Minuten mündlich geprüft. Die Prüfung war in zwei Teile gegliedert:

  • Teil 1: Verteidigung des eigenen Abschlussprojekts — Ziele, Daten, Modellentscheidungen, Evaluationen und Fehlerfälle.
  • Teil 2: Fragen zu einem der im Kurs behandelten Fälle.

Der Interviewer war kein Mensch, sondern ein Voice‑Agent: die Sprachsynthese kam von ElevenLabs, die Bewertung übernahmen große Sprachmodelle (Claude, Gemini, ChatGPT) in Kombination.

Kostenseite und Zeitaufwand

Die Technik blieb überraschend günstig: Gesamtkosten lagen bei 15 US‑Dollar (etwa 0,42 $ pro Studierendem). Ipeirotis nennt die Aufschlüsselung:

  • ~8 $ für Claude
  • 2 $ für Gemini
  • 0,30 $ für OpenAI
  • 5 $ für ElevenLabs

Hätte man die Prüfungen von studentischen Hilfskräften (ca. 25 $/Std.) durchführen lassen, wären es für die 36 Studierenden ungefähr 750 $ gewesen.

Bewertung per „Council of LLMs“

Zur Beurteilung nutzte Ipeirotis einen sogenannten „Council of LLMs“-Ansatz: Drei Modelle bewerteten unabhängig, sahen anschließend die Bewertungen der anderen und konnten ihre Note anpassen.

  • Anfangs lagen die Modelle deutlich auseinander — Gemini gab im Schnitt 17/20, Claude 13,4/20.
  • Nach dem Austausch stimmten 60 % der Bewertungen innerhalb eines Punkts überein, 29 % sogar exakt.
  • Das automatische Feedback war sehr strukturiert und enthielt wörtliche Zitate aus den Gesprächen; laut Ipeirotis erzeugte das oft präzisere Rückmeldungen als menschliche Bewerter.

Stress, Akzeptanz und technische Macken

Die Studierenden nahmen das Format ambivalent auf: 83 % empfanden die KI‑Prüfung als stressiger als eine schriftliche Klausur, nur 13 % bevorzugten das neue Format. Zugleich meinten 70 %, dass die Prüfung ihr echtes Verständnis prüfte.

Technisch und operativ traten Probleme auf:

  • Die synthetische Stimme — geklont von einem Kollegen — wurde von manchen als einschüchternd oder herablassend empfunden.
  • Der Agent stellte mitunter mehrere Fragen gleichzeitig, paraphrasierte statt wortgetreu zu wiederholen und füllte Denkpausen recht schnell auf.
  • Die angebliche Zufallsauswahl der Fälle funktionierte nicht sauber: Ein Fall („Zillow“) tauchte viel häufiger auf (etwa 88 %).
  • Ipeirotis führt das auf Verzerrungen in den Trainingsdaten zurück — ein Modell „zufällig“ wählen zu lassen, ist offenbar nicht wirklich zufällig.

Was die Prüfungen über die Lehre zeigten

Die mündlichen Prüfungen legten offen, dass viele Studierende ihre schriftlichen Arbeiten nicht plausibel erklären konnten. Die Diskrepanz zwischen schriftlicher Einreichung und mündlicher Verteidigung war so konsistent, dass sie kaum allein mit Prüfungsangst erklärt werden kann.

Die Detailauswertung offenbarte zudem konkrete Lehrlücken:

  • Beim Thema „Experimentation“ erreichten Studierende im Schnitt nur 1,94 von 4 Punkten.
  • Bei „Problem Framing“ dagegen 3,39.

Auffällig war außerdem, dass die Prüfungsdauer kaum mit der Note korrelierte — sehr kurze Prüfungen konnten genauso gute Noten bringen wie längere nur mittelmäßige.

Was nun?

Ipeirotis zieht daraus, dass klassische Take‑Home‑Aufgaben allein nicht mehr zuverlässig abbilden, ob Studierende Inhalte wirklich verstanden haben — KI kann Antworten liefern, ohne dass Lernende die Konzepte erklären. Mündliche Prüfungen zwingen zu Echtzeit‑Verteidigung, sind aber bei größeren Kursen schwer mit Menschen zu skalieren. KI‑gestützte mündliche Prüfungen könnten hier eine praktikable Antwort sein: Sie lassen sich automatisieren, erzeugen Fragen neu und reduzieren das Risiko, dass Prüfungsfragen im Vorfeld durchsickern.

Die eingesetzten Prompts und eine Demo des Voice‑Agenten hat Ipeirotis veröffentlicht, sodass Lehrende und Forschende die Methode nachvollziehen oder selbst testen können.

Quellen

  • Quelle: Panos Ipeirotis / NYU Stern School of Business
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…