Eine neue Studie der Johns Hopkins University beleuchtet, wie zusätzliche Rechenzeit die Leistung von KI-Systemen beeinflusst.
In Kürze
- Zusätzliche Rechenzeit führt zu genaueren Antworten und besserem Selbstbewusstsein der KI.
- Vergleich von KI-Modellen in verschiedenen Risikosituationen zeigt signifikante Unterschiede.
- Die Methode zur Einschätzung der Zuverlässigkeit hat ihre Grenzen und sollte weiter untersucht werden.
Untersuchung der Johns Hopkins University zur Rechenzeit von KI-Systemen
Eine aktuelle Studie der Johns Hopkins University untersucht, wie sich zusätzliche Rechenzeit auf die Leistung von KI-Systemen auswirkt. Die Forscher haben ein neues Bewertungssystem entwickelt, das bestehende Schwächen in der Beurteilung von KI-Modellen adressiert. Ein zentrales Problem herkömmlicher Methoden besteht darin, dass KI oft gezwungen ist, eine Antwort zu liefern, unabhängig davon, wie sicher sie sich ist. Dies kann in kritischen Situationen zu problematischen Ergebnissen führen, wenn falsche Antworten erhebliche Folgen haben können.
Test von KI-Modellen mit variierender Rechenzeit
In der Untersuchung wurden zwei KI-Modelle mit mathematischen Aufgaben getestet, wobei die zur Verfügung stehende Rechenzeit variiert wurde. Die Ergebnisse zeigen, dass mehr Zeit den Modellen nicht nur hilft, genauere Antworten zu geben, sondern auch besser einzuschätzen, wann sie lieber keine Antwort liefern sollten. Sie entwickeln ein besseres Gespür für ihre eigenen Grenzen und zeigen bei sicheren Antworten mehr Selbstbewusstsein.
Vergleich in verschiedenen Risikosituationen
Besonders aufschlussreich ist der Vergleich der beiden Modelle in verschiedenen Risikosituationen. Die Forscher untersuchten Szenarien ohne Strafen für falsche Antworten sowie solche mit hohen Strafen für Fehler, wie sie in kritischen Kontexten vorkommen könnten. In diesem Zusammenhang schnitt das Modell DeepSeek R1-32B unter strengeren Bedingungen besonders gut ab.
Einschränkungen der Studie
Die Studie weist jedoch darauf hin, dass die Methode zur Einschätzung der Zuverlässigkeit der Antworten auf bestimmten Annahmen basiert und nicht alle Unsicherheiten der Modelle abdeckt. Zudem wurden die Tests in englischer Sprache und mit mathematischen Aufgaben durchgeführt, was bedeutet, dass die Ergebnisse nicht ohne Weiteres auf andere Bereiche übertragbar sind.
Empfehlungen für zukünftige Arbeiten
Die Forscher empfehlen, zukünftige Arbeiten sowohl in Testszenarien ohne Strafen als auch in solchen mit gewichteten Strafen durchzuführen. So können Entwickler ein besseres Verständnis für das Verhalten ihrer Systeme in unterschiedlichen Risikokontexten erlangen.
Quellen
- Quelle: Johns Hopkins University
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.