Lokale KI macht deine PDFs durchsuchbar und gibt Antworten aus eigenen Dateien.
In Kürze
- PDF→Markdown→Embeddings→RAG
- Windows mit Open WebUI & Docker; GPU empfohlen
- Test: passende, quellenbasierte Antworten
Du hast Berge von Handbüchern, Kontoauszügen und eigenen Notizen auf dem Rechner, aber das eine passende Dokument zu einer konkreten Frage zu finden, dauert ewig? Ein aktueller Praxisbericht zeigt, wie du mit einer lokalen KI deine Dateien durchsuchbar machst und Antworten direkt aus deinen eigenen Dokumenten ziehen kannst.
Wie die Technik funktioniert
Im Kern läuft das Setup über Retrieval Augmented Generation (RAG): Zuerst sucht die KI relevante Passagen in deinen Dokumenten, danach formuliert ein Sprachmodell (LLM) daraus eine Antwort. Weil die Suche auf deinen Dateien statt auf einem riesigen externen Wissensspeicher erfolgt, bleiben die Daten lokal und die Wahrscheinlichkeit für frei erfundene Antworten sinkt. Entscheidend sind dabei Embeddings — Vektoren, die Text in Zahlen übersetzen, damit die KI schnell ähnliche oder relevante Textstellen findet. PDFs werden vorher in ein einfaches Textformat (Markdown) umgewandelt, damit die Verarbeitung sauber läuft.
Für Rechenaufwand empfiehlt sich eine GPU, die KI-Berechnungen deutlich beschleunigt.
Was konkret gezeigt wird
Der Artikel liefert eine Schritt-für-Schritt-Anleitung, wie du RAG lokal unter Windows aufsetzt — kostenlos mit Open WebUI. Ein Extraktions-Tool wandelt PDFs in Markdown um, danach erstellt ein Embedding-Modell Vektoren aus dem Text und speichert sie in einer Datenbank. Anschließend beantwortet das LLM Fragen, indem es zuerst relevante Textstellen abruft und dann die Antwort formuliert.
- PDFs in Markdown umwandeln (Extraktions-Tool)
- Embedding-Modell erzeugt Vektoren aus dem Text
- Vektoren in einer Datenbank speichern (Retrieval)
- LLM ruft relevante Textstellen ab und formuliert die Antwort
Im Praxistest wurden drei Bedienungsanleitungen als PDFs hochgeladen. Zu jedem Dokument stellte das System je eine Frage — und das Modell lieferte jeweils passende Antworten, die sich auf die gefundenen Textstellen stützten. Außerdem enthält der Bericht praktische Konfigurationstipps, mit denen sich die Trefferquote der Suche verbessern lässt, sowie Hinweise, wie du deutsche Texte besser verarbeitest und welche typischen Anfangsfehler häufig auftreten.
Technische Voraussetzungen
Getestet wurde das Setup auf Windows 11 mit Docker, Open WebUI Version 0.7.2 und Ollama als Lokalsystem. Empfohlen wird eine Grafikkarte mit mindestens 16 GByte RAM — idealerweise von Nvidia, da viele Modelle dort besonders performant laufen. Auch eine kräftige CPU hilft, insbesondere beim Vorverarbeiten großer Dokumentenmengen.
- Getestete Umgebung: Windows 11 mit Docker, Open WebUI 0.7.2, Ollama
- Empfohlene GPU: mindestens 16 GByte RAM (ideal: Nvidia)
- Starke CPU empfohlen für Vorverarbeitung großer Dokumentenmengen
- Als Testmaschine: privater PC mit AMD Ryzen 7 9800X3D und einer Nvidia 3090 mit 24 GByte Speicher
Kurz und praktisch
- PDF → Markdown
- Markdown → Embeddings/Vektoren
- Retrieval (relevante Textstellen abrufen)
- LLM-Antwort (Antwort aus den abgerufenen Stellen formulieren)
Wer die beschriebenen Komponenten installiert und die empfohlenen Einstellungen nutzt, kann seine eigenen Dokumente lokal durchsuchbar machen und Antworten direkt aus den eigenen Dateien erhalten.
Quellen
- Quelle: Open WebUI / Ollama
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




