Blog24.06.20267 minSteffen Göttle

Unser RAG bekommt Augen: Warum HIVE jetzt auch visuell sucht

HIVE ergänzt die klassische RAG-Suche um eine visuelle Spur. Scans, Fotos, Screenshots und Tabellenbilder werden als Quellen behandelt, damit Antworten auch bei schwierigen Dokumenten prüfbar bleiben.

RAG-Systeme konnten lange vor allem eines: Text finden. Ein PDF kommt hinein, der Text wird erschlossen, passende Stellen werden gesucht und daraus entsteht eine Antwort. Bei Haushaltsplänen, Satzungen, Protokollen und Beschlussvorlagen funktioniert das oft gut, solange die Datei sauberen Text enthält.

In der Praxis landet aber selten nur perfektes Material in einem Wissenssystem. Verwaltungen und Unternehmen arbeiten mit Scans, Fotos, Screenshots, Formularen, Stempeln, Tabellen und alten PDFs. Manche Seiten wurden geknickt, schräg fotografiert oder durch ein Fachverfahren exportiert, das nie für KI gedacht war.

Klassisches RAG behandelt solche Dateien zuerst als Textproblem. Die Texterkennung versucht Zeichen zu lesen. Gelingt das, bekommt das System eine gute Grundlage. Scheitert es, entstehen Artefakte: Wörter, die nie im Dokument standen, Tabellen ohne Struktur und Quellen, die als Beleg kaum taugen.

HIVE setzt deshalb bei der Quelle selbst an. Hybrid Visual betrachtet schwierige Dokumente nicht nur als Text, sondern auch als sichtbare Seiten, Ausschnitte und Layouts. VisualRAG ergänzt die Suche dort, wo der Sinn im Bild steckt.

Der wichtigste Punkt: Bilder bleiben in HIVE nicht nur Anhänge. Ein Foto, ein Screenshot oder ein Scan kann selbst zur Quelle werden. Man kann dazu Fragen stellen und die Antwort später am sichtbaren Ausschnitt prüfen.

Ein Team soll nicht jedes Alt-PDF reparieren, jedes Formular neu erfassen oder jeden Screenshot beschreiben müssen, bevor Wissen nutzbar wird. HIVE soll mit dem Material arbeiten, das im Alltag vorhanden ist, und dabei zeigen, woher eine Antwort kommt.

Text und Bilder arbeiten zusammen

HIVE verbindet klassische Textarbeit mit Quellenprüfung. Diese Basis bleibt, weil Text dort stark ist, wo Dokumente sauber strukturiert vorliegen.

Hybrid Visual ergänzt diese Arbeit für Dokumente, bei denen Layout, Bildinhalt oder Scanqualität den Sinn tragen. Ein Screenshot ist kein schlechter PDF-Text. Ein Foto eines Formulars ist kein kaputtes Textdokument. Beides sind Bilder mit Struktur, räumlichen Beziehungen und sichtbaren Hinweisen.

HIVE liest Dokumente weiter. Bei Bedarf betrachtet es die Seite zusätzlich als Bild. Und wenn die Quelle ein Bild ist, bleibt genau dieses Bild als Quelle nachvollziehbar.

Scans brauchen Vorarbeit

Beim Import behandelt HIVE Fotos, Screenshots und schwer lesbare PDFs vorsichtiger als normale Textdateien. Es geht nicht darum, aus jedem Bild sofort perfekten Text zu machen. Entscheidend ist, dass sichtbare Hinweise erhalten bleiben und später als Quelle überprüft werden können.

Ein geknicktes Dokument mit Schatten wird für Texterkennung schnell schwierig. Ohne zusätzliche Sicht auf die Seite entstehen schnell Wörter, die nie im Dokument standen. Das Ergebnis wirkt umfangreich, trägt aber wenig belastbaren Inhalt.

Hybrid Visual hilft HIVE, solche Fälle nicht vorschnell als sauberen Text zu behandeln. Das System soll erkennen, wann eine sichtbare Stelle wichtiger ist als eine unsichere Abschrift.

VisualRAG findet sichtbare Belege

Die visuelle Suche in HIVE nutzt VisualRAG als zusätzliche Perspektive. Die bestehende HIVE-Suche findet weiterhin passende Textstellen. VisualRAG kann zusätzlich sichtbare Bereiche finden: eine Tabellenzeile, ein Feld in einem Formular, einen Ausschnitt aus einem Screenshot oder eine Stelle in einem Foto.

Diese Treffer enthalten nicht nur einen Dateinamen. HIVE kann später zeigen, welcher sichtbare Bereich eine Antwort stützt.

Das verändert die Nutzung. Ein Team kann ein Foto, eine Tabellenansicht, eine Skizze oder einen Screenshot in die Wissensbasis legen und später danach fragen. HIVE behandelt das Bild dann nicht nur als Datei, sondern als prüfbare Quelle.

Wer eine Antwort prüft, sieht nicht nur die Datei, sondern den relevanten Ausschnitt. Gerade bei Scans, Fotos und Screenshots liegt die Belegstelle oft nicht als sauberer Text vor. HIVE kann dann zeigen, worauf sich die Aussage stützt.

Die Recherche wird prüfbarer

VisualRAG macht die Arbeit mit schwierigen Dokumenten brauchbarer. Gerade dort, wo Organisationen viele gewachsene Ablagen besitzen, zählt nicht die perfekte Demo-Datei. Entscheidend ist, ob eine echte Akte noch zuverlässig erschlossen werden kann.

Bilder werden recherchierbar: Fotos, Screenshots und Scans können Teil der Wissensbasis werden und später als Quelle dienen.
Vorhandene Dokumente werden nutzbar: Scans, Fotos und Screenshots müssen nicht vollständig neu aufbereitet werden, bevor HIVE sie recherchierbar macht.
Antworten lassen sich besser prüfen: HIVE nennt nicht nur eine Quelle, sondern zeigt den sichtbaren Bereich, auf dem eine Aussage beruht.
Fehler fallen früher auf: Schlechte Texterkennung wird nicht automatisch als verlässlicher Inhalt behandelt.
Tabellen und Formulare behalten ihre Struktur: HIVE berücksichtigt Zeilen, Felder, Labels und räumliche Beziehungen zusätzlich zur reinen Texterkennung.
Teams sparen Umwege: Wer eine Antwort bekommt, springt direkt zur relevanten Stelle, statt das komplette PDF oder den ganzen Screenshot selbst abzusuchen.

Für Verwaltungen und Unternehmen rückt HIVE damit näher an echte Dokumentenarbeit heran. Es behandelt Wissen nicht nur als Textstrom, sondern als belegbare Information in Dateien, Seiten und sichtbaren Ausschnitten.

Vision braucht Grenzen

Visuelle KI kann Bild und Layout interpretieren. Sie erkennt Überschriften, Labels, Formularfelder, Tabellenstrukturen und sichtbare Werte in räumlichem Zusammenhang. Das ist eine andere Aufgabe als reine Texterkennung.

Diese Fähigkeit braucht Grenzen. Kleine Zahlen können falsch gelesen werden. Tabellenverläufe können missverständlich sein. Schlechte Bildqualität kann zu einer plausiblen, aber falschen Deutung führen.

Darum bleibt HIVE vorsichtig. Antworten sollen nicht nur plausibel klingen. Sie brauchen belegbare Stellen, die ein Mensch öffnen und prüfen kann.

HIVE soll nicht so tun, als sei jede sichtbare Stelle automatisch eindeutig. Es soll erkennen, wann Text allein zu wenig Grundlage liefert.

Warum das für Verwaltungen zählt

Verwaltungen besitzen Wissen selten in einer idealen KI-Form. Informationen liegen in Akten, Scans, Fachverfahren, Tabellen, E-Mails, Anhängen, alten PDFs, Screenshots und Formularen. Wer nur saubere Textdokumente verarbeitet, baut eine gute Demo. Wer echte Verwaltungsarbeit unterstützt, muss mit dem vorhandenen Material umgehen.

Hybrid Visual ist deshalb ein Baustein für echte Dokumentenarbeit und für Teams, die mit genau diesen Dokumenten arbeiten müssen.

Wenn HIVE ein Foto eines Formulars bekommt, soll daraus kein Zeichensalat werden. Wenn ein Screenshot eine Fachanwendung zeigt, soll der sichtbare Zusammenhang erhalten bleiben. Wenn eine Quelle visuell ist, soll HIVE später im Chat den prüfbaren Ausschnitt zeigen. Das reduziert manuelle Nachsuche und macht Aussagen belastbarer.

Für OAKMIND bleibt dabei ein Punkt zentral: Diese Verarbeitung gehört in kontrollierbare Infrastruktur. Dokumente und sichtbare Quellen müssen dort bleiben können, wo die Organisation ihre Daten verantwortet. Für Verwaltungen ist das eine Frage von Datenschutz, Nachvollziehbarkeit und Souveränität.

Was HIVE daraus macht

Der aktuelle Stand ist bewusst pragmatisch. Text wird genutzt, wenn Text zuverlässig ist. Visuelle Hinweise helfen dort, wo Layout, Bildinhalt oder schlechte Scanqualität den Ausschlag geben.

VisualRAG ergänzt HIVE dort, wo eine Antwort auf sichtbaren Bereichen beruht.

Damit wird HIVE vom Chat über Dokumente zum Arbeitssystem für Dokumente. Bilder sind dabei nicht Dekoration und nicht nur Anhang. Sie können Quellen sein, mit denen Teams arbeiten, suchen und prüfen.

Unser RAG bekommt Augen. Gemeint ist eine technische Antwort auf Dokumente, die nie als sauberer Text vorlagen.