Vortrag: Verlust strukturierter Informationen bei der Konvertierung in Plain Text und deren Auswirkungen auf RAG-Systeme

Abstract

Retrieval-Augmented-Generation (RAG)-Systeme benötigen strukturierte Daten, um kontextgenaue Antworten zu liefern. Doch bei der Umwandlung von Formaten wie PDF oder XML in Plain Text gehen zentrale Informationen wie Tabellen, Verweise und semantische Strukturen verloren – mit deutlichen Folgen für die Antwortqualität. Der Vortrag präsentiert eine systematische Analyse dieses Informationsverlusts anhand eines eigens erstellten Testdokuments, das von mehreren RAG-Systemen verarbeitet wurde. Die Ergebnisse zeigen: Struktur zählt. Abschließend wird die Octopus-Plattform live demonstriert – eine Lösung zur automatisierten Extraktion strukturierter Inhalte aus PDFs, die RAG-Systeme mit qualitativ hochwertigen Daten versorgt.

https://octopus-service.de

Manuel Montero Pineda, data2type

Manuel Montero

Manuel Montero Pineda ist ein erfahrener Spezialist im Bereich XML mit umfassendem Wissen in XSLT, XSD, XSL-FO und weiteren XML-Technologien. Als Gründer und Geschäftsführer der data2type GmbH hat er sich auf die Entwicklung von XML-Lösungen spezialisiert. Zudem verfügt er über fundierte Expertise in der Entwicklung und Integration von KI-Lösungen, insbesondere im Rahmen des octopus service, der in Zusammenarbeit mit der parsqube GmbH entwickelt wurde.