XUGS 29: Chance für Verlage ‒ KI-Agents und warum XML der Schlüssel ist

Ein KI-generiertes Bild mit einem orangen Octopus, der eine Brille trägt.

Wir laden hiermit herzlich alle Interessierten zur nächsten Veranstaltung der XML User Group Stuttgart ein, welche am

Mittwoch, den 30. April 2025
von 18:00 Uhr bis 20:00 Uhr
in den Räumen des MSH Medien System Haus
im Pressehaus Stuttgart (6. Stock, Anfahrtsbeschreibung hier)
Plieninger Str. 150, Stuttgart-Möhringen

stattfinden wird. Dies wird die erste Präsenzveranstaltung der XUGS seit Corona sein. Wir hoffen auf viele persönliche Kontakte vor Ort. (Und wer über den Fachvortrag hinaus gerne noch etwas weiter netzwerken möchte: Wir werden auch nach einer Möglichkeit suchen, wo wir nach dem Ende des offiziellen Teils noch auf ein Getränk oder einen Snack einkehren können.)

Nun aber endlich zum Inhalt: Wir freuen uns, dass Manuel Montera Pineda, Geschäftsführer von data2type in Heidelberg und Vater des XML-Periodensystems uns über seine Erfahrungen an der Schnittstelle von XML und Künstlicher Intelligenz berichten wird. Hier sein Ankündigungstext:

Im Fokus steht die Rolle strukturierter Inhalte für KI-Systeme – insbesondere für Retrieval-Augmented-Generation (RAG). In vielen aktuellen Projekten zeigt sich deutlich: Die Qualität von KI-Antworten hängt entscheidend davon ab, wie strukturiert die zugrunde liegenden Inhalte sind.

Doch während viele Anbieter nach wie vor auf PDF setzen, ist dieses Format faktisch nicht strukturiert. Üblicherweise wird daraus Plain Text extrahiert und in sogenannte Chunks zerlegt – dabei gehen jedoch zentrale Informationen verloren: Verweise, Tabellen, Hierarchien, semantische Markierungen. Die Auswirkungen auf die Antwortqualität sind erheblich.

Im Vortrag zeige ich, warum es XML braucht, um wirklich medienneutral – oder besser gesagt LLM-neutral – zu publizieren. Denn ohne Struktur keine Kontexttiefe, keine Nachvollziehbarkeit und keine Präzision. Die Lösung ist – wie so oft – XML. Und XSLT wird dabei zur Schlüsseltechnologie, um Inhalte gezielt in KI-fähige Formate zu überführen.

Kurz gesagt: Die Zukunft braucht neue Formate für Chunks – und XML ist der Ausgangspunkt dafür.

Die Chance für Verlage: Qualität statt geplapper.

Nachlese XUGS 28: Octopus-Framework

Am gestrigen 10. April 2024 hat uns Manuel Montera Pineda von data2type das neue Octopus-Framework zum Konvertieren und Anreichern von Dokumenten vorgestellt. Die aktuell bereits mögliche Ausführung von ca. 500 Konvertierungsstrecken mit unterschiedlichen Ein- und Ausgabeformaten soll in den kommenden Monaten und Jahren auf deutlich über 1000 anwachsen. Als Eingabeformate kommen nicht nur bereits getaggte Dokumente in Frage, sondern auch unstrukturiertere Inhalte wie etwa aus PDF-Dateien.

Manuel Montero Pineda stößt die Octopus-Transformation einer PDF-Datei der Bundesregierung auf der Kommandozeile an

Neben dem Taggen von typischen Textbereichen wie Überschriften, Absätzen, Tabellen und Fußnoten werden auch interne Verweise erkannt und verlinkt und Grafiken als solche übernommen und eingebettet. Octopus lässt sich sowohl über eine Kommandozeile bedienen als auch – zukünftig – über einen Webservice anstoßen. Außerdem hat Manuel Montero auch schon eine KI-gestützte Chat-Schnittstelle präsentieren können, welche ausschließlich mit dem kuratierten Schulungsmaterial von data2type gefüttert wurde und somit auch qualitative Antworten rund um alle X-Technologien liefert.

Eine Octopus-Ausgabe (PDF nach DocBook)

Weitere Infos zum Nachlesen über octopus gibt’s auf der datat2type-Homepage unter https://www.data2type.de/software/octopus-xml-framework; für die Freundinnen und Freunde des persönlichen Austauschs per Webkonferenz gibt es außerdem gute Nachrichten: XUGS 28 war nur der Auftakt einer ganzen Vortragsserie. Der nächste Termin, in dem es um die Eingabeformate gehen wird, welche Octopus verarbeiten kann, wird am 29.04.2024 von 18-19 Uhr stattfinden, zwei weitere Termine sind geplant. Nähere Infos dazu finden sich auf der data2type-Homepage.

Und last but not least wurde die gestrige Sitzung aufgezeichnet und kann hier angeschaut werden:

https://drive.google.com/file/d/1uyIBliHGAme6uJ0or5F4hz47iKtQez78/view