XUGS 29: Chance für Verlage ‒ KI-Agents und warum XML der Schlüssel ist

Ein KI-generiertes Bild mit einem orangen Octopus, der eine Brille trägt.

Wir laden hiermit herzlich alle Interessierten zur nächsten Veranstaltung der XML User Group Stuttgart ein, welche am

Mittwoch, den 30. April 2025
von 18:00 Uhr bis 20:00 Uhr
in den Räumen des MSH Medien System Haus
im Pressehaus Stuttgart (6. Stock, Anfahrtsbeschreibung hier)
Plieninger Str. 150, Stuttgart-Möhringen

stattfinden wird. Dies wird die erste Präsenzveranstaltung der XUGS seit Corona sein. Wir hoffen auf viele persönliche Kontakte vor Ort. (Und wer über den Fachvortrag hinaus gerne noch etwas weiter netzwerken möchte: Wir werden auch nach einer Möglichkeit suchen, wo wir nach dem Ende des offiziellen Teils noch auf ein Getränk oder einen Snack einkehren können.)

Nun aber endlich zum Inhalt: Wir freuen uns, dass Manuel Montera Pineda, Geschäftsführer von data2type in Heidelberg und Vater des XML-Periodensystems uns über seine Erfahrungen an der Schnittstelle von XML und Künstlicher Intelligenz berichten wird. Hier sein Ankündigungstext:

Im Fokus steht die Rolle strukturierter Inhalte für KI-Systeme – insbesondere für Retrieval-Augmented-Generation (RAG). In vielen aktuellen Projekten zeigt sich deutlich: Die Qualität von KI-Antworten hängt entscheidend davon ab, wie strukturiert die zugrunde liegenden Inhalte sind.

Doch während viele Anbieter nach wie vor auf PDF setzen, ist dieses Format faktisch nicht strukturiert. Üblicherweise wird daraus Plain Text extrahiert und in sogenannte Chunks zerlegt – dabei gehen jedoch zentrale Informationen verloren: Verweise, Tabellen, Hierarchien, semantische Markierungen. Die Auswirkungen auf die Antwortqualität sind erheblich.

Im Vortrag zeige ich, warum es XML braucht, um wirklich medienneutral – oder besser gesagt LLM-neutral – zu publizieren. Denn ohne Struktur keine Kontexttiefe, keine Nachvollziehbarkeit und keine Präzision. Die Lösung ist – wie so oft – XML. Und XSLT wird dabei zur Schlüsseltechnologie, um Inhalte gezielt in KI-fähige Formate zu überführen.

Kurz gesagt: Die Zukunft braucht neue Formate für Chunks – und XML ist der Ausgangspunkt dafür.

Die Chance für Verlage: Qualität statt geplapper.

Nachlese XUGS 28: Octopus-Framework

Am gestrigen 10. April 2024 hat uns Manuel Montera Pineda von data2type das neue Octopus-Framework zum Konvertieren und Anreichern von Dokumenten vorgestellt. Die aktuell bereits mögliche Ausführung von ca. 500 Konvertierungsstrecken mit unterschiedlichen Ein- und Ausgabeformaten soll in den kommenden Monaten und Jahren auf deutlich über 1000 anwachsen. Als Eingabeformate kommen nicht nur bereits getaggte Dokumente in Frage, sondern auch unstrukturiertere Inhalte wie etwa aus PDF-Dateien.

Manuel Montero Pineda stößt die Octopus-Transformation einer PDF-Datei der Bundesregierung auf der Kommandozeile an

Neben dem Taggen von typischen Textbereichen wie Überschriften, Absätzen, Tabellen und Fußnoten werden auch interne Verweise erkannt und verlinkt und Grafiken als solche übernommen und eingebettet. Octopus lässt sich sowohl über eine Kommandozeile bedienen als auch – zukünftig – über einen Webservice anstoßen. Außerdem hat Manuel Montero auch schon eine KI-gestützte Chat-Schnittstelle präsentieren können, welche ausschließlich mit dem kuratierten Schulungsmaterial von data2type gefüttert wurde und somit auch qualitative Antworten rund um alle X-Technologien liefert.

Eine Octopus-Ausgabe (PDF nach DocBook)

Weitere Infos zum Nachlesen über octopus gibt’s auf der datat2type-Homepage unter https://www.data2type.de/software/octopus-xml-framework; für die Freundinnen und Freunde des persönlichen Austauschs per Webkonferenz gibt es außerdem gute Nachrichten: XUGS 28 war nur der Auftakt einer ganzen Vortragsserie. Der nächste Termin, in dem es um die Eingabeformate gehen wird, welche Octopus verarbeiten kann, wird am 29.04.2024 von 18-19 Uhr stattfinden, zwei weitere Termine sind geplant. Nähere Infos dazu finden sich auf der data2type-Homepage.

Und last but not least wurde die gestrige Sitzung aufgezeichnet und kann hier angeschaut werden:

https://drive.google.com/file/d/1uyIBliHGAme6uJ0or5F4hz47iKtQez78/view

XUGS 28: Einführung in die octopus-Plattform

Das nächste Online-Meeting der XML User Group Stuttgart findet statt am

Mittwoch, den 10. April 2024, um 18:30 Uhr

Bei diesem Online-Vortrag stellt Manuel Montero Pineda, Geschäftsführer von data2type, den „octopus“ vor. Octopus ist eine Zusammenarbeit der data2type GmbH und der parsQube GmbH, aus der eine Plattform hervorgegangen ist, die eine Vielzahl von Transformationen und Diensten für die Dokumentenverarbeitung bietet. Sie ermöglicht die Umwandlung von etwa 200 verschiedenen Formaten in Richtung XML, die Erzeugung und Auslesung von Texten sowie deren semantische Anreicherung. Zu den Kernfunktionen gehören Spracherkennung, Übersetzungsdienste, OCR-Dienste und diverse KI-Anwendungen.


Die Anwendungsbereiche von octopus sind vielfältig und umfassen beispielsweise die Vereinheit­lichung von Texten in verschiedenen Sprachen und Formaten, die Erstellung von Chatbots und die Nutzung von KI-Techniken für Feintuning und Regex-basierte Unterstützung. Die Texte werden dabei unabhängig von ihrer ursprünglichen Formatierung oder Semantik verarbeitet, was eine flexible Handhabung von Dokumenten ermöglicht.


Octopus unterstützt auch die Analyse von PDF-Dokumenten und erfasst Informationen, die für spätere Anwendungen, wie das Zurückschreiben in das Originaldokument, genutzt werden können. Die Dokument­struktur, einschließlich Listen, Tabellen, Bilder und Verweise, wird in der Regel in XML verfügbar gemacht, wobei die Transformationen zu Formaten wie u.a. HTML, JATS, DocBook und PDF aus vielen Eingangsformaten möglich sind. Besondere Highlights stellen die Konvertierungs­strecken wie PDF, Word und Excel zu diversen XML-Formaten dar. Mit Hilfe von OFX, der Octopus Formatting eXtensible, können Dokumente ohne Programmier­aufwand in verschiedenen Layouts dargestellt werden, was die Erstellung individueller Formatierungen erleichtert.


Darüber hinaus bietet Octopus KI-Funktionen, wie Keyword-Generierung, Text-Zusammenfassungen, Link-Erkennung und Bildbeschreibungen, die für Vernetzung und Datenbankauswertungen unerlässlich sind. Dies trägt zur Verbesserung der Qualität bei redaktionellen Prozessen bei und ermöglicht eine umfassende automatisierte Auswertung und Anreicherung von Dokumenten. In Planung sind zum Beispiel die Integration von weiteren Services, wie Teile von transpect, parsX, des c-rex.net Information Delivery Service u.a. sowie der Einbau von octopus in verschiedene CMS.

Das Meeting wird per Zoom-Konferenz stattfinden. Die Einwahldaten lauten:
https://zoom.us/j/95597232027?pwd=aHVMeWplbFVIenVkS2J1S25Dc2RDdz09
Meeting-ID: 955 9723 2027
Kenncode: 754394

Folien zu XUGS 27: Qualitätssicherung von XML-Workflows mit XProc-Pipelines

Zum Vortrag von Achim Berndzen und Thorsten Rohm über Qualitätssicherung in XML-Workflows mit XProc-Pipelines stellen wir hier die Folien und das verwandte Paper von der MarkupUK-Konferenz bereit. Vielen Dank an die beiden Referenten!

XUGS 27: Qualitätssicherung von XML-Workflows mit XProc-Pipelines

Die XUGS lädt für den 20.09.2023 zu einem Online-Vortrag über qualitätskritische XML-Workflows mit Hilfe von XProc-3-Pipelines ein.

XProc-Logo (Fisch)

Ausgangspunkt der beiden Referenten Achim Berndzen und Thorsten Rohm sind Pipelines, welche auf Batchskripten und XSLT basieren und XML-Ausgaben in hoher Qualität erzeugen. Einige Qualitäts-Eigenschaften wurden jedoch noch nicht automatisch sichergestellt und wurden von den beiden sukzessive hinzugefügt, um ein noch höheres Maß an Qualitätssicherung zu erreichen.

Achim Berndzen wird zunächst eine kurze allgemeine Einführung in XProc geben. Anschließend zeigen die beiden Referenten ihre erweiterten QS-Maßnahmen wie etwa die Validierung von Ergebnissen, die Überprüfung von Links auf Grafikdateien und die proaktive Sicherstellung von validen Transformationsergebnissen. Sie zeigen an diesen konkreten Beispielen, wie XProc 3.0 verwendet wurde, um die Pipeline zu verbessern, Abhängigkeiten zu verringern und summarische Logdateien zu generieren.

Der Vortrag wird auf Deutsch gehalten, die dabei verwendeten Folien werden allerdings in englischer Sprache gezeigt.

Der Vortrag wird via GoToMeeting übertragen, die Einwahldaten finden sich unten, eine vorherige Anmeldung ist nicht erforderlich.

Die Referenten

Achim Berndzen

Achim Berndzen erwarb einen M.A. in Philosophie an der Universität Aachen und hat mehr als zwanzig Jahre Lehrerfahrung in Kommunikationstrainings. Im Jahr 2014 gründete er <xml-project/>. Er ist der Entwickler von MorganaXProc, einem voll standardkonformen XProc-Prozessor mit einem Schwerpunkt auf Konfigurierbarkeit und Erweiterbarkeit.

Thorsten Rohm

Thorsten Rohm begann 1997 mit SGML-Anwendungen für die Druckausgabe und das elektronische Publizieren zu arbeiten. Er war in der Druckvorstufe für verschiedene juristische Fachverlage in den Bereichen Datenstrukturierung, -konvertierung und -anreicherung tätig. Seit 2002 beschäftigt er sich mit XML, XSLT, XSL-FO und dem Antenna House Formatter, sowie weiteren XML-Technologien.

2009 wechselte er zur Thieme Compliance GmbH, wo er nun als Head of Content Architecture & Management tätig ist. Gemeinsam mit seinem Team konzentriert er sich auf die Weiterentwicklung des XML-Content und stellt dessen Single-Source-Fähigkeit sicher. Die Hauptaufgabe liegt dabei in der Entwicklung und Pflege von Publishing-Pipelines für die voll- oder hochautomatisierte Ausgabe in unterschiedlichsten Medienformen. Einen weiteren Schwerpunkt stellt die Qualitätssicherung mittels Schematron sowie die Entwicklung und Pflege von Qualitätssicherungs-Pipelines dar, beispielsweise um neue Stylesheet-Versionen zu testen und Regressionen auszuschließen.

Er liebt alles, was mit Markup zu tun hat, und ist sehr am Austausch mit der XML-Community interessiert.

Einwahldaten

XUGS 27: QS mit XProc-Pipelines
20.09.2023, 18:30–19:30 Uhr (Europe/Amsterdam)

Nehmen Sie an diesem Meeting per Computer, Tablet oder Smartphone teil.
https://meet.goto.com/868222853

Sie können sich auch über ein Telefon einwählen.
Zugangscode: 868-222-853
Germany: +49 721 9881 4161

Installieren Sie jetzt die App, damit Sie für Ihr erstes Meeting bereit sind:
https://meet.goto.com/install

Unterlagen zur XSLT-Einführung

Die Folien und Beispieldaten unserer Einführung in XSLT haben die Referenten Heino Schmull und Martin Braun uns direkt im Anschluss an die Veranstaltungen zugeschickt. Leider haben wir es versäumt, den Artikel mit diesen Unterlagen hier auf der Website zeitnah freizuschalten. Wir bitten um Entschuldigung und geloben Besserung!

Neue Termine für die XSLT-Einführung

Aufgrund von technischen Problemen bei der ersten Online-Konferenz-Sitzung haben wir die Termine nun verschoben und bieten die Einführung in XSLT nun neu mit geänderten Terminen an:

Wir kommen nun zum Schweizer Taschenmesser in XML-Fragen: XSLT. Das ist eine Programmiersprache zur Konvertierung, Transformation oder Extraktion von Daten aus XML-Dokumenten. Wenn Sie dieses Werkzeug in der Hand halten, können Sie sich jegliche fremden XML-Daten so zuschneiden, wie Sie es für Ihre eigenen Zwecke brauchen. Und vor dem Wort „Programmiersprache“ müssen Sie keine Angst haben: In den über zwanzig Jahren, die es diese Sprache nun schon gibt, haben schon viele Nicht-Programmierer:innen sie erlernt, weil man in sie ganz ohne Informatiktheorie oder EDV-Hintergrundwissen einsteigen kann. Unsere Referenten, die XSLT-Profis Martin Braun und Dr. Heino Schmull, sind auch keine Informatiker und werden Ihnen zeigen, wie der einfache XSLT-Einstieg gelingen kann.

Für den Einstieg in XSLT planen wir zwei aufeinander aufbauende Termine, und zwar:

Mittwoch, der 29.03.2023 und Mittwoch, der 26.04.2023, jeweils von 18:30 Uhr bis 20:00 Uhr.

Die Veranstaltungen werden online durchgeführt und sind wie immer kostenlos. Hier die Login-Daten:

Mittwoch, der 29.03.2023, 18:30 UhrNehmen Sie an meinem Meeting per Computer, Tablet oder Smartphone teil.
https://meet.goto.com/977469157

Sie können sich auch über ein Telefon oder die GoTo-Meeting-App einwählen.
Zugangscode: 977-469-157
Germany: +49 721 9881 4161

Installieren Sie jetzt die App, damit Sie für Ihr erstes Meeting bereit sind:
https://meet.goto.com/install

In der App können Sie sich mit dem Code 977-469-157 zum Meeting anmelden.
Mittwoch, der 26.04.2023, 18:30 UhrNehmen Sie an meinem Meeting per Computer, Tablet oder Smartphone teil.
https://meet.goto.com/978192389

Sie können sich auch über ein Telefon oder die GoTo-Meeting-App einwählen.
Zugangscode: 978-192-389
Germany: +49 721 6059 6510

Installieren Sie jetzt die App, damit Sie für Ihr erstes Meeting bereit sind:
https://meet.goto.com/install

In der App können Sie sich mit dem Code 978-192-389 zum Meeting anmelden.

Technische Probleme bei der XSLT-Einführung am 15.03.2023

Leider hatten wir bei der für gestern geplanten XSLT-Einführung technische Probleme mit dem Link für unser Online-Konferenztool. Deshalb konnten sich vermutlich viele Interessierte nicht anmelden. Wir bitten diese Unannehmlichkeit zu entschuldigen und werden den ersten Teil der XSLT-Schulung an einem Ersatztermin anbieten, den wir ankündigen werden, sobald wir uns mit den Referenten einen Termin abstimmen konnten.

Einführung in X-Technologien 3: XSLT

Aktualisierung 20.03.2023: Bitte beachten Sie, dass die hier genannten Termine obsolet sind. Die neuen Termine für die XSLT-Einführung finden Sie unter Neue Termine für die XSLT-Einführung.

Wir kommen nun zum Schweizer Taschenmesser in XML-Fragen: XSLT. Das ist eine Programmiersprache zur Konvertierung, Transformation oder Extraktion von Daten aus XML-Dokumenten. Wenn Sie dieses Werkzeug in der Hand halten, können Sie sich jegliche fremden XML-Daten so zuschneiden, wie Sie es für Ihre eigenen Zwecke brauchen. Und vor dem Wort „Programmiersprache“ müssen Sie keine Angst haben: In den über zwanzig Jahren, die es diese Sprache nun schon gibt, haben schon viele Nicht-Programmierer:innen sie erlernt, weil man in sie ganz ohne Informatiktheorie oder EDV-Hintergrundwissen einsteigen kann. Unsere Referenten, die XSLT-Profis Martin Braun und Dr. Heino Schmull, sind auch keine Informatiker und werden Ihnen zeigen, wie der einfache XSLT-Einstieg gelingen kann.

Für den Einstieg in XSLT planen wir zwei aufeinander aufbauende Termine, und zwar:

Mittwoch, der 15.03.2023 und Mittwoch, der12.04.2023, jeweils von 18:30 Uhr bis 20:00 Uhr.

Die Veranstaltungen werden online durchgeführt und sind wie immer kostenlos. Hier die Login-Daten:

Mittwoch, der 15.03.2023, 18:30 UhrNehmen Sie an meinem Meeting per Computer, Tablet oder Smartphone teil.
https://meet.goto.com/173331309

Sie können sich auch über ein Telefon einwählen.
Zugangscode: 173-331-309
Germany: +49 721 6059 6510
Mittwoch, der 12.04.2023, 18:30 UhrNehmen Sie an meinem Meeting per Computer, Tablet oder Smartphone teil.
https://meet.goto.com/978192389

Sie können sich auch über ein Telefon einwählen.
Zugangscode: 978-192-389
Germany: +49 721 6059 6510

Installieren Sie jetzt die App, damit Sie für Ihr erstes Meeting bereit sind:
https://meet.goto.com/install