Nachlese XUGS 28: Octopus-Framework

Am gestrigen 10. April 2024 hat uns Manuel Montera Pineda von data2type das neue Octopus-Framework zum Konvertieren und Anreichern von Dokumenten vorgestellt. Die aktuell bereits mögliche Ausführung von ca. 500 Konvertierungsstrecken mit unterschiedlichen Ein- und Ausgabeformaten soll in den kommenden Monaten und Jahren auf deutlich über 1000 anwachsen. Als Eingabeformate kommen nicht nur bereits getaggte Dokumente in Frage, sondern auch unstrukturiertere Inhalte wie etwa aus PDF-Dateien.

Manuel Montero Pineda stößt die Octopus-Transformation einer PDF-Datei der Bundesregierung auf der Kommandozeile an

Neben dem Taggen von typischen Textbereichen wie Überschriften, Absätzen, Tabellen und Fußnoten werden auch interne Verweise erkannt und verlinkt und Grafiken als solche übernommen und eingebettet. Octopus lässt sich sowohl über eine Kommandozeile bedienen als auch – zukünftig – über einen Webservice anstoßen. Außerdem hat Manuel Montero auch schon eine KI-gestützte Chat-Schnittstelle präsentieren können, welche ausschließlich mit dem kuratierten Schulungsmaterial von data2type gefüttert wurde und somit auch qualitative Antworten rund um alle X-Technologien liefert.

Eine Octopus-Ausgabe (PDF nach DocBook)

Weitere Infos zum Nachlesen über octopus gibt’s auf der datat2type-Homepage unter https://www.data2type.de/software/octopus-xml-framework; für die Freundinnen und Freunde des persönlichen Austauschs per Webkonferenz gibt es außerdem gute Nachrichten: XUGS 28 war nur der Auftakt einer ganzen Vortragsserie. Der nächste Termin, in dem es um die Eingabeformate gehen wird, welche Octopus verarbeiten kann, wird am 29.04.2024 von 18-19 Uhr stattfinden, zwei weitere Termine sind geplant. Nähere Infos dazu finden sich auf der data2type-Homepage.

Und last but not least wurde die gestrige Sitzung aufgezeichnet und kann hier angeschaut werden:

https://drive.google.com/file/d/1uyIBliHGAme6uJ0or5F4hz47iKtQez78/view

XUGS 28: Einführung in die octopus-Plattform

Das nächste Online-Meeting der XML User Group Stuttgart findet statt am

Mittwoch, den 10. April 2024, um 18:30 Uhr

Bei diesem Online-Vortrag stellt Manuel Montero Pineda, Geschäftsführer von data2type, den „octopus“ vor. Octopus ist eine Zusammenarbeit der data2type GmbH und der parsQube GmbH, aus der eine Plattform hervorgegangen ist, die eine Vielzahl von Transformationen und Diensten für die Dokumentenverarbeitung bietet. Sie ermöglicht die Umwandlung von etwa 200 verschiedenen Formaten in Richtung XML, die Erzeugung und Auslesung von Texten sowie deren semantische Anreicherung. Zu den Kernfunktionen gehören Spracherkennung, Übersetzungsdienste, OCR-Dienste und diverse KI-Anwendungen.


Die Anwendungsbereiche von octopus sind vielfältig und umfassen beispielsweise die Vereinheit­lichung von Texten in verschiedenen Sprachen und Formaten, die Erstellung von Chatbots und die Nutzung von KI-Techniken für Feintuning und Regex-basierte Unterstützung. Die Texte werden dabei unabhängig von ihrer ursprünglichen Formatierung oder Semantik verarbeitet, was eine flexible Handhabung von Dokumenten ermöglicht.


Octopus unterstützt auch die Analyse von PDF-Dokumenten und erfasst Informationen, die für spätere Anwendungen, wie das Zurückschreiben in das Originaldokument, genutzt werden können. Die Dokument­struktur, einschließlich Listen, Tabellen, Bilder und Verweise, wird in der Regel in XML verfügbar gemacht, wobei die Transformationen zu Formaten wie u.a. HTML, JATS, DocBook und PDF aus vielen Eingangsformaten möglich sind. Besondere Highlights stellen die Konvertierungs­strecken wie PDF, Word und Excel zu diversen XML-Formaten dar. Mit Hilfe von OFX, der Octopus Formatting eXtensible, können Dokumente ohne Programmier­aufwand in verschiedenen Layouts dargestellt werden, was die Erstellung individueller Formatierungen erleichtert.


Darüber hinaus bietet Octopus KI-Funktionen, wie Keyword-Generierung, Text-Zusammenfassungen, Link-Erkennung und Bildbeschreibungen, die für Vernetzung und Datenbankauswertungen unerlässlich sind. Dies trägt zur Verbesserung der Qualität bei redaktionellen Prozessen bei und ermöglicht eine umfassende automatisierte Auswertung und Anreicherung von Dokumenten. In Planung sind zum Beispiel die Integration von weiteren Services, wie Teile von transpect, parsX, des c-rex.net Information Delivery Service u.a. sowie der Einbau von octopus in verschiedene CMS.

Das Meeting wird per Zoom-Konferenz stattfinden. Die Einwahldaten lauten:
https://zoom.us/j/95597232027?pwd=aHVMeWplbFVIenVkS2J1S25Dc2RDdz09
Meeting-ID: 955 9723 2027
Kenncode: 754394

Folien zu XUGS 27: Qualitätssicherung von XML-Workflows mit XProc-Pipelines

Zum Vortrag von Achim Berndzen und Thorsten Rohm über Qualitätssicherung in XML-Workflows mit XProc-Pipelines stellen wir hier die Folien und das verwandte Paper von der MarkupUK-Konferenz bereit. Vielen Dank an die beiden Referenten!

XUGS 27: Qualitätssicherung von XML-Workflows mit XProc-Pipelines

Die XUGS lädt für den 20.09.2023 zu einem Online-Vortrag über qualitätskritische XML-Workflows mit Hilfe von XProc-3-Pipelines ein.

XProc-Logo (Fisch)

Ausgangspunkt der beiden Referenten Achim Berndzen und Thorsten Rohm sind Pipelines, welche auf Batchskripten und XSLT basieren und XML-Ausgaben in hoher Qualität erzeugen. Einige Qualitäts-Eigenschaften wurden jedoch noch nicht automatisch sichergestellt und wurden von den beiden sukzessive hinzugefügt, um ein noch höheres Maß an Qualitätssicherung zu erreichen.

Achim Berndzen wird zunächst eine kurze allgemeine Einführung in XProc geben. Anschließend zeigen die beiden Referenten ihre erweiterten QS-Maßnahmen wie etwa die Validierung von Ergebnissen, die Überprüfung von Links auf Grafikdateien und die proaktive Sicherstellung von validen Transformationsergebnissen. Sie zeigen an diesen konkreten Beispielen, wie XProc 3.0 verwendet wurde, um die Pipeline zu verbessern, Abhängigkeiten zu verringern und summarische Logdateien zu generieren.

Der Vortrag wird auf Deutsch gehalten, die dabei verwendeten Folien werden allerdings in englischer Sprache gezeigt.

Der Vortrag wird via GoToMeeting übertragen, die Einwahldaten finden sich unten, eine vorherige Anmeldung ist nicht erforderlich.

Die Referenten

Achim Berndzen

Achim Berndzen erwarb einen M.A. in Philosophie an der Universität Aachen und hat mehr als zwanzig Jahre Lehrerfahrung in Kommunikationstrainings. Im Jahr 2014 gründete er <xml-project/>. Er ist der Entwickler von MorganaXProc, einem voll standardkonformen XProc-Prozessor mit einem Schwerpunkt auf Konfigurierbarkeit und Erweiterbarkeit.

Thorsten Rohm

Thorsten Rohm begann 1997 mit SGML-Anwendungen für die Druckausgabe und das elektronische Publizieren zu arbeiten. Er war in der Druckvorstufe für verschiedene juristische Fachverlage in den Bereichen Datenstrukturierung, -konvertierung und -anreicherung tätig. Seit 2002 beschäftigt er sich mit XML, XSLT, XSL-FO und dem Antenna House Formatter, sowie weiteren XML-Technologien.

2009 wechselte er zur Thieme Compliance GmbH, wo er nun als Head of Content Architecture & Management tätig ist. Gemeinsam mit seinem Team konzentriert er sich auf die Weiterentwicklung des XML-Content und stellt dessen Single-Source-Fähigkeit sicher. Die Hauptaufgabe liegt dabei in der Entwicklung und Pflege von Publishing-Pipelines für die voll- oder hochautomatisierte Ausgabe in unterschiedlichsten Medienformen. Einen weiteren Schwerpunkt stellt die Qualitätssicherung mittels Schematron sowie die Entwicklung und Pflege von Qualitätssicherungs-Pipelines dar, beispielsweise um neue Stylesheet-Versionen zu testen und Regressionen auszuschließen.

Er liebt alles, was mit Markup zu tun hat, und ist sehr am Austausch mit der XML-Community interessiert.

Einwahldaten

XUGS 27: QS mit XProc-Pipelines
20.09.2023, 18:30–19:30 Uhr (Europe/Amsterdam)

Nehmen Sie an diesem Meeting per Computer, Tablet oder Smartphone teil.
https://meet.goto.com/868222853

Sie können sich auch über ein Telefon einwählen.
Zugangscode: 868-222-853
Germany: +49 721 9881 4161

Installieren Sie jetzt die App, damit Sie für Ihr erstes Meeting bereit sind:
https://meet.goto.com/install

Unterlagen zur XSLT-Einführung

Die Folien und Beispieldaten unserer Einführung in XSLT haben die Referenten Heino Schmull und Martin Braun uns direkt im Anschluss an die Veranstaltungen zugeschickt. Leider haben wir es versäumt, den Artikel mit diesen Unterlagen hier auf der Website zeitnah freizuschalten. Wir bitten um Entschuldigung und geloben Besserung!

Neue Termine für die XSLT-Einführung

Aufgrund von technischen Problemen bei der ersten Online-Konferenz-Sitzung haben wir die Termine nun verschoben und bieten die Einführung in XSLT nun neu mit geänderten Terminen an:

Wir kommen nun zum Schweizer Taschenmesser in XML-Fragen: XSLT. Das ist eine Programmiersprache zur Konvertierung, Transformation oder Extraktion von Daten aus XML-Dokumenten. Wenn Sie dieses Werkzeug in der Hand halten, können Sie sich jegliche fremden XML-Daten so zuschneiden, wie Sie es für Ihre eigenen Zwecke brauchen. Und vor dem Wort „Programmiersprache“ müssen Sie keine Angst haben: In den über zwanzig Jahren, die es diese Sprache nun schon gibt, haben schon viele Nicht-Programmierer:innen sie erlernt, weil man in sie ganz ohne Informatiktheorie oder EDV-Hintergrundwissen einsteigen kann. Unsere Referenten, die XSLT-Profis Martin Braun und Dr. Heino Schmull, sind auch keine Informatiker und werden Ihnen zeigen, wie der einfache XSLT-Einstieg gelingen kann.

Für den Einstieg in XSLT planen wir zwei aufeinander aufbauende Termine, und zwar:

Mittwoch, der 29.03.2023 und Mittwoch, der 26.04.2023, jeweils von 18:30 Uhr bis 20:00 Uhr.

Die Veranstaltungen werden online durchgeführt und sind wie immer kostenlos. Hier die Login-Daten:

Mittwoch, der 29.03.2023, 18:30 UhrNehmen Sie an meinem Meeting per Computer, Tablet oder Smartphone teil.
https://meet.goto.com/977469157

Sie können sich auch über ein Telefon oder die GoTo-Meeting-App einwählen.
Zugangscode: 977-469-157
Germany: +49 721 9881 4161

Installieren Sie jetzt die App, damit Sie für Ihr erstes Meeting bereit sind:
https://meet.goto.com/install

In der App können Sie sich mit dem Code 977-469-157 zum Meeting anmelden.
Mittwoch, der 26.04.2023, 18:30 UhrNehmen Sie an meinem Meeting per Computer, Tablet oder Smartphone teil.
https://meet.goto.com/978192389

Sie können sich auch über ein Telefon oder die GoTo-Meeting-App einwählen.
Zugangscode: 978-192-389
Germany: +49 721 6059 6510

Installieren Sie jetzt die App, damit Sie für Ihr erstes Meeting bereit sind:
https://meet.goto.com/install

In der App können Sie sich mit dem Code 978-192-389 zum Meeting anmelden.

Technische Probleme bei der XSLT-Einführung am 15.03.2023

Leider hatten wir bei der für gestern geplanten XSLT-Einführung technische Probleme mit dem Link für unser Online-Konferenztool. Deshalb konnten sich vermutlich viele Interessierte nicht anmelden. Wir bitten diese Unannehmlichkeit zu entschuldigen und werden den ersten Teil der XSLT-Schulung an einem Ersatztermin anbieten, den wir ankündigen werden, sobald wir uns mit den Referenten einen Termin abstimmen konnten.

Einführung in X-Technologien 3: XSLT

Aktualisierung 20.03.2023: Bitte beachten Sie, dass die hier genannten Termine obsolet sind. Die neuen Termine für die XSLT-Einführung finden Sie unter Neue Termine für die XSLT-Einführung.

Wir kommen nun zum Schweizer Taschenmesser in XML-Fragen: XSLT. Das ist eine Programmiersprache zur Konvertierung, Transformation oder Extraktion von Daten aus XML-Dokumenten. Wenn Sie dieses Werkzeug in der Hand halten, können Sie sich jegliche fremden XML-Daten so zuschneiden, wie Sie es für Ihre eigenen Zwecke brauchen. Und vor dem Wort „Programmiersprache“ müssen Sie keine Angst haben: In den über zwanzig Jahren, die es diese Sprache nun schon gibt, haben schon viele Nicht-Programmierer:innen sie erlernt, weil man in sie ganz ohne Informatiktheorie oder EDV-Hintergrundwissen einsteigen kann. Unsere Referenten, die XSLT-Profis Martin Braun und Dr. Heino Schmull, sind auch keine Informatiker und werden Ihnen zeigen, wie der einfache XSLT-Einstieg gelingen kann.

Für den Einstieg in XSLT planen wir zwei aufeinander aufbauende Termine, und zwar:

Mittwoch, der 15.03.2023 und Mittwoch, der12.04.2023, jeweils von 18:30 Uhr bis 20:00 Uhr.

Die Veranstaltungen werden online durchgeführt und sind wie immer kostenlos. Hier die Login-Daten:

Mittwoch, der 15.03.2023, 18:30 UhrNehmen Sie an meinem Meeting per Computer, Tablet oder Smartphone teil.
https://meet.goto.com/173331309

Sie können sich auch über ein Telefon einwählen.
Zugangscode: 173-331-309
Germany: +49 721 6059 6510
Mittwoch, der 12.04.2023, 18:30 UhrNehmen Sie an meinem Meeting per Computer, Tablet oder Smartphone teil.
https://meet.goto.com/978192389

Sie können sich auch über ein Telefon einwählen.
Zugangscode: 978-192-389
Germany: +49 721 6059 6510

Installieren Sie jetzt die App, damit Sie für Ihr erstes Meeting bereit sind:
https://meet.goto.com/install

Einführung in X-Technologien 2: XML Schema

Es geht weiter mit unserer im Januar begonnenen Veranstaltungsreihe zur Einführung in XML-Technologien. Die zweite Online-Veranstaltung wird sich dem XML Schema widmen.

Sie haben vielleicht schon mal XML-Dateien validieren lassen und möchten erfahren, nach welchen Regeln ein Computer entscheidet, ob ein konkretes XML-Dokument valide ist? Sie verwenden in Ihrer Arbeit ein Schema, das Ihnen an genau einer Stelle zu streng ist, so dass Sie es gerne anpassen würden? Oder Sie verwalten Ihre private Büchersammlung in einem XML-Dokument, dessen Format Sie sich selbst ausgedacht haben und welches Sie gerne validieren können würden, um strukturelle Fehler zu vermeiden? Dann laden wir Sie herzlich ein, am

Mittwoch, den 15.2.2023 von 18:30 Uhr – 20:00 Uhr

an der XML-Schema-Einführung von Dr. Björn Rudzewitz und Dr. Heino Schmull (beide von der pagina GmbH) teilzunehmen. Auch wenn Sie nur eine schemenhafte Vorstellung von der Verwendung der XML-Schemata haben, sind Sie hier herzlich willkommen!

Die Online-Schulung wird via GoTo Meeting durchgeführt, die Anmeldedaten lauten wie folgt:


Nehmen Sie an unserem Meeting per Computer, Tablet oder Smartphone teil.
https://meet.goto.com/570557997

Sie können sich auch über ein Telefon einwählen.
Zugangscode: 570-557-997
Germany: +49 721 6059 6510

Installieren Sie jetzt die App, damit Sie für Ihr erstes Meeting bereit sind:
https://meet.goto.com/install