Nachlese XUGS 28: Octopus-Framework

Am gestrigen 10. April 2024 hat uns Manuel Montera Pineda von data2type das neue Octopus-Framework zum Konvertieren und Anreichern von Dokumenten vorgestellt. Die aktuell bereits mögliche Ausführung von ca. 500 Konvertierungsstrecken mit unterschiedlichen Ein- und Ausgabeformaten soll in den kommenden Monaten und Jahren auf deutlich über 1000 anwachsen. Als Eingabeformate kommen nicht nur bereits getaggte Dokumente in Frage, sondern auch unstrukturiertere Inhalte wie etwa aus PDF-Dateien.

Manuel Montero Pineda stößt die Octopus-Transformation einer PDF-Datei der Bundesregierung auf der Kommandozeile an

Neben dem Taggen von typischen Textbereichen wie Überschriften, Absätzen, Tabellen und Fußnoten werden auch interne Verweise erkannt und verlinkt und Grafiken als solche übernommen und eingebettet. Octopus lässt sich sowohl über eine Kommandozeile bedienen als auch – zukünftig – über einen Webservice anstoßen. Außerdem hat Manuel Montero auch schon eine KI-gestützte Chat-Schnittstelle präsentieren können, welche ausschließlich mit dem kuratierten Schulungsmaterial von data2type gefüttert wurde und somit auch qualitative Antworten rund um alle X-Technologien liefert.

Eine Octopus-Ausgabe (PDF nach DocBook)

Weitere Infos zum Nachlesen über octopus gibt’s auf der datat2type-Homepage unter https://www.data2type.de/software/octopus-xml-framework; für die Freundinnen und Freunde des persönlichen Austauschs per Webkonferenz gibt es außerdem gute Nachrichten: XUGS 28 war nur der Auftakt einer ganzen Vortragsserie. Der nächste Termin, in dem es um die Eingabeformate gehen wird, welche Octopus verarbeiten kann, wird am 29.04.2024 von 18-19 Uhr stattfinden, zwei weitere Termine sind geplant. Nähere Infos dazu finden sich auf der data2type-Homepage.

Und last but not least wurde die gestrige Sitzung aufgezeichnet und kann hier angeschaut werden:

https://drive.google.com/file/d/1uyIBliHGAme6uJ0or5F4hz47iKtQez78/view

XUGS 28: Einführung in die octopus-Plattform

Das nächste Online-Meeting der XML User Group Stuttgart findet statt am

Mittwoch, den 10. April 2024, um 18:30 Uhr

Bei diesem Online-Vortrag stellt Manuel Montero Pineda, Geschäftsführer von data2type, den „octopus“ vor. Octopus ist eine Zusammenarbeit der data2type GmbH und der parsQube GmbH, aus der eine Plattform hervorgegangen ist, die eine Vielzahl von Transformationen und Diensten für die Dokumentenverarbeitung bietet. Sie ermöglicht die Umwandlung von etwa 200 verschiedenen Formaten in Richtung XML, die Erzeugung und Auslesung von Texten sowie deren semantische Anreicherung. Zu den Kernfunktionen gehören Spracherkennung, Übersetzungsdienste, OCR-Dienste und diverse KI-Anwendungen.


Die Anwendungsbereiche von octopus sind vielfältig und umfassen beispielsweise die Vereinheit­lichung von Texten in verschiedenen Sprachen und Formaten, die Erstellung von Chatbots und die Nutzung von KI-Techniken für Feintuning und Regex-basierte Unterstützung. Die Texte werden dabei unabhängig von ihrer ursprünglichen Formatierung oder Semantik verarbeitet, was eine flexible Handhabung von Dokumenten ermöglicht.


Octopus unterstützt auch die Analyse von PDF-Dokumenten und erfasst Informationen, die für spätere Anwendungen, wie das Zurückschreiben in das Originaldokument, genutzt werden können. Die Dokument­struktur, einschließlich Listen, Tabellen, Bilder und Verweise, wird in der Regel in XML verfügbar gemacht, wobei die Transformationen zu Formaten wie u.a. HTML, JATS, DocBook und PDF aus vielen Eingangsformaten möglich sind. Besondere Highlights stellen die Konvertierungs­strecken wie PDF, Word und Excel zu diversen XML-Formaten dar. Mit Hilfe von OFX, der Octopus Formatting eXtensible, können Dokumente ohne Programmier­aufwand in verschiedenen Layouts dargestellt werden, was die Erstellung individueller Formatierungen erleichtert.


Darüber hinaus bietet Octopus KI-Funktionen, wie Keyword-Generierung, Text-Zusammenfassungen, Link-Erkennung und Bildbeschreibungen, die für Vernetzung und Datenbankauswertungen unerlässlich sind. Dies trägt zur Verbesserung der Qualität bei redaktionellen Prozessen bei und ermöglicht eine umfassende automatisierte Auswertung und Anreicherung von Dokumenten. In Planung sind zum Beispiel die Integration von weiteren Services, wie Teile von transpect, parsX, des c-rex.net Information Delivery Service u.a. sowie der Einbau von octopus in verschiedene CMS.

Das Meeting wird per Zoom-Konferenz stattfinden. Die Einwahldaten lauten:
https://zoom.us/j/95597232027?pwd=aHVMeWplbFVIenVkS2J1S25Dc2RDdz09
Meeting-ID: 955 9723 2027
Kenncode: 754394

Folien zu XUGS 27: Qualitätssicherung von XML-Workflows mit XProc-Pipelines

Zum Vortrag von Achim Berndzen und Thorsten Rohm über Qualitätssicherung in XML-Workflows mit XProc-Pipelines stellen wir hier die Folien und das verwandte Paper von der MarkupUK-Konferenz bereit. Vielen Dank an die beiden Referenten!

XUGS 27: Qualitätssicherung von XML-Workflows mit XProc-Pipelines

Die XUGS lädt für den 20.09.2023 zu einem Online-Vortrag über qualitätskritische XML-Workflows mit Hilfe von XProc-3-Pipelines ein.

XProc-Logo (Fisch)

Ausgangspunkt der beiden Referenten Achim Berndzen und Thorsten Rohm sind Pipelines, welche auf Batchskripten und XSLT basieren und XML-Ausgaben in hoher Qualität erzeugen. Einige Qualitäts-Eigenschaften wurden jedoch noch nicht automatisch sichergestellt und wurden von den beiden sukzessive hinzugefügt, um ein noch höheres Maß an Qualitätssicherung zu erreichen.

Achim Berndzen wird zunächst eine kurze allgemeine Einführung in XProc geben. Anschließend zeigen die beiden Referenten ihre erweiterten QS-Maßnahmen wie etwa die Validierung von Ergebnissen, die Überprüfung von Links auf Grafikdateien und die proaktive Sicherstellung von validen Transformationsergebnissen. Sie zeigen an diesen konkreten Beispielen, wie XProc 3.0 verwendet wurde, um die Pipeline zu verbessern, Abhängigkeiten zu verringern und summarische Logdateien zu generieren.

Der Vortrag wird auf Deutsch gehalten, die dabei verwendeten Folien werden allerdings in englischer Sprache gezeigt.

Der Vortrag wird via GoToMeeting übertragen, die Einwahldaten finden sich unten, eine vorherige Anmeldung ist nicht erforderlich.

Die Referenten

Achim Berndzen

Achim Berndzen erwarb einen M.A. in Philosophie an der Universität Aachen und hat mehr als zwanzig Jahre Lehrerfahrung in Kommunikationstrainings. Im Jahr 2014 gründete er <xml-project/>. Er ist der Entwickler von MorganaXProc, einem voll standardkonformen XProc-Prozessor mit einem Schwerpunkt auf Konfigurierbarkeit und Erweiterbarkeit.

Thorsten Rohm

Thorsten Rohm begann 1997 mit SGML-Anwendungen für die Druckausgabe und das elektronische Publizieren zu arbeiten. Er war in der Druckvorstufe für verschiedene juristische Fachverlage in den Bereichen Datenstrukturierung, -konvertierung und -anreicherung tätig. Seit 2002 beschäftigt er sich mit XML, XSLT, XSL-FO und dem Antenna House Formatter, sowie weiteren XML-Technologien.

2009 wechselte er zur Thieme Compliance GmbH, wo er nun als Head of Content Architecture & Management tätig ist. Gemeinsam mit seinem Team konzentriert er sich auf die Weiterentwicklung des XML-Content und stellt dessen Single-Source-Fähigkeit sicher. Die Hauptaufgabe liegt dabei in der Entwicklung und Pflege von Publishing-Pipelines für die voll- oder hochautomatisierte Ausgabe in unterschiedlichsten Medienformen. Einen weiteren Schwerpunkt stellt die Qualitätssicherung mittels Schematron sowie die Entwicklung und Pflege von Qualitätssicherungs-Pipelines dar, beispielsweise um neue Stylesheet-Versionen zu testen und Regressionen auszuschließen.

Er liebt alles, was mit Markup zu tun hat, und ist sehr am Austausch mit der XML-Community interessiert.

Einwahldaten

XUGS 27: QS mit XProc-Pipelines
20.09.2023, 18:30–19:30 Uhr (Europe/Amsterdam)

Nehmen Sie an diesem Meeting per Computer, Tablet oder Smartphone teil.
https://meet.goto.com/868222853

Sie können sich auch über ein Telefon einwählen.
Zugangscode: 868-222-853
Germany: +49 721 9881 4161

Installieren Sie jetzt die App, damit Sie für Ihr erstes Meeting bereit sind:
https://meet.goto.com/install

Unterlagen zur XSLT-Einführung

Die Folien und Beispieldaten unserer Einführung in XSLT haben die Referenten Heino Schmull und Martin Braun uns direkt im Anschluss an die Veranstaltungen zugeschickt. Leider haben wir es versäumt, den Artikel mit diesen Unterlagen hier auf der Website zeitnah freizuschalten. Wir bitten um Entschuldigung und geloben Besserung!

Folien zur „Einführung in X-Technologien, Teil 1: XPath“

Wir freuen uns, dass unsere Online-Präsentation zur Einführung in XPath auf große Resonanz stieß. Als eine XML User Group besteht für uns die Gefahr, dass wir mit unserer Kommunikation nur die Menschen erreichen, die schon Fachleute sind und weniger solche, die es vielleicht erst werden wollen – oder auch solche, die sich einfach nur ein bisschen in der XML-Welt bewegen möchten, daneben aber auch noch andere Hobbies haben…

Vielen Dank jedenfalls an den Referenten Dr. Björn Rudzewitz, der uns wie angekündigt auch seine Vortragsfolien zur Verfügung stellt:

Viel Freude beim weiteren Üben und Ausprobieren!

In unserer Reihe zur Einführung in XML-Technologien geht es Mitte Februar weiter mit XML Schema – eine konkrete Ankündigung folgt demnächst.

Einführung in X-Technologien: Eine Veranstaltungsreihe

Die XML User Group Stuttgart (XUGS) wird ab Anfang des nächsten Jahres eine neue Online-Veranstaltungsreihe zur Einführung in die typischen Technologien rund um die Verarbeitung von XML anbieten. Wir wenden uns damit explizit an interessierte Einsteiger:innen oder Wieder-Einsteiger:innen.

Sie haben im beruflichen Alltag gelegentlich oder sogar häufig mit XML-Daten zu tun, aber fühlen sich etwas unwohl, wenn Sie diese Daten selbst anfassen müssen? Sie haben verstanden, wieso sich XML für die moderne, digitale Medienproduktion gut eignet, wollen jetzt aber mal einen Eindruck bekommen, wie man XML-Daten konkret weiter verarbeiten kann? Die XML User Group Stuttgart (XUGS) möchte Ihnen für diese Fälle ein Angebot machen: Wir geben Ihnen in den nächsten Monaten einen einfachen, kurzen, praxisorientierten Einstieg in XML-Kerntechnologien wie XPath, XML Schema, XSLT, Schematron, xQuery, CSS usw. Dabei ist es hilfreich, wenn Sie schon mal spitze Klammern gesehen haben, darüber hinaus sind aber keine Vorkenntnisse nötig. Die geplanten Veranstaltungen werden online durchgeführt werden und sind selbstverständlich – wie alle Veranstaltungen – der XUGS kostenlos. Wir würden uns freuen, Sie in die feine XML-Gemeinde aufnehmen zu können!

Wir beginnen

am 18. Januar 2023 um 18:30 Uhr

mit einer Einführung in XPath.

Wenn wir Ihnen sagen würden, dass Sie mit XPath „Knoten in einem XML-Dokument adressieren“ können, wäre das zwar richtig, aber Ihnen viel zu abstrakt. Sagen wir also stattdessen: Mit XPath können Sie Fragen an ein XML-Dokument stellen und auf wunderbar einfache Weise Antworten erhalten, ohne das Dokument vollständig lesen zu müssen. Zum Beisipel:

  • Was ist der längste Absatz in dem Dokument?
  • Was ist der durchschnittliche Preis der Ware in einer XML-codierten Produktliste?
  • Wieviele Überschriften der Ebene 1 gibt es in dem Dokument und welche sind das?

Gehen Sie gemeinsam mit uns und dem Referenten Dr. Björn Rudzewitz, dem Leiter des Geschäftsbereichs Publishing-Software der pagina GmbH, auf eine Wanderung auf dem XPath!

Nehmen Sie an dieser Einführung per Computer, Tablet oder Smartphone teil: https://meet.goto.com/133874245

Sie können sich auch über ein Telefon einwählen. (Bei Geräten, die diese Funktion unterstützen, ist die sofortige Teilnahme über eine der unten aufgeführten Direktwahlnummern möglich.)

Deutschland: +49 721 9881 4161
– Direktwahl: tel:+4972198814161,,133874245#
Zugangscode: 133-874-245

Installieren Sie jetzt die App, damit Sie für Ihr erstes Meeting bereit sind: https://meet.goto.com/install

Google-Gruppe für die XUGS

Um weiterhin Newsletter versenden zu können, benötigen wir nachvollziehbare Einverständniserklärungen. Aus diesem Grund haben wir eine Google-Gruppe für zukünftigen Newsletter-Versand angelegt:

https://groups.google.com/g/xugs

Insgesamt gibt es nun also vier Arten, über Neuigkeiten aus der XUGS auf dem Laufenden zu bleiben:

  • unserer XING-Gruppe beitreten: XUGS bei XING,
  • unserer Google-Gruppe beitreten, die wir für Opt-In-Einverständniserklärung zum Versand von Newslettern verwenden (jeweils Ankündigung der geplanten Veranstaltungen),
  • unserem Twitter-Kanal folgen: @xugstuttgart,
  • den RSS-Feed dieser WordPress-Seite abonnieren.

Ankündigung XUGS 26: DITA-Learning (24.02.21)

Produktion von Bildungsdaten mit dem data2type DITA-LT-Framework

Nach Jahren der Entwicklung stellt Manuel Montero Pineda das data2type DITA-LT-Framework vor. Es erzeugt alle wichtigen Standards im Bildungsbereich, vollautomatisch, individualisiert und in allen Ausgabe-Kanälen, sei es nun als Print-PDF, Web-PDF, EPUB, Moodle-Kurs oder in einem anderen LMS oder in E-Testing-Plattformen.

Diese Veranstaltung findet am 24. Februar 2021 statt und beginnt um 18.30 Uhr.

XUGS26: DITA-Learning & Training

Nehmen Sie an meinem Meeting per Computer, Tablet oder Smartphone teil.

https://global.gotomeeting.com/join/475675941

Sie können sich auch über ein Telefon einwählen.
(Bei Geräten, die diese Funktion unterstützen, ist die sofortige Teilnahme über eine der unten aufgeführten Direktwahlnummern möglich.)

Deutschland: +49 891 2140 2090

  • Direktwahl: tel:+4989121402090,,475675941#

Zugangscode: 475-675-941

Sie kennen GoToMeeting noch nicht? Installieren Sie jetzt die App, damit Sie für Ihr erstes Meeting bereit sind: https://global.gotomeeting.com/install/475675941

Ankündigung XUGS 25: DITA (25.11.20)

Das nächste XUGS-Treffen findet aufgrund der aktuellen politischen Vorgaben wieder Online statt, wie wir es schon im Frühjahr mal ausprobiert haben.

In XUGS 25 geht es um DITA, die Darwin Information Typing Archictecture. Evolutionäre Anpassung ist ein Grundprinzip dieser flexiblen Informationsarchitektur, um mit sich ändernden Umständen und Anforderungen zurechtzukommen. Es wird ein kurzer Überblick über die DITA Architektur gegeben und wie man sie im Learning & Training verwenden kann.

Als Referenten konnten wir den DITA-Spezialisten und -Trainer Gregor Bock gewinnen, der als Business-Analyst tätig ist und sich auch bei data2type um DITA-Themen kümmert.

Wir werden wie beim letzten Mal die Plattform GoToMeeting nutzen, das Onlinetreffen findet am Mittwoch, den 25. November 2020 statt und beginnt um 18:30 Uhr:

Nehmen Sie an XUGS 25 per Computer, Tablet oder Smartphone teil:

https://global.gotomeeting.com/join/434419813

Sie können sich auch über ein Telefon einwählen.
(Bei Geräten, die diese Funktion unterstützen, ist die sofortige Teilnahme über eine der unten aufgeführten Direktwahlnummern möglich.)

Deutschland: +49 891 2140 2090

  • Direktwahl: tel:+4989121402090,,434419813#

Zugangscode: 434-419-813

Sie kennen GoToMeeting noch nicht? Installieren Sie jetzt die App, damit Sie für Ihr erstes Meeting bereit sind: https://global.gotomeeting.com/install/434419813