Nachlese XUGS 28: Octopus-Framework

Am gestrigen 10. April 2024 hat uns Manuel Montera Pineda von data2type das neue Octopus-Framework zum Konvertieren und Anreichern von Dokumenten vorgestellt. Die aktuell bereits mögliche Ausführung von ca. 500 Konvertierungsstrecken mit unterschiedlichen Ein- und Ausgabeformaten soll in den kommenden Monaten und Jahren auf deutlich über 1000 anwachsen. Als Eingabeformate kommen nicht nur bereits getaggte Dokumente in Frage, sondern auch unstrukturiertere Inhalte wie etwa aus PDF-Dateien.

Manuel Montero Pineda stößt die Octopus-Transformation einer PDF-Datei der Bundesregierung auf der Kommandozeile an

Neben dem Taggen von typischen Textbereichen wie Überschriften, Absätzen, Tabellen und Fußnoten werden auch interne Verweise erkannt und verlinkt und Grafiken als solche übernommen und eingebettet. Octopus lässt sich sowohl über eine Kommandozeile bedienen als auch – zukünftig – über einen Webservice anstoßen. Außerdem hat Manuel Montero auch schon eine KI-gestützte Chat-Schnittstelle präsentieren können, welche ausschließlich mit dem kuratierten Schulungsmaterial von data2type gefüttert wurde und somit auch qualitative Antworten rund um alle X-Technologien liefert.

Eine Octopus-Ausgabe (PDF nach DocBook)

Weitere Infos zum Nachlesen über octopus gibt’s auf der datat2type-Homepage unter https://www.data2type.de/software/octopus-xml-framework; für die Freundinnen und Freunde des persönlichen Austauschs per Webkonferenz gibt es außerdem gute Nachrichten: XUGS 28 war nur der Auftakt einer ganzen Vortragsserie. Der nächste Termin, in dem es um die Eingabeformate gehen wird, welche Octopus verarbeiten kann, wird am 29.04.2024 von 18-19 Uhr stattfinden, zwei weitere Termine sind geplant. Nähere Infos dazu finden sich auf der data2type-Homepage.

Und last but not least wurde die gestrige Sitzung aufgezeichnet und kann hier angeschaut werden:

https://drive.google.com/file/d/1uyIBliHGAme6uJ0or5F4hz47iKtQez78/view

XUGS 28: Einführung in die octopus-Plattform

Das nächste Online-Meeting der XML User Group Stuttgart findet statt am

Mittwoch, den 10. April 2024, um 18:30 Uhr

Bei diesem Online-Vortrag stellt Manuel Montero Pineda, Geschäftsführer von data2type, den „octopus“ vor. Octopus ist eine Zusammenarbeit der data2type GmbH und der parsQube GmbH, aus der eine Plattform hervorgegangen ist, die eine Vielzahl von Transformationen und Diensten für die Dokumentenverarbeitung bietet. Sie ermöglicht die Umwandlung von etwa 200 verschiedenen Formaten in Richtung XML, die Erzeugung und Auslesung von Texten sowie deren semantische Anreicherung. Zu den Kernfunktionen gehören Spracherkennung, Übersetzungsdienste, OCR-Dienste und diverse KI-Anwendungen.


Die Anwendungsbereiche von octopus sind vielfältig und umfassen beispielsweise die Vereinheit­lichung von Texten in verschiedenen Sprachen und Formaten, die Erstellung von Chatbots und die Nutzung von KI-Techniken für Feintuning und Regex-basierte Unterstützung. Die Texte werden dabei unabhängig von ihrer ursprünglichen Formatierung oder Semantik verarbeitet, was eine flexible Handhabung von Dokumenten ermöglicht.


Octopus unterstützt auch die Analyse von PDF-Dokumenten und erfasst Informationen, die für spätere Anwendungen, wie das Zurückschreiben in das Originaldokument, genutzt werden können. Die Dokument­struktur, einschließlich Listen, Tabellen, Bilder und Verweise, wird in der Regel in XML verfügbar gemacht, wobei die Transformationen zu Formaten wie u.a. HTML, JATS, DocBook und PDF aus vielen Eingangsformaten möglich sind. Besondere Highlights stellen die Konvertierungs­strecken wie PDF, Word und Excel zu diversen XML-Formaten dar. Mit Hilfe von OFX, der Octopus Formatting eXtensible, können Dokumente ohne Programmier­aufwand in verschiedenen Layouts dargestellt werden, was die Erstellung individueller Formatierungen erleichtert.


Darüber hinaus bietet Octopus KI-Funktionen, wie Keyword-Generierung, Text-Zusammenfassungen, Link-Erkennung und Bildbeschreibungen, die für Vernetzung und Datenbankauswertungen unerlässlich sind. Dies trägt zur Verbesserung der Qualität bei redaktionellen Prozessen bei und ermöglicht eine umfassende automatisierte Auswertung und Anreicherung von Dokumenten. In Planung sind zum Beispiel die Integration von weiteren Services, wie Teile von transpect, parsX, des c-rex.net Information Delivery Service u.a. sowie der Einbau von octopus in verschiedene CMS.

Das Meeting wird per Zoom-Konferenz stattfinden. Die Einwahldaten lauten:
https://zoom.us/j/95597232027?pwd=aHVMeWplbFVIenVkS2J1S25Dc2RDdz09
Meeting-ID: 955 9723 2027
Kenncode: 754394