Nachlese XUGS 28: Octopus-Framework

Am gestrigen 10. April 2024 hat uns Manuel Montera Pineda von data2type das neue Octopus-Framework zum Konvertieren und Anreichern von Dokumenten vorgestellt. Die aktuell bereits mögliche Ausführung von ca. 500 Konvertierungsstrecken mit unterschiedlichen Ein- und Ausgabeformaten soll in den kommenden Monaten und Jahren auf deutlich über 1000 anwachsen. Als Eingabeformate kommen nicht nur bereits getaggte Dokumente in Frage, sondern auch unstrukturiertere Inhalte wie etwa aus PDF-Dateien.

Manuel Montero Pineda stößt die Octopus-Transformation einer PDF-Datei der Bundesregierung auf der Kommandozeile an

Neben dem Taggen von typischen Textbereichen wie Überschriften, Absätzen, Tabellen und Fußnoten werden auch interne Verweise erkannt und verlinkt und Grafiken als solche übernommen und eingebettet. Octopus lässt sich sowohl über eine Kommandozeile bedienen als auch – zukünftig – über einen Webservice anstoßen. Außerdem hat Manuel Montero auch schon eine KI-gestützte Chat-Schnittstelle präsentieren können, welche ausschließlich mit dem kuratierten Schulungsmaterial von data2type gefüttert wurde und somit auch qualitative Antworten rund um alle X-Technologien liefert.

Eine Octopus-Ausgabe (PDF nach DocBook)

Weitere Infos zum Nachlesen über octopus gibt’s auf der datat2type-Homepage unter https://www.data2type.de/software/octopus-xml-framework; für die Freundinnen und Freunde des persönlichen Austauschs per Webkonferenz gibt es außerdem gute Nachrichten: XUGS 28 war nur der Auftakt einer ganzen Vortragsserie. Der nächste Termin, in dem es um die Eingabeformate gehen wird, welche Octopus verarbeiten kann, wird am 29.04.2024 von 18-19 Uhr stattfinden, zwei weitere Termine sind geplant. Nähere Infos dazu finden sich auf der data2type-Homepage.

Und last but not least wurde die gestrige Sitzung aufgezeichnet und kann hier angeschaut werden:

https://drive.google.com/file/d/1uyIBliHGAme6uJ0or5F4hz47iKtQez78/view