XUGS 28: Einführung in die octopus-Plattform

Das nächste Online-Meeting der XML User Group Stuttgart findet statt am

Mittwoch, den 10. April 2024, um 18:30 Uhr

Bei diesem Online-Vortrag stellt Manuel Montero Pineda, Geschäftsführer von data2type, den „octopus“ vor. Octopus ist eine Zusammenarbeit der data2type GmbH und der parsQube GmbH, aus der eine Plattform hervorgegangen ist, die eine Vielzahl von Transformationen und Diensten für die Dokumentenverarbeitung bietet. Sie ermöglicht die Umwandlung von etwa 200 verschiedenen Formaten in Richtung XML, die Erzeugung und Auslesung von Texten sowie deren semantische Anreicherung. Zu den Kernfunktionen gehören Spracherkennung, Übersetzungsdienste, OCR-Dienste und diverse KI-Anwendungen.


Die Anwendungsbereiche von octopus sind vielfältig und umfassen beispielsweise die Vereinheit­lichung von Texten in verschiedenen Sprachen und Formaten, die Erstellung von Chatbots und die Nutzung von KI-Techniken für Feintuning und Regex-basierte Unterstützung. Die Texte werden dabei unabhängig von ihrer ursprünglichen Formatierung oder Semantik verarbeitet, was eine flexible Handhabung von Dokumenten ermöglicht.


Octopus unterstützt auch die Analyse von PDF-Dokumenten und erfasst Informationen, die für spätere Anwendungen, wie das Zurückschreiben in das Originaldokument, genutzt werden können. Die Dokument­struktur, einschließlich Listen, Tabellen, Bilder und Verweise, wird in der Regel in XML verfügbar gemacht, wobei die Transformationen zu Formaten wie u.a. HTML, JATS, DocBook und PDF aus vielen Eingangsformaten möglich sind. Besondere Highlights stellen die Konvertierungs­strecken wie PDF, Word und Excel zu diversen XML-Formaten dar. Mit Hilfe von OFX, der Octopus Formatting eXtensible, können Dokumente ohne Programmier­aufwand in verschiedenen Layouts dargestellt werden, was die Erstellung individueller Formatierungen erleichtert.


Darüber hinaus bietet Octopus KI-Funktionen, wie Keyword-Generierung, Text-Zusammenfassungen, Link-Erkennung und Bildbeschreibungen, die für Vernetzung und Datenbankauswertungen unerlässlich sind. Dies trägt zur Verbesserung der Qualität bei redaktionellen Prozessen bei und ermöglicht eine umfassende automatisierte Auswertung und Anreicherung von Dokumenten. In Planung sind zum Beispiel die Integration von weiteren Services, wie Teile von transpect, parsX, des c-rex.net Information Delivery Service u.a. sowie der Einbau von octopus in verschiedene CMS.

Das Meeting wird per Zoom-Konferenz stattfinden. Die Einwahldaten lauten:
https://zoom.us/j/95597232027?pwd=aHVMeWplbFVIenVkS2J1S25Dc2RDdz09
Meeting-ID: 955 9723 2027
Kenncode: 754394

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert