UIMA - freie Software für die Textanalyse

11.07.2006
Von Can Unal

Über externe Bausteine erweiterbar

UIMA indiziert also unstrukturierte Inhalte (Texte, Audio, Videos, Bilder) und übergibt die erzeugten Metadaten an Suchmaschinen. Mit Hilfe des Software Developer Kit (SDK) kann jedes Unternehmen somit seine Suche und seine Wissensmanagement-Tools entwickeln.

Jede auf UIMA basierende Applikation durchläuft zwei Phasen: Analysieren und Erzeugen. Das Framework bietet dabei eine einheitliche Schnittstelle für die verschiedenen Textanalysemodule und schafft die Möglichkeit, Daten und Inhalte objektrelational abzubilden. Diese Komponenten bezeichnet die IBM als Annotatoren, die den vorgeschalteten Anwendungen die entsprechend aufbereiteten Informationen in Form von Metadaten liefert. Beispiele für solche Annotatoren sind:

  • Tokenizer (Zerlegung eines Textes in einzelne Wörter (Tokens)

  • Satzerkenner (Erkennung von Sätzen basierend auf Tokens

  • Summarizer (Auswahl von n Sätzen eines Dokuments, die dieses am besten zusammenfassen).

Jeder Annotator muss seine Fähigkeiten gegenüber dem Framework deklarieren, das heißt, welche Art von Analyseergebnissen benötigt es, um für eine bestimmte vordefinierte Sprache entsprechende Ergebnisse zu liefern.