Repräsentation textueller Daten
Erst wenn diese und andere Vorarbeiten, wie sie allgemein bei der Datenaufbereitung anfallen, erledigt sind, sind die Daten bereit für eine Auswertung. Dann können etwa linguistische Algorithmen analysieren, wie häufig bestimmte Begriffe in einer Textmenge vorkommen, an welchen Stellen sie sich befinden und welche der Begriffe oft im gleichen Zusammenhang erscheinen.
Zur Repräsentation der textuellen Daten dient häufig das Vektorraummodell aus dem Information Retrieval. Das Vektorraummodell stellt Dokumente als multidimensionale Vektoren in einem euklidischen Raum dar. Jedes Dokument wird dabei so in einen Vektor überführt, dass dessen Dimensionen den insgesamt in einem Textarchiv vorkommenden Wörtern entsprechen.
Damit repräsentiert eine Dimension eines Dokumentvektors die Häufigkeit des entsprechenden Wortes im jeweiligen Text. Die Koordinate eines Dokumentes in Richtung eines Wortes gibt die ?Nähe? eines Dokuments zum Wort an. Sind die Vektoren zweier Dokumente topologisch nahe, sind die Dokumente ähnlich.
Es folgt die eigentliche Analysephase beziehungsweise Phase der Musterentdeckung, also das eigentliche Text Mining. Die in dieser Phase verwendeten Verfahren werden von der Problemstellung bestimmt. Die wichtigsten Methoden im Kontext Text Mining stellen wir anschließend vor.
Nach der Musterentdeckung werden die Ergebnisse statistisch ausgewertet und aus betriebswirtschaftlicher Sicht interpretiert. In dieser Phase werden meist auch Visualisierungsverfahren eingesetzt. Dabei wird versucht, Fakten und Themen und deren Zusammenhänge landkartenähnlich zu präsentieren. So können Benutzer verdeckte Zusammenhänge besser erkennen. Eine anspruchsvolle Aufgabe ist dabei die Ableitung von Handlungsempfehlungen, um das betriebliche Projektziel zu erreichen.