Segmentierung von Websites
Bei der Segmentierung von Websites und anderen Daten in thematisch zusammenhängende Bereiche können Algorithmen der Clusteranalyse herangezogen werden. Die Ähnlichkeitsberechnung zweier Dokumente kann beispielsweise mit statistischer Gewichtung von Schlagwörtern erfolgen. In Frage kommen auch Feature-Vektoren aus einer linguistischen Analyse, die allerdings aufwändig errechnet werden müssen. Methodisch werden dabei meist die partitionierenden den hierarchischen Clusterverfahren vorgezogen, da die Distanzberechnungen hierarchischer Verfahren schnell an Komplexitätsgrenzen stoßen.
Neben der Klassifikation von Webseiten aufgrund des Textinhaltes, können auch die Ergebnisse der Klassifikation der Nachbardokumente herangezogen werden. Als Techniken werden sowohl klassische statistische Verfahren wie die Diskriminanzanalyse als auch Künstliche Neuronale Netze und Entscheidungsbäume eingesetzt.