Unstrukturierte Daten

Auf Datensuche mit Text Mining und Web Mining

20.05.2008

Von

Dr. Klaus Manhart hat an der LMU München Logik/Wissenschaftstheorie studiert. Seit 1999 ist er freier Fachautor für IT und Wissenschaft und seit 2005 Lehrbeauftragter an der Uni München für Computersimulation. Schwerpunkte im Bereich IT-Journalismus sind Internet, Business-Computing, Linux und Mobilanwendungen.

Alle Posts des Autors Email:

Information Extraction

Information Extraction (IE) versucht, relevantes Wissen möglichst effizient aus einer Dokumentensammlung zu ziehen. Auf Basis von definierten Regeln analysieren IE Systeme Texte einer Dokumentsammlung und extrahieren spezifische Wörter bzw. Textteile. Dies ist besonders dann sinnvoll, wenn die Anzahl der Dokumente sehr hoch ist und die benötigten Informationen nicht mehr ?in Handarbeit? extrahiert werden können.

Unstrukturierte Texte werden durch IE in eine tabellarische Form überführt und in der Regel in einer Datenbank gespeichert. Die zu extrahierenden Elemente werden klar definiert und sind auf einen bestimmten Informationsbedarf hin ausgerichtet. Derartige Elemente können z.B. Name, Ortschaft, Datum für die Auffindung von Veranstaltungen oder Name, Telefonnummer, Adresse für die Sammlung von Adressen sein.

Doch ohne Vorarbeit geht es auch bei der automatischen Wissensextraktion nicht. So ist ein relativ hoher Vorverarbeitungsaufwand erforderlich, um die gewünschten Daten bzw. Textteile zu beschreiben. Meist erfolgt dies durch die Erstellung von formalen Regeln. Eine weitere Möglichkeit ist, die gewünschten Wörter bzw. Phrasen in einem ersten Schritt manuell auszuzeichnen. Anschließend werden daraus automatisch Regeln generiert, die auf weitere Dokumente angewendet werden können.

Aktuelle Technologie-Themen:

Aktuelle Artikel im Überblick:

Aktuelle Artikel im Überblick:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Events

Aktuelle Podcasts im Überblick:

Aktuelle Webcasts im Überblick:

Aktuelles aus den Hot Topics auf COMPUTERWOCHE: -Anzeige-

Business-Software

Unstrukturierte Daten

Auf Datensuche mit Text Mining und Web Mining

Information Extraction

Aktuelle Technologie-Themen:

Aktuelle Artikel im Überblick:

Aktuelle Artikel im Überblick:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Events

Aktuelle Podcasts im Überblick:

Aktuelle Webcasts im Überblick:

Aktuelles aus den Hot Topics auf COMPUTERWOCHE: -Anzeige-

Aktuelle Technologie-Themen:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Business-Software

Information Extraction

Per E-Mail versenden

Artikel als PDF kaufen

Über den Autor