Information Extraction
Information Extraction (IE) versucht, relevantes Wissen möglichst effizient aus einer Dokumentensammlung zu ziehen. Auf Basis von definierten Regeln analysieren IE Systeme Texte einer Dokumentsammlung und extrahieren spezifische Wörter bzw. Textteile. Dies ist besonders dann sinnvoll, wenn die Anzahl der Dokumente sehr hoch ist und die benötigten Informationen nicht mehr ?in Handarbeit? extrahiert werden können.
Unstrukturierte Texte werden durch IE in eine tabellarische Form überführt und in der Regel in einer Datenbank gespeichert. Die zu extrahierenden Elemente werden klar definiert und sind auf einen bestimmten Informationsbedarf hin ausgerichtet. Derartige Elemente können z.B. Name, Ortschaft, Datum für die Auffindung von Veranstaltungen oder Name, Telefonnummer, Adresse für die Sammlung von Adressen sein.
Doch ohne Vorarbeit geht es auch bei der automatischen Wissensextraktion nicht. So ist ein relativ hoher Vorverarbeitungsaufwand erforderlich, um die gewünschten Daten bzw. Textteile zu beschreiben. Meist erfolgt dies durch die Erstellung von formalen Regeln. Eine weitere Möglichkeit ist, die gewünschten Wörter bzw. Phrasen in einem ersten Schritt manuell auszuzeichnen. Anschließend werden daraus automatisch Regeln generiert, die auf weitere Dokumente angewendet werden können.