Unstrukturierte DatenIn der Wirtschaftsinformatik und Computerlinguistik sind unstrukturierte Daten digitalisierte Informationen, die in einer nicht formalisierten Struktur vorliegen und auf die dadurch von Computerprogrammen nicht über eine einzelne Schnittstelle aggregiert zugegriffen werden kann. Beispiele sind digitale Texte in natürlicher Sprache und digitale Tonaufnahmen menschlicher Sprache. EinordnungUnterschieden werden unstrukturierte Daten von strukturierten und semistrukturierten Daten. Betrachtet man eine E-Mail, so liegt diese in einer gewissen Struktur vor: Sie enthält einen Empfänger, einen Absender und eventuell einen Titel. Damit gehört sie zu den semistrukturierten Daten. Der Inhalt der E-Mail selbst ist jedoch strukturlos. Die automatische Nutzbarkeit unstrukturierter Daten ist dadurch eingeschränkt, dass für sie kein Datenmodell und meist auch keine Metadaten vorliegen. Auch in Textdokumenten sind Metadaten und Daten vermischt. Um Strukturen daraus zu gewinnen, ist Modellierung erforderlich. Des Weiteren wird von unstrukturierten Daten im Zusammenhang mit der Ablage von Dokumenten ohne vorhandenem Data-Warehousing gesprochen.[1] Dadurch sind diese nicht indizierbar und können dementsprechend nicht gemeinsam durchsucht werden. BedeutungViele Daten sind bei ihrem Ursprung unstrukturiert. Sie gewinnen Struktur, indem sie durch menschliche Intervention in ein Schema gebracht werden. Der Vorgang der Strukturierung kann Nachteile hervorrufen, da er oft mit einem Informationsverlust verbunden ist. Im Unternehmensumfeld liegen oftmals wichtige Informationen in unstrukturierten Daten vor, deren Nichterfassung auch rechtliche Probleme verursachen kann.[2] Daher befassen sich die Felder Wissensmanagement und Datenmanagement mit deren Integration und Verwaltung. Um die unstrukturierten Daten mit Strukturen zu versehen, existiert im Bereich Open Source das Framework UIMA (Unstructured Information Management Architecture). Dies ist ein Framework zum Erstellen von Anwendungen zur Verarbeitung von unstrukturierten Informationen. Behandlung von unstrukturierten DatenSpeziell für die Strukturierung der Daten können folgende Verfahren in Betracht gezogen werden:
Weblinks
Einzelnachweise
|