Masterarbeit
Sicherung der Datenqualität in semantischen Wissensbasen
Research Area
Intelligent Information Management
Students
Advisers
Description (German)
Ein großer Teil des im Internet frei verfügbaren Wissens liegt in Form von inhomogenen, semi-strukturierten Daten vor, welche nur schwach miteinander verknüpft sind und im Allgemeinen keinerlei semantische Klassifizierung beinhalten. Sowohl für das „Internet of Things“, für Web-Dienste als auch für Unternehmen, besonders im Bereich E-Commerce und E-Government, werden die dort zu findenden Informationen immer relevanter. Dies betrifft dabei auch im vermehrten Maß Informationen aus sozialen Netzwerken. Die notwendige Aufbereitung der Daten für eine Nutzbarmachung erfordert aufgrund der enormen Größe der Informationsmenge automatisierte Prozesse. Die Verwendung derartig automatisiert aufbereiteter Daten ist nur dann sinnvoll, wenn auch die Qualität und Kohärenz der resultierenden Wissensbasis verifiziert und wenn nötig verbessert werden kann. Potentiell relevante Qualitätsaspekte sind dabei unter anderem die Herkunft und deren Autorität, Kriterien wie Korrektheit, Genauigkeit, sowie Konsistenz, Aktualität und Relevanz zu einem gegebenen Thema. Entsprechend müssen auch hier automatisierte Prozesse gefunden und angewendet werden.
Ziel dieser Arbeit ist es, Wissen über die Domäne der automatisierten Bewertung und Verbesserung von verlinkten Daten bezüglich Qualität und Kohärenz zu erarbeiten, und darauf aufbauend das Gerüst für eine Umgebung zu schaffen, mit welcher derartige Kriterien überprüft werden könnten. Dazu gilt es zunächst festzustellen, welche Qualitätskriterien für verlinkte Daten existieren, wie genau diese spezifiziert sind, sowie wo und wann sie jeweils relevant sind. Im Folgenden sind bereits existierende Ansätze für die automatisierte Sicherung der Datenqualität, gemessen an diesen Kriterien, zu erforschen, zu kategorisieren und zu bewerten. Für eine Auswahl an Kriterien sollen repräsentative Ansätze detailliert untersucht werden und darauf aufbauend ein Konzept für eine mögliche Implementierung, angepasst auf einen speziellen Anwendungsfall, erarbeitet werden. Schließlich soll eine modulare Umgebung geschaffen werden, welche einen RESTful Service für die Sicherung der Datenqualität zur Verfügung stellt und entsprechend des Konzeptes beispielhaft implementiert wird. Abschließend ist die eigene Lösung anhand der Anfangs aufgestellten Anforderungen zu evaluieren.