Jump to main content Hotkeys
Distributed and Self-organizing Systems
Distributed and Self-organizing Systems

Masterarbeit

Automatic Knowledge Extraction and Description of HCI Research Data
Automatic Knowledge Extraction and Description of HCI Research Data

Research Area

Intelligent Information Management

Advisers

andrelanger

gaedke

Description

In the context of OpenScience, researchers are encouraged to publish their research data in common data repositories so that others can find and reuse it. To increase the findability of such a research dataset, metadata has to be provided to describe all characteristics of the contained data. However, the manual annotation of research datasets is a tedious process and the meta information is often provided in an ambiguous, literal way. On the other hand, a variety of tools already exists that is capable of extracting information from an input file of a particular file type. Therefore, it is assumed, that these tools can also be applied to extract meta information that can be used to describe certain characteristics of research datasets in a semantic fashion.

The aim of this project is to identify and apply these metadata extractors for research data from the Human Computer Interaction knowledge domain. After defining the term research data, a list of relevant file types has to be identified that can occur in this knowledge domain Then, a requirement analysis and a state-of-the-art analysis on existing tools has to be done to extract relevant meta information from different types of research data such as tabular files and multimedia files. Next, a concept has to be designed how different appropriate meta information extraction tools can be used to extract metadata from a given input research dataset file. To increase the reusability of the extracted metadata, the information shall be outputted in an RDF serialization format based on appropriate, well-established ontologies. An implementation and evaluation has to show the feasibility and correctness of the approach. NLP techniques for documents such as pdf or doc files can be excluded from this research project.

 

 

Description (German)

Im Rahmen von OpenScience werden Forscher ermutigt, ihre Forschungsdaten in gemeinsamen Datenrepositorien zu veröffentlichen, damit andere sie finden und wiederverwenden können. Um die Auffindbarkeit eines solchen Forschungsdatensatzes zu erhöhen, müssen Metadaten bereitgestellt werden, die alle Merkmale der enthaltenen Daten beschreiben. Die manuelle Annotation von Forschungsdatensätzen ist jedoch ein langwieriger Prozess, und die Metainformationen werden oft in einer mehrdeutigen, wörtlichen Weise bereitgestellt. Andererseits gibt es bereits eine Vielzahl von Tools, die in der Lage sind, Informationen aus einer Eingabedatei eines bestimmten Dateityps zu extrahieren. Es wird daher angenommen, dass diese Werkzeuge auch zur Extraktion von Metainformationen eingesetzt werden können, mit denen sich bestimmte Eigenschaften von Forschungsdatensätzen semantisch beschreiben lassen.

Das Ziel dieses Projekts ist es, diese Metadatenextraktoren für Forschungsdaten aus der Wissensdomäne Human Computer Interaction zu identifizieren und anzuwenden. Nach der Definition des Begriffs Forschungsdaten muss eine Liste relevanter Dateitypen identifiziert werden, die in dieser Wissensdomäne vorkommen können. Dann muss eine Anforderungsanalyse und eine State-of-the-Art-Analyse bestehender Werkzeuge durchgeführt werden, um relevante Metainformationen aus verschiedenen Arten von Forschungsdaten wie tabellarischen Dateien und Multimedia-Dateien zu extrahieren. Als Nächstes muss ein Konzept entworfen werden, wie verschiedene geeignete Werkzeuge zur Extraktion von Metainformationen aus einer gegebenen Eingabedatei für Forschungsdaten verwendet werden können. Um die Wiederverwendbarkeit der extrahierten Metadaten zu erhöhen, sollen die Informationen in einem RDF-Serialisierungsformat ausgegeben werden, das auf geeigneten, gut etablierten Ontologien basiert. Eine Implementierung und Evaluierung soll die Machbarkeit und Korrektheit des Ansatzes zeigen. NLP-Techniken für Dokumente wie pdf- oder doc-Dateien können von diesem Forschungsprojekt ausgeschlossen werden.

 


Powered by DGS
Edit list (authentication required)

Press Articles