Praktikum / Bachelorarbeit / Masterarbeit
Construction of an interdisciplinary research dataset for Humans Interacting with
Intelligent Devices
Research Area
Intelligent Information Management
Advisers
Description
In this project we want to create a test dataset for the interdisciplinary publication of research data.
The background is that a variety of tools, methods and processes are being
developed worldwide to improve the discoverability of research data across disciplinary
boundaries according to the FAIR Principles.
This includes, for example,
automatic knowledge extraction, input support for metadata generation, or conformance and
data quality aspects. In order to make the performance of the different approaches
comparable, assessable and interpretable, reference data sets are needed. For specific
knowledge domains these already exist in a standardized way in the form of gold standards,
but for cross-domain issues this is difficult.
In the following, the aim is to create a collection of research data with associated structured accurate metadata and concept mappings contained therein. For this, suitable methods (based on existing real data from OpenScience repositories, synthetic, crowd-based, ...) are to be discussed. The target dataset should focus on the problem domain Human-Interaction with intelligent devices and include a representative set of research data with files in different formats, sizes, sources and qualities.
As a result, such a dataset shall be made practically available on an appropriate scale, and the problem definition, requirements, state-of-the-art analysis, design, implementation, and evaluation shall be documented.
--
If you are basically interested in such a topic, please contact me via email (andre.langer@informatik.tu-chemnitz.de ) so that we can discuss further details or find an alternative idea together.
Description (German)
In diesem Projekt wollen wir einen Testdatensatz für die interdisziplinäre Veröffentlichung von Forschungsdaten erstellen.
Hintergrund ist, dass weltweit eine Vielzahl von Tools, Methoden und Prozessen
entwickelt werden, um die Auffindbarkeit von Forschungsdaten über
Disziplingrenzen hinweg gemäß der FAIR Principles zu verbessern.
Dies umfasst beispielsweise die automatische Wissensextraktion, die
Eingabeunterstützung für die Generierung von Metadaten oder auch
Konformitäts- und Datenqualitätsaspekte. Um die
Leistungsfähigkeit der unterschiedlichen Ansätze vergleichbar, bewertbar
und interpretierbar zu machen, werden Referenzdatensätze benötigt.
Für spezifische Wissensbereiche gibt es diese bereits standardisiert in Form von
Gold-Standards, für domänenübergreifende Fragestellungen ist
dies nur schwer möglich.
Im Folgenden geht es darum, eine Sammlung von Forschungsdaten mit dazugehörigen strukturierten akkuraten Metadaten und darin enthaltenen Konzept-Zuordnungen zu erstellen. Hierfür sind geeignete Verfahren (basierend auf existierenden Realdaten aus OpenScience-Repositorien, synthetisch, crowdbasiert, ...) zu diskutieren. Der Zieldatensatz soll sich auf das Problemumfeld Human-Interaction with intelligent devices konzentrieren und eine repräsentative Menge an Forschungsdaten als Dateien in unterschiedlichen Formaten, Größen, Quellen und Qualitäten umfassen.
Als Ergebnis ist ein solcher Datensatz in angemessenem Umfang praktisch bereitzustellen, sowie die Problemstellung, Anforderungen, State-of-the-Art-Analyse, Konzeption, Umsetzung und Evaluation zu dokumentieren.
--
Wenn Sie grundsätzlich an einem solchen Thema interessiert sind, kontaktieren Sie mich bitte per E-Mail (andre.langer@informatik.tu-chemnitz.de ), damit wir weitere Details besprechen oder gemeinsam eine alternative Variante finden können.