Masterarbeit
A Data Science Approach to Academic Career Planning
Completion
2022/12
Research Area
Students
Eni Voci
Advisers
Dr.-Ing. Sebastian Heil
Description
Academic careers towards a professorship require planning based on a multitude of information from various data sources. This particularly comprises an overview of potentially relevant positions. Due to the long-term time horizon, these are not only explicitely vacant positions posted on according job portals, but also currently occupied positions which may become vacant. The information required for this is available on the Web as global and decentralized information system. Manual extraction, however, is very time-consuming.
In this thesis, an automated solution for extracting the relevant information from the Web is designed and implemented. The solution has to automatically create a tabular, filterable, sortable and searchable overview on the relevant positions within a limited language/geographical region (e.g. D-A-CH countries) from suitable structured and unstructured data sources. At least the following information is required, if available: Country, State, University, Type (University/University of Applied Science), Faculty/Department, Institute, Chair, Professorship, URLs, Job Holder, Appointment Date, Grouping (W2/W3), Vacancy, Application Deadline. Only publicly accessible web resources should serve as information sources, e.g. DFG GERiT, DBPedia, University homepages.
The objective of this thesis is the creation of a solution based on methods from the fields of Web Scraping, Data Science and Natural Language Processing (NLP). The solution will be evaluated in experiments regarding correctness and completeness of the extracted data against a test dataset and regarding the usability of the results overview.
Description (German)
Akademische Karriereplanung auf dem Weg zur eigenen Professur benötigt eine Vielzahl von Informationen aus verschiedenen Datenquellen. Dazu zählt insbesondere ein Überblick über die potentiell relevanten Stellen. Aufgrund der langfristigen Zeithorizonte bei der Planung sind dies nicht nur explizit vakante und auf entsprechenden Portalen ausgeschriebene Stellen, sondern auch aktuell besetzte Stellen, die möglicherweise frei werden. Die hierfür nötigen Informationen sind im Web als globalem und dezentralem Informationssystem verfügbar. Jedoch ist die manuelle Extraktion sehr zeitaufwendig.
In dieser Arbeit soll eine automatisierte Lösung zur Extraktion der relevanten Informationen aus dem Web konzipiert und implementiert werden. Die Lösung muss mittels geeigneter strukturierter und unstrukturierter Datenquellen automatisiert eine tabellarische filter-/sortier- und durchsuchbare Übersicht über die relevanten Stellen innerhalb eines begrenzten Sprach- bzw. Geografischen Raumes (bspw. D-A-CH) erstellen. Benötigt werden mindestens folgende Informationen, soweit vorhanden: Land, Bundesland/Kanton, Hochschule, Art (Universität/Fachhochschule, Fakultät/Fachbereich, Institut, Lehrstuhl, Professur, URLs, Stelleninhaber, Berufungsdatum, Einordnung (W2/W3), Vakanz, Bewerbungsfristen. Als Informationsquellen sollen ausschließlich öffentlich zugängliche Webresourcen verwendet werden, etwa DFG GERiT, DBPedia, Hochschulswebseiten.
Ziel dieser Arbeit ist die Konzipierung eines geeigneten Ansatzes basierend auf Methoden aus den Bereichen Web Scraping, Data Science und Natural Language Processing (NLP). Die Lösung wird experimentell hinsichtlich Korrektheit und Vollständigkeit der Extrahierten Daten gegenüber einem Testdatensatz und hinsichtlich der Nutzbarkeit der Ergebnisübersicht evaluiert.