Text-Mining-Methoden zur Unterstützung von Forschungsprojekten am
Beispiel eines semiautomatisierten Reviews über Sensordatenanalyse in der Fertigungsindustrie
Die Wissenschaft ist ein kumulatives Unterfangen. Neues Wissen entsteht im Allgemeinen durch den Prozess der Interpretation und Kombination bereits vorhandenen Wissens. Literaturreviews spielen in diesem Prozess eine entscheidende Rolle – sie sind unverzichtbarer Bestandteil eines jeden Forschungsprojektes, denn sie ermöglichen es, auf einem vorhandenen Wissenskörper aufzubauen, anstatt das Rad immer wieder neu zu erfinden. Angesichts ständig wachsender Publikationszahlen stellen sie jedoch eine zeitaufwändige
Sisyphusarbeit dar, sodass ein hoher Bedarf an Werkzeugen besteht, welche den Literaturreview-Prozess unterstützen und beschleunigen können.
mayato hat im Rahmen einer Masterthesis[1] den Einsatz neuartiger Text-Mining-Methoden erprobt, um zur Unterstützung von Literaturreviews die Synthese der gesammelten Literatur zu automatisieren. Mit dem erprobten Analysemodell werden durch Googles Paragraph-Vektor-Algorithmus Forschungstexte in einen Vektorraum abgebildet, in welchem Distanzmessungen zum Vergleich der Forschungstexte möglich sind, unter Berücksichtigung von Semantik und linguistischen Phänomenen wie Synonymie und Ambiguität. Eine Matrix paarweiser Distanzen zwischen allen vektorisierten Forschungstexten dient als Input für ein hierarchisches Clustering, welches die Aufgabe hat, zusammengehörige Themen in der Literatur automatisch zu finden. Die Ergebnisse werden auf verschiedene Weisen in Dendrogrammen visualisiert und für jedes Literaturcluster werden mittels Rapid Automated Keyword Extraction aussagekräftige Schlüsselwörter extrahiert. Zusätzlich informiert ein auf Latent Dirichlet Allocation basierendes Topic Model über die durchschnittliche Themenverteilung in jedem Literaturcluster.
Der Vortrag soll das vielversprechende Potential dieser Methoden anschaulich am Beispiel der teilweisen Automatisierung eines Literaturreviews über Sensordatenanwendungen in der Fertigungsindustrie demonstrieren. Während die Methoden effizient für die Strukturierung und Synthese sehr großer Mengen beliebiger Arten von Text dienen können, sollen die Zuhörer inspiriert werden, über die Einsatzmöglichkeiten von Text-Mining in ihren Organisationen nachzudenken.
[1] Titel: „Reconstructing the Giant: Ein semiautomatisiertes Review der Literatur über Sensordatenanalyse in der industriellen Fertigung“, Daniel Krause, Technische Universität Darmstadt
Daniel Krause – mayato GmbH
Daniel Krause hat Wirtschaftsinformatik im Master an der TU Darmstadt studiert und ist Data Scientist und Data Engineer bei mayato. Sein Schwerpunkt liegt auf Analyseanwendungen im Bereich der Fertigung und der Verarbeitung industrieller Sensordaten. Er ist außerdem Experte für Text Mining, Datenvisualisierung und Big Data Analytics.