Sprungmarken

Servicenavigation

Hauptnavigation

Sie sind hier:

Hauptinhalt

Sonderforschungsbereich 876

SFB876

SFB 876: Verfügbarkeit von Information durch Analyse unter Ressourcenbeschränkung

Sprecher: Prof. Dr. Katharina Morik, Fakultät für Informatik, TU Dortmund

Förderung: 2010–2018 durch die Deutsche Forschungsgemeinschaft

Das Gebiet der eingebetteten Systeme und das der Datenanalyse (Data Mining) zusammenzubringen, ermöglicht eine Fülle von Anwendungen in Informatik, Biomedizin, Physik und Maschinenbau. Einerseits werden die eingebetteten Systeme durch die Datenanalyse optimiert, andererseits können Analysealgorithmen z.B. als FPGAs realisiert werden. Die starken Beschränkungen eingebetteter Systeme in Rechnenkapazität, Speicher und Energie erfordern neue Algorithmen für Lernverfahren. Diese Ressourcen-beschränkten Lernverfahren lassen sich genauso für sehr große Datenmassen auch auf Servern einsetzen.

 

Die Fakultät für Informatik ist über folgende Teilprojekte (TP) an dem Sonderforschngsbereich beteiligt.

 

TP A1: Data Mining für ubiquitäre Systemsoftware

Leitung: Prof. Dr. Katharina Morik, Prof. Dr. Olaf Spinczyk, beide Fakultät für Informatik, TU Dortmund

Das Teilprojekt A1 erarbeitet Algorithmen der Datenanalyse für ubiquitäre Systeme. Algorithmen der Datenanalyse sollen möglichst wenig Ressourcen verbrauchen, so dass sie auch auf eingebetteten Systemen ausführbar sind. Gleichzeitig sollen sie den Ressourcenverbrauch ubiquitärer Systeme verringern. Im Projekt werden Algorithmen für alle Schritte der Informationsgewinnung, von der Datenerfassung bis zur Evaluation des Nutzens gelernter Modelle, entwickelt. Untersucht werden die ressourcenschonende Datenerhebung, die Aggregation von Datenströmen, graphische Modelle unter Ressourcenbeschränkung, Approximationen probabilistischer graphischer Modelle sowie die umfassende Systemanpassung zur Ressourcenschonung.

 

TP A2: Algorithmik von Lernverfahren in eingebetteten Systemen

Leitung: Prof. Dr. Christian Sohler, Prof. Dr. Jens Teubner, beide Fakultät für Informatik, TU Dortmund

Ziel dieses Projekts ist die Entwicklung von Entwurfsparadigmen für Lernalgorithmen in eingebetteten Systemen. Dazu wollen wir einzelne wichtige Merkmale eingebetteter Systeme identifizieren, diese theoretisch modellieren, in den entwickelten Modellen Algorithmen entwerfen und analysieren und dann empirisch die Performanz dieser Algorithmen auswerten, um Rückschlüsse auf die Effizienz der Algorithmen und die Aussagekraft der Modelle ziehen zu können. Aus den auf diese Weise erlangten Erkenntnissen wollen wir dann allgemeine algorithmische Entwurfsparadigmen ableiten.

 

TP A3: Methoden der Effizienten Ressourcennutzung in Algorithmen des Maschinellen Lernens

Leitung: Prof. Dr. Jens Rahnenführer, Fakultät Statistik, Prof. Dr. Peter Marwedel, Fakultät für Informatik, beide TU Dortmund

In diesem Teilprojekt wird eine Brücke zwischen Lernverfahren und Ressourceneffizienz geschlagen. Im Rahmen der zweiten Phase dieses Teilprojekts sollen für das maschinelle Lernen Methoden der Modellwahl entwickelt werden, die vorhandenen Ressourcen möglichst effizient nutzen. Für Probleme mit einer sehr großen Anzahl an Beobachtungen oder Variablen sollen aus einer umfangreichen Menge von rechenintensiven Lernverfahren diejenigen mit den besten Vorhersageleistungen ausgewählt werden. In der personalisierten Medizin soll exemplarisch gezeigt werden, wie durch die gemeinsame Entwicklung von Lernern und Realzeitsystemen die Vorhersage des Einflusses von Medikamenten verbessert wird.

 

TP A4: Ressourcen-effiziente und verteilte Plattformen zur integrativen Datenanalyse

Leitung: Prof. Dr. Olaf Spinczyk, Fakultät für Informatik, Prof. Dr. Michael ten Hompel, Fakultät Maschinenbau, Prof. Dr. Christian Wietfeld, Fakultät für Elektrotechnik und Informationstechnik, alle TU Dortmund

Das langfristige Ziel des Teilprojekts A4 ist die Erforschung einer Methodik, welche sowohl den Ressourcenverbrauch einer Systemplattform inklusive aller Hardware- und Systemsoftwarekomponenten erfassen kann, als auch hilft, die dazugehörigen Ressourcenmodelle zu entwickeln. Wichtige neue Forschungsfragen in diesem Kontext sind die Automatisierung der Erstellung von Ressourcenmodellen, die Einbeziehung der Produktion von Ressourcen, z.B. durch Energy Harvesting, sowie die stärkere Berücksichtigung von Realzeitanforderungen. Zudem soll die Betrachtungsebene von der Einzelplattform auf komplexere verteilte, hochgradig vernetzte Gesamtsysteme angehoben werden.

 

TP A5: Austausch und Fusion von Information unter Verfügbarkeits- und Vertraulichkeitsanforderungen in Multiagentensystemen

Leitung: Prof. Dr. Gabriele Kern-Isberner, Prof. Dr. Joachim Biskup, beide Fakultät für Informatik, TU Dortmund

Zeitraum: 2010–2014

Um Verfügbarkeit von Information einerseits, ihre Vertraulichkeit andererseits mehrseitig sicher zu verwirklichen, müssen Konzepte und Algorithmen entwickelt und erprobt werden, durch die im Allgemeinen konfliktbehaftete Sicherheitsinteressen der Handelnden und Betroffenen ausgedrückt und technisch durchgesetzt werden. Dies muss auch dann gelingen, wenn die technische Infrastruktur nur beschränkten Einsatz von Zeit, Speicher und Nachrichten ermöglicht. Dazu erweitert dieses Teilprojekt Datenbanktechniken für Multiagentensysteme, insbesondere um Data Mining in Embedded Systems zu behandeln.

 

TP A6: Ressourceneffiziente Analyse von Graphen

Leitung: Prof. Dr. Christian Sohler, Prof. Dr. Petra Mutzel, beide Fakultät für Informatik, TU Dortmund, Prof. Dr. Kristian Kersting, seit 2017 TU Darmstadt

Verlinkte Daten und Netzwerke treten immer häufiger im Zusammenhang mit eingebetteten Systemen auf. Alltagsgegenstände produzieren kontinuierlich Daten und kommunizieren sowohl untereinander als auch mit dem Nutzer. Eine natürliche Repräsentation von verlinkten Daten bilden Graphen, die eine Menge von Objekten mit den zwischen diesen Objekten bestehenden Querbezügen darstellen. Wir wollen daher Ansätze und Algorithmen zur Klassifikation von Graphen und verlinkten Datensätzen unter Ressourcenbeschränkungen entwickeln. Dazu sollen randomisierte Verfahren aus der Algorithmentheorie mit Lernverfahren für Graphen und Methoden des Algorithm Engineerings verbunden werden.

 

TP B2: Ressourcen-optimierte Echtzeitanalyse stark Artefakt-behafteter Bildsequenzen zur Detektion von Nanoobjekten

Leitung: Prof. Dr. Heinrich Müller, Fakultät für Informatik, TU Dortmund; Dr. Roland Hergenröder, ISAS; Prof. Dr. Jian-Jia Chen, Fakultät für Informatik, TU Dortmund

Das Projekt befasst sich mit echtzeitkonformen Bildanalyseverfahren zur Detektion von Nanoobjekten bei limitierten Ressourcen, insbesondere der Energie. Das wesentliche Ziel ist eine Optimierung von Hardwareeffizienz, Zeiteffizienz und Detektionsqualität geeigneter Datenanalyseverfahren. Als Grundlage dient die neuartige PAMONO-Technik (Plasmon Assisted Microscopy of Nano Objects) zur Erkennung von Nanoobjekten. Der PAMONO-Sensor soll auf neue Bereiche, wie die simultane Erkennung mehrerer Typen von Nanoojekten, die Detektion von Partikeln in Luft und von nicht ortsständigen Nanoobjekten (z.B. Grippeviren) erweitert und zum verteilten, mobilen Einsatz miniaturisiert werden.

 

TP B3: Data Mining in Sensordaten automatisierter Prozesse

Leitung: Prof. Dr. Jochen Deuse, Fakultät Maschinenbau, Prof. Dr. Katharina Morik, Fakultät für Informatik, beide TU Dortmund

Die individuelle Qualitätsprognose von Erzeugnissen ermöglicht die Vermeidung interner Fehlerkosten, wenn sie realzeitlich im laufenden Produktionsprozess geschieht. Eine solche Prognose basiert auf Sensordaten an verschiedenen Punkten des Produktionsprozesses. Für die Entscheidung und sich daraus ableitende Maßnahmen stehen in starr verketteten Prozessen oft nur wenige Sekunden zur Verfügung. Im Rahmen des Teilprojekts B3 wird untersucht, wie dezentrales Data Mining unter der Ressourcenbeschränkung Zeit zur Prognose der Produktqualität genutzt und in die Produktion eingebunden werden kann.

 

TP B4: Analyse und Kommunikation für die dynamische Verkehrsprognose

Leitung: Prof. Dr. Christian Wietfeld, Fakultät für Elektrotechnik und Informationstechnik, TU Dortmund, Prof. Dr. Michael Schreckenberg, Universität Duisburg-Essen, Prof. Dr. Kristian Kersting, seit 2017 TU Darmstadt

Ziel ist die Erforschung hochpräziser Prognoseverfahren für das dynamische Verhalten des Straßenverkehrs basierend auf ressourceneffizienter, mobilfunkgestützter Übertragung von extended Floating Car Data (xFCD) und weiteren Datenquellen. Auslöser für Störungen des Fahrzeugflusses sollen durch die von den Fahrzeugen gesammelten Daten frühzeitig erkannt und daraus in Echtzeit Gegenmaßnahmen eingeleitet werden. Dazu ist die Entwicklung dynamischer, mikroskopischer Verkehrsmodelle vorgesehen, welche, basierend auf Empfehlungen des Data Minings, in Echtzeit neu parametrisierbar sind und damit die Heterogenität des innerstädtischen Verkehrs besser abbilden können.

 

TP C1: Merkmalsselektion in hochdimensionalen Daten am Beispiel der Risikoprognose in der Onkologie

Leitung: Prof. Dr. Alexander Schramm, Universität Duisburg-Essen; Prof. Dr. Sven Rahmann, seit 2011 Universität Duisburg-Essen

Die verlässliche Interpretation sehr hochdimensionaler Daten bei gleichzeitig geringer Stichprobenzahl ist eine bisher ungelöste Herausforderung der Datenanalyse. Robustheit bei der Merkmalsauswahl und bei der individuellen Vorhersage ist wichtig. Ziel des Projektes ist die Konstruktion zuverlässiger Prädiktionsmodelle zur präzisen Risikoabschätzung in der Onkologie am Beispiel des Neuroblastoms, eines häufigen soliden Tumors des Kindesalters. Mit Hilfe probabilistischer graphischer Modelle auf der Basis von Next Generation Sequencing- und weiterer Hochdurchsatzdaten wird die Interpretierbarkeit der Modelle deutlich verbessert und die Tumorentwicklung über längere Zeiträume modelliert.

 

TP C3: Mehrstufige statistische Analyse von hochfrequenten raumlichzeitlichen Prozessdaten

Leitung: Prof. Dr. Katharina Morik, Fakultät für Informatik, Prof. Dr. Dr. Wolfgang Rhode, Dr. Tim Ruhe, beide Fakultät Physik, alle TU Dortmund

Die Analyse sehr hochfrequenter und hochdimensionaler Prozessdaten erfolgt zumeist in mehreren Arbeitsschritten, wobei interessante weiter zu verarbeitende Daten aufgrund mangelnden Speicherplatzes der Messsysteme in Echtzeit ausgewählt werden müssen. Wir wollen anhand der Entdeckung und Klassifizierung astrophysikalischer Teilchen, die als transiente Muster in Raum-Zeit-Daten auftreten, generalisierbare robuste Techniken zur Datenreduktion, -klassifikation und -modellierung entwickeln sowie Strategien für die geeignete Kombination dieser Analyseschritte entwerfen.

 

TP C4: Regressionsverfahren für sehr große, hochdimensionale Daten

Leitung: Prof. Dr. Katja Ickstadt, Fakultät Statistik, Prof. Dr. Christian Sohler, Fakultät für Informatik, beide TU Dortmund

Die Skalierbarkeit moderner Regressionsverfahren stößt beim Einsatz für große Datenmengen oder in eingebetteten Systemen an ihre Grenzen. Ziel dieses Projekts ist die Entwicklung von hocheffizienten Regressionsverfahren. Dabei entwickeln wir zum einen Algorithmen zur Reduktion der Anzahl der Beobachtungen für generalisierte lineare sowie Bayessche Regression z.B. durch zufällige lineare Projektionen und Stichproben. Zum anderen verfolgen wir den Entwurf von Verfahren zur Lösung nichtparametrischer Modelle unter Ressourceneinschränkungen an ihre Beschreibungskomplexität und unter Strukturannahmen wie z.B. Monotonie.

 

TP C5: Echtzeitanalyse und Speicherung für hochvolumige Daten aus der Teilchenphysik

Leitung: Prof. Dr. Bernhard Spaan, Fakultät Physik, Prof. Dr. Jens Teubner, Fakultät für Informatik, beide TU Dortmund

Das LHCb-Experiment am Large Hadron Collider (LHC) in Genf dient dazu, weitere Informationen zur Asymmetrie von Materie und Antimaterie zu gewinnen. Dabei fallen Datenmengen in der Größenordnung von mehreren Terabytes pro Sekunde an. Aufgrund der Menge können diese Daten nicht vollständig gespeichert werden, sondern müssen in Echtzeit auf einer Rechnerfarm analysiert und gefiltert werden. Im Rahmen des Teilprojekts sollen daher Methoden entwickelt werden, um diese Effizienz nachhaltig zu steigern. Dazu sollen Ansätze des Hardware/Software Co-Design, insbesondere unter Verwendung von Field-Programmable Gate Arrays (FPGAs) und Grafikprozessoren (GPGPUs), eingesetzt werden.