Skip to main content
swissICT Booster  |  M&F Academy  |  M&F Events   |  +41 44 747 44 44  | 
5 Minuten Lesezeit (956 Worte)

Data Science in der Industrie 4.0

Im Rahmen eines zwei-tägigen Workshops hat uns der erfahrene Data Scientist Dr. Stefan Pauli das Wichtigste zu Data Science in der Industrie 4.0 vermittelt. Im Detail wurden die Algorithmen K-Nearest Neighbour, Random Forrest und K-Means (Clustering) betrachtet. Die Zusammenfassung findet ihr hier...  

Worum geht es bei Data Science?

Data Science ist der Überbegriff für die Auswertung von Daten. Es umfasst nicht nur die statistische Auswertung eines Datensatzes, sondern auch Zusammenhänge in einem Datensatz zu erforschen und neue Erkenntnisse für Vorhersagen zu gewinnen.
Diese Zusammenhänge können beispielsweise zur Optimierung eines Produktionsprozesses verwendet werden.

Sensitivitätsanalyse

Mit einer Sensitivitätsanalyse wird ermittelt wie stark der Einfluss einer Änderung bei einem Input auf die Eigenschaften des Outputs sind. 
Beispielsweise werden in einem Produktionsprozess die Materialeigenschaften der Rohmaterialien R1 - R3 gemessen, sowie die Qualität des daraus entstandenen Produkts P.

Data Science Sensitivitätsanalyse

Durch die Sensitivitätsanalyse wird nun ersichtlich, dass die Materialeigenschaft von R2 einen sehr grossen Einfluss auf die Qualität des Produkts hat. Änderungen in den Materialeigenschaften von R1 und R3 beeinflussen die Qualität weniger stark.
Diese Erkenntnis ermöglicht es dem Hersteller die Qualität der Produktion zu steigern, indem er die Materialeigenschaften von R2 besser kontrolliert.

Eigenschaft
Sensitivität zu P
R1 5%
R2 80%
R3 15%

 

Machine Learning

Was haben Kreditkartenbetrug, Produktionsprozesse oder Komponentenverschleiss gemeinsam?

  1. Es gibt zum jetzigen Zeitpunkt unbekannte Werte, welche wir gerne Voraussagen würden.
    1. Ist diese Transaktion von dem Karteninhaber oder von Kriminellen getätigt worden?
    2. Welche Qualität wird das Produkt aufweisen?
    3. Wann wird die Komponente unbrauchbar werden?
  2. Es wird eine funktionale aber unbekannte Abhängigkeit der gewünschten Werte von bekannten Daten vermutet.
    1. Der legitime Karteninhaber folgt anderen Einkaufsmustern als ein Betrüger.
    2. Die Qualität des Produktes wird von den Eigenschaften der Produktionskette beeinflusst.
    3. Die Lebensdauer einer Komponente hängt von den Eigenschaften des Einsatzumfeldes ab.
  3. Es können viele Datenpunkte gesammelt werden, welche auch früheren unbekannten Werten zugeordnet werden können
    1. Die Transaktionen der letzten Jahre können Betrugsfällen zugeordnet werden.
    2. Die Qualität der vergangen Produktion kann bemessen und den damaligen Produktionsparametern zugeordnet werden.
    3. Die Lebensdauer einer ersetzten Komponente kann erfasst werden.

Diese Art von Problemen sind gute Anwendungen für "Machine Learning", einem Gebiet von Data Science, welches versucht anhand der erhobenen Daten den funktionalen Zusammenhang zu schätzen. Um damit einerseits Voraussagen machen zu können, aber auch Einblicke in den Prozess zu erhalten. Beispielsweise könnte eine Sensitivitätsanalyse Auskünfte über Produktionsprozesse geben, welche robust gegenüber kleinen Änderungen eines Parameters sind.

Clustering

Ein weiteres Gebiet von Data Science kommt zur Anwendung, wenn in Punkt 1 der obigen Auflistung nicht klar ist, wonach überhaupt gesucht werden soll (in welchem Fall natürlich auch in Punkt 3 die Notwendigkeit von früher unbekannten Werten weg fällt): Beim sogenannten "Clustering" versucht man die erhobenen Daten sinnvoll zu gruppieren. Dadurch erhält man ein tieferes Verständnis für die Domäne. Im Workshop haben wir dazu ein Beispiel angeschaut, welches das Verhalten von Kunden eines Fahrradverleihs an verschiedenen Standorten verglichen und in der Datenmenge drei "Clusters" gefunden hat:

  1. Standorte, welche vor allem Gelegenheitsfahrer an allen Wochentagen bedient haben
  2. Standorte, welche vor allem registrierte (wiederkehrende) Kunden unter der Woche bedient haben
  3. Standorte, welche vor allem Sonntags durch registrierte Kunden genutzt wurden

Mittels dieser Aufteilung konnte die Erkenntnis gewonnen werden, dass es also Standorte für Touristen, Werktätige und Sonntagsfahrer gibt.

Visualisierung

Ein weiterer wichtiger Aspekt ist es, die hoch-dimensionalen Daten auf verständliche Weise zu visualisieren, um so von Auge einen Eindruck über die Abhängigkeiten erhalten zu können.

Workflow

Data Science Workflow

 

Algorithmen

Vorhersage (Machine Learning)

K-Nearest Neighbour (K-NN)

  • Intuition: Dieser Algorithmus unterteilt die Domain in Regionen, welche auf den selben Wert abgebildet werden. Die Intuition dabei ist, dass wenn beispielsweise die meisten Trainingsdaten mit "ähnlichen" Werten auf eine Art ausgefallen sind, dann wird dieser Datenpunkt vermutlich auch so ausfallen.
  • Training: Die Trainingsdaten werden abgespeichert.
  • Test: Für den neuen Datenpunkt wird zu jedem Trainingsdatenpunkt die Distanz gemessen. Der Wert, welcher dem neuen Datenpunkt zugeordnet wird, ergibt sich dabei aus den K nahest gelegenen Trainingsdatenpunkten.
  • Vorteile: 
    • Intuitiv
    • Funktioniert vernünftig (solange genügend Datenpunkte vorhanden sind und genügend Nachbarn befragt werden, wobei genügend natürlich von der Form der zu schätzenden Funktion abhängt)
  • Nachteile: 
    • Ganzes Training-Datenset muss verfügbar sein.
    • Jeder Punkt muss mit jedem verglichen werden.

Random Forrest

  • Intuition: Dieser Algorithmus stellt Entscheidungsbäume auf, welche für einen gegeben Datensatz entscheiden, welcher Wert zugeordnet werden soll. 
  • Training: Die Entscheidungsbäume werden generiert und gespeichert.
    • Für jeden Baum..
      • wird ein Subset der Trainingsdaten gewählt und es werden zusätzlich Restriktionen auferlegt, welche Bereiche als Entscheidungskriterien gewählt werden dürfen.
      • werden Unterteilungen gemacht, bis in den Blättern der Entscheidungsbäume jeweils nur noch ein Datenpunkt ist.
      • wird der so gewachsene Baum zurückgestutzt, solange die Voraussage besser wird (überprüft mit Testdaten).
  • Test: Die Bäume werden für den neuen Datenpunkt befragt und der Mehrheitsentscheid liefert die Antwort.
  • Vorteile: 
    • Nur Bäume müssen gespeichert werden
    • Auswertung von Entscheidungsbäumen läuft schnell
  • Nachteile: 
    • Liefert typischerweise weniger gute Resultate als K-NN
    • Weniger Erklärungspotential

Vergleich im Erklärungspotential von verschiedenen Algorithmen

Die verschiedenen Algorithmen für Machine Learning haben unterschiedlich viel Erklärungspotential. Das heisst, nicht bei allen Algorithmen kann man gleich viele logische Schlüsse ziehen, wieso ein Algorithmus auf ein spezifisches Resultat kommt.
So kann man bei K-Nearest Neighbour ein Resultat damit erklären, dass die Messung ähnlich wie die einer bestimmten Klasse war. Random Forrest hingegen liefert uns keinerlei Informationen über Zusammenhänge mehr, jedoch die Sensitivitätsinformationen.

Ein Neurales Netzwerk (nicht weiter erläutert) hingegen liefert nur das Resultat, ohne aufzuschlüsseln, wie dieses zustande gekommen ist.

Linerare Regeression (nicht weiter erläutert) ist die Methode, bei welcher das Erreichen eines Resultats am Besten erklärt werden kann. 

Data Science Erklärungspotential

 

Klassifizierung (Clustering)

K-Means

  1. Setzte zufällig K "Mittelpunkte"
  2. Gruppiere die Datenpunkte nach dem nächsten "Mittelpunkt"
  3. Verschiebe die "Mittelpunkte", sodass sie tatsächlich in der Mitte der zugehörigen Punkte liegen
  4. Sofern sich etwas verändert hat, gehe zu Punkt 2

Verwendete Software Tools

Der Workshop wurde mit der webbasierten Software Dataiku durchgeführt. Diese Software ermöglicht es, mit wenigen Klicks eine schnelle Analyse der Daten zu erhalten.

0
Wir begrüssen Edwin im Trainee-Programm!
Unit Tests, Network Stream und DLL

Ähnliche Beiträge

 

Kommentare

Derzeit gibt es keine Kommentare. Schreibe den ersten Kommentar!
Mittwoch, 15. Mai 2024

Sicherheitscode (Captcha)