Definition Big Data-Analysen

Big Data-Analysen versuchen aus der Menge der gesammelten Daten einen Mehrwert zu generieren. Meist wird in diesem Falle auch von „Value“ gesprochen. Wie in Kap. 2.1 beschrieben, wird Big Data nicht nur in 3Vs bzw. in 4Vs, definiert. Es existieren Erklärungsansätze, welche die Charakteristiken um mehr als drei oder vier Dimensionen erweitern. So kommt auch der Begriff „Value“, der für den Wert der Daten steht, in einigen Definitionen hinzu (Trnka 2014, S. 144). Da der Wert allerdings erst durch die Analyse der Daten entsteht, sollte der Bezug zur Beschreibung von Big Data kritisch hinterfragt werden. Allerdings kann dieser als ein Resultat von angewandten Big Data-Analysen verstanden werden und wird im Rahmen dieser Arbeit als das Ergebnis nach der Anwendung von Big Data-Analysen verstanden.

Big Data-Analysen können als ein Zusammenspiel verschiedener bereits existierender Analysemethoden verstanden werden. Die Zusammenführung von Data Mining, Predictive Analytics, Big Data und Echtzeitverarbeitung bildet die umschließenden Eigenschaften, welche in ihrer Gesamtheit der Erwartung an Big Data-Analysen nahekommen (Bachmann et al. 2014, S. 176-177).

Predictive Analytics

Eine einheitliche Definition zu Predictive Analytics existiert derzeit noch nicht. So wird in einigen Fällen Predictive Analytics als ein Bereich des Data Minings verstanden (Rouse 2014). Andererseits wird Predictive Analytics auch als eigenständige Disziplin betrachtet, deren Methoden durchaus auch im Data Mining vorkommen. Jedoch existieren zahlreiche weitere Methoden, welche nicht mehr dem Data Mining zuzusprechen sind. Dabei handelt es sich um Methoden wie beispielsweise das Text-Mining, das maschinelle Lernen, Elemente der Spieltheorie oder Simulationsverfahren (Mauerer 2015).

Laut Waller und Fawcett bilden Predictive Analytics einen Teilbereich des Data Science. (Waller und Fawcett 2013, S. 77).

Daraus resultierend kann die Vermutung nahegelegt werden, dass Predictive Analytics eine Disziplin darstellt, welche je nach kontextualem Zusammenhang als Teilmenge einer Methode oder auch als eigenständige Methode betrachtet werden kann.

Ziel von Predictive Analytics ist es, zukünftige Voraussagen auf Basis von in der Vergangenheit gespeicherten Daten zu treffen. Grundsätzlich wird somit versucht, eine unsichere Zukunft voraussehbar zu machen (Kotu und Deshpande 2014, S. 63).

Grundsätzlich kann gesagt werden, dass es sich bei Predictive Analytics sowohl um eine qualitative als auch quantitative Statistik handelt. Bei Prognosen, welche ein zukünftiges Ereignis vorhersagen sollen, setzt Predictive Analytics an der Hinzunahme von älteren Daten an, die durch alte Muster die zukünftigen Entwicklungen vermuten lassen. Dabei werden mathematische Axiome generiert, bei denen schnell Beziehungen zwischen Variablen angenähert werden, um mithilfe von deduktiven mathematischen Methoden Rückschlüsse zu ziehen (Waller und Fawcett 2013, S. 80).

Echtzeitanalysen

Unter Echtzeit wird die Möglichkeit verstanden, Daten zu dem Zeitpunkt zu bearbeiten, an dem sie erhalten werden, statt sie zu lagern und zu einem späteren Zeitpunkt zu bewerten. Echtzeit, also die Auswertung der Daten zum genauen Zeitpunkt der Gegenwart, gibt es allerdings nicht. Jedoch ist die Datenverarbeitung innerhalb einer bestimmten Zeitspanne, die nah an der Gegenwart liegt, als Echtzeit zu verstehen. Dabei kann es Unterschiede im Mikro- oder Millisekundenbereich geben. Auch spielt an diesem Punkt die Perspektive eine bestimmte Rolle, was unter Echtzeit zu verstehen ist. So würde ein Option Trader schon von einer Verzögerung im Millisekundenbereich von Echtzeit sprechen, wohingegen bei einer Lenkrakete Echtzeit mit einer Mikrosekunde Verzögerung als Echtzeit definiert wird. Viele Datenanalysten verstehen Echtzeit auch als eine sehr schnelle Datenschicht sowie eine sehr schnelle Entscheidungsschicht (Barlow 2013, S. 9-10).

Data Mining

Data Mining stellt ein Konzept dar, welches in der Lage ist, Muster und Zusammenhänge aus einem enormen Datenbestand zu erkennen und diese für Entscheidungen oder Handlungen zu nutzen (Gabriel et al. 2009, S. 115). Allerdings ist dies keine allgemeingültige Definition des Begriffs. Auch beim Data Mining existiert heutzutage keine allgemein geltende Definition. In der Literatur lassen sich jedoch zwei Perspektiven identifizieren, welche das Data Mining-Konzept inhaltlich ausgestalten. Bei den beiden Perspektiven hinsichtlich des Data Mining handelt es sich zum einen um die prozessorientierten und zum anderen um die methodenorientierten Perspektiven (Gabriel et al. 2009, S. 120).

Grundsätzlich ist unter Data Mining eine Generierung von Mustern bzw. Wissen durch Hinzunahme unbekannter Daten zu verstehen. Hier werden durch den Einsatz von mathematischen Verfahren unbekannte Zusammenhänge erkannt und Rückschlüsse gezogen (Fasel und Meier 2016, S. 142).

Prozessorientierte Sichtweise

Bei der prozessorientierten Sichtweise geht es um die Filterung nützlicher und unentdeckter Informationen aus einer Datenmenge. Auf dieser Grundlage bildet das Data Mining-Konzept ein strukturiertes Vorgehensmodell, welches aus mehreren Teilschritten besteht und zur systematischen Datenanalyse genutzt werden kann. Dessen Ziel bildet die Erkennung verborgener Muster innerhalb eines definierten Datenbestandes, welche von Relevanz für die Lösung einer Problemstellung sein können (Gabriel et al. 2009, S. 120-121).

Methodenorientierte Sichtweise

Die methodenorientierte Perspektive des Data Mining befasst sich mit mathematischen und statistischen Verfahren wie auch Verfahren aus der künstlichen Intelligenz. Diesen Vorgehensweisen stehen dabei Datenanalysten zur Verfügung, um Erkenntnisse herleiten zu können. In dieser Sichtweise existieren laut Gabriel et al. zwei Alternativen, die je nach Eignung zum gegebenen Zeitpunkt angewandt werden können. In einer strengeren Auslegung dieser Perspektive wird das Data Mining als die eigentliche Analyse von Daten verstanden. So lassen sich aus zuvor bereinigten Daten mithilfe von Algorithmen und zielgerichteten Methoden Datenmuster gewinnen (Gabriel et al. 2009, S. 120-121).

Laut Gabriel et al. ist das Data Mining in der prozessorientierten integrierten Sicht als „[…] der gesamte Prozess zur Datenverarbeitung, -analyse und -interpretation […]“ (Gabriel et al. 2009, S. 122) zu verstehen, wohingegen die methodenorientierte Sichtweise hierunter die Nutzung verschiedener Analysemethoden versteht (Gabriel et al. 2009, S. 122).

In der vorliegenden Arbeit wird Bezug auf die methodenorientierte Sichtweise aufgrund ihrer mathematischen und statistischen Verfahren genommen.

Künstliche neuronale Netze

Künstliche neuronale Netze sind Modelle, die eine Klassifizierung oder Voraussage treffen bzw. erzeugen können. Der Grundgedanke dieses Modells basiert dabei auf biologischen Aktivitäten innerhalb des Gehirns. So wie Neuronen und Synapsen innerhalb des Gehirns Verbindungen eingehen und damit neue Strukturen bzw. Erfahrungen entstehen lassen, imitieren künstliche neuronale Netze dieses Zusammenspiel ebenfalls. Dieses Verfahren erlaubt den biologischen Akt des Lernens auf die Datentechnologie zu übertragen und damit automatisierte Lernprozesse zu erzeugen (Shmueli et al. 2010, S. 222).

Künstliche neuronale Netze bestehen aus einer großen Menge sogenannter Neuronen, die in Eingabeneuronen, Ausgabeneuronen und versteckte Neuronen aufgeteilt werden können. Der schematische Ablauf würde mit der Eingabe von äußeren Variablen beginnen. Diese werden durch versteckte Neuronen verrechnet und weitergegeben. Bei der Verteilung der Variablen, welche eingegeben werden, kann es zur Weiterleitung in verborgenen Ebenen kommen. Dabei werden Informationen mindestens in eine verborgene Ebene während des Prozesses weitergeleitet. Die Neuronen sind dabei zwischen den unterschiedlichen Ebenen in einer bestimmten Struktur miteinander verknüpft (Traeger et al. 2003, S. 1056-1057).

Wichtig bei künstlichen neuronalen Netzwerken ist, dass ein sogenanntes Training durchlaufen wird. Unterschiedliche Beispielmuster werden während des Trainings wiederholt eingegeben. Dabei werden die Verbindungsgewichte, welche eine Lernregel darstellen, so modifiziert, dass auftretende Fehler innerhalb eines definierten Toleranzbereiches liegen (Traeger et al. 2003, S. 1057).