In den letzten Jahren konnte aufgrund zunehmender Digitalisierung in allen Lebensbereiche ein rapider Anstieg von gespeicherten Daten beobachtet werden (vgl. [Seufert, 2016]. Diese Daten sind einerseits von der Masse her sehr umfangreich, als auch ist die Geschwindigkeit, in der neue Daten produziert werden, rasant (vgl. [Fasel und Meier, 2016]). Die Daten kommen aus allerhand verschiedener Quellen und sind daher grotenteils unstrukturiert (vgl. [Shirkhorshidi et al., 2014]). Dieses Phanomen wird im Allgemeinen als Big Data verstanden, wobei es fur diesen Begriff keine klar abgegrenzte und allgemeingultige Definition gibt (vgl. [Fasel und Meier, 2016]). Obwohl unter diese Definition zumeist Daten fallen, die etwa im Rahmen von neuen Internetanwendungen oder der Aufzeichnung von Sensordaten eingebetteter Systeme entstehen (vgl. [Seufert, 2016]), gelten diese Herausforderungen mittlerweile auch fur betriebliche Informationssysteme (vgl. [Binnig et al., 2013] und [Farber et al., 2011]). Dieses Phanomen wirft unweigerlich die Frage auf, wie ein Unternehmen mit dieser gigantischen und standig wachsenden Datenmenge umgehen will, etwa um gezielt neue Informationen zu erhalten. Der Prozess dieser Wissensfindung aus groen Datenmengen wird Data Mining genannt ([Han et al., 2012], S. 5 f.). In [Chen et al., 2012] werden eine Reihe von Anwendungsbereichen, Verfahren und Technologien vorgestellt, von denen In-Memory Datenbanktechnologien einen Ausschnitt der Instrumente darstellen, mit denen man in gewissen Kontexten Big Data Analysen durchfuhren kann. Vor dem Kontext der Digitalisierung im Handel sprechen Schutte und Vetter zudem von neuen Digitalisierungsmoglichkeiten, die Verbesserungsmoglichkeiten fur Elemente des Marketing-Mix, wie etwa die Preispolitik, mit sich bringen und durch Technologien wie SAP HANA unterstutzt werden konnen (vgl. [Schutte und Vetter, 2017], S. 107 f.).

Ein mogliches Ziel dieser Informationsgewinnung im Big Data Kontext kann demnach das in der Einleitung angeschnittene und im folgenden Abschnitt genauer beschriebene Anwendungsbeispiel der EDEKA-Gruppe sein, um auf Basis dieser eine standortspezifische Preisdifierenzierung durchzufuhren. Die EDEKA-Gruppe umfasst laut eigener Angaben uber 11.000 Markte (vgl. Unternehmens-Homepage [EDEKA ZENTRALE AG & Co. KG, 2019]), von denen ein Ausschnitt im Rahmen der Untersuchung anhand einer Reihe von – noch zu de
nierenden – Merkmalen respektive der jeweiligen Auspragungen in Gruppen eingeteilt werden sollen. Auch wenn diese Datenmenge noch nicht zwangslaufig die Moglichkeiten herkommlicher relationaler Datenbanksysteme ausreizt, kann der zu entwickelnde Prototyp bei realem Einsatz schnell die Groe der initialen Datenbasis ubersteigen. Wird das untersuchte Anwendungsbeispiel ausgeweitet, kann eine viel groere Datenbasis – entweder mit weitaus mehr Untersuchungsobjekten, oder weitaus mehr Variablen – angenommen werden. Um in diesem Fall mit der Datenmenge skalieren zu konnen, wird hier der Fokus auf Technologien gelegt, die auf den Big Data Kontext ausgelegt sind.

Herkommliche Technologien als Grundlagen fur solch eine Clusteranalyse konnen in umfangreichen Einsatzgebieten aufgrund der schieren Datenmenge Performanceprobleme aufweisen oder eine Untersuchung gar unmoglich machen (vgl. [Shirkhorshidi et al., 2014]). Binnig et al. arbeiten zeigen in [Binnig et al., 2013] auf, dass Algorithmen herkommlicher Systeme, die die Geschaftslogik auf der Applikationsebene ausfuhren, nicht automatisch mit der Datenmenge skalieren und mit steigender Datenmenge auch eine steigende Ubertragungszeit der Daten zwischen Datenbankebene und Applikationsebene erwartet werden kann (vgl. [Binnig et al., 2013]). Um dieses Problem zu losen, schlagen die Autoren vor1, dass dies im selben System stattfinden sollte, ohne dass durch Datenubertragung Zeit und womoglich auch Metainformationen (vgl. hierzu [Farber et al., 2012]) verloren gehen. Im Zuge dessen prasentieren sie eine Erweiterung der Architektur, die es ermoglicht, derartige analytische Verfahren direkt auf Datenbankebene durchzufuhren. Im Rahmen der Untersuchung wird der Fokus auf diese Technologie gelegt, die demnach auf den Einsatz im Big Data Kontext ausgelegt ist, namlich das von SAP entwickelte – und in Abschnitt 3.3.1 naher erlauterte – In-Memory Datenbanksystem SAP HANA, welches zusammen mit Skriptsprache SQLScript ausgeliefert wird. Diese Untersuchung zielt zwar aufgrund der vergleichsweise kleinen Datenbasis nur auf eine prototypische Anwendung dieser Technologie ab, allerdings konnen aufgrund der Skalierbarkeit von SAP HANA (mehr hierzu in Abschnitt 3.3.1) wertvolle Erkenntnisse fur spatere, umfangreichere Analysen gewonnen werden.

Vor dem Hintergrund des steigenden Auftretens von Big Data hat sich die Clusteranalyse durch die mogliche Simplifizierung und Datenreduktion von vielen Beobachtungen zu einer viel kleineren Menge von Gruppierungen, die als reprasentative Zusammenfassung der eingeschlossenen Beobachtungen analysiert werden konnen, als eine vielversprechendes Verfahren herausgestellt, diese Datenmengen zu bewaltigen (vgl. hierzu [Hair et al., 2018], S. 230). Auch Chen et al. fuhren in [Chen et al., 2012] Clusteranalysen als ein mogliches Instrument fur Big Data Analysen an (vgl. [Chen et al., 2012]). Uber die in SAP HANA integrierte Skriptsprache SQLScript haben Anwender die Moglichkeit, performante Data Mining-Funktionalitaten abzurufen, die demnach im Rahmen dieser Untersuchung zur Durchfuhrung einer Clusteranalyse verwendet werden. Allerdings ist hierbei nicht auer Acht zu lassen, dass durch die massive Anzahl moglicher Variablen sowohl die Auswahl der Variablen, als auch die Feststellung der Ahnlichkeit von Objekten einen noch hoheren Stellenwert bekommen, auch wenn Untersuchungen im Big Data Kontext hau
g einen sehr explorativen Charakter haben (vgl. hierzu [Hair et al., 2018], S. 230 und [Bacher et al., 2010], S. 22).