Im Rahmen dieser Untersuchung wurde eine Clusteranalyse mit Hilfe von SAP HANA, der zugehorigen PAL, SQLScript, Java und der Google Places API durchgefuhrt. Grundlage hierfur war eine vorliegende Datenbasis zu EDEKA-Filialen. In diesem Kapitel wird der Argumentationsgang, die Ergebnisse, die Technologien, sowie das Vorgehen im Allgemeinen evaluiert und im Rahmen der jeweilig resultierenden Limitationen ein Ausblick fur kunftige Forschungsansatze geboten. Aufgrund des Umfangs der Diskussion werden die jeweiligen Diskussionsthemen strukturiert und separat behandelt.

Diskussion der konzeptionellen Herleitung

In Abschnitt 3.4 konnte argumentativ hergeleitet werden, dass sich Standorte von Filialen uber eine Kombination der lokalen Konkurrenzsituation und lokaler, nachfragebeein  ussender Gegebenheiten beschreiben lassen, um unterschiedliche Zahlungsbereitschaften fur Produktgruppen abzubilden. Uber die Kombination dieser lokalen Ein ussfaktoren kann eine Menge von Filialen basierend auf Ahnlichkeit zwischen diesen Filialen, etwa mit Hilfe einer Clusteranalyse, gruppiert werden und somit die durchschnittlichen Eigenschaften der einzelnen Filialgruppen bestimmt werden. Auf Basis dieser Eigenschaften konnen dann in Folgeuntersuchungen die eigentlichen Zahlungsbereitschaften fur einzelne Produktgruppen abgeleitet werden und somit einzelne Produktgruppen mit einer Preisdifferenzierung versehen werden, die die lokalen Unterschiede der Filialen berucksichtigt. Somit wurde der Konkurrenzgruppen-Ansatz des eingangs vorgestellten Proof-of-Concepts von Weber und Schutte einerseits argumentativ, unter Berufung auf Publikationen und logischen Schlussfolgerungen, hergeleitet, als auch im selben Schritt um eine Berucksichtigung nachfragebeein ussender Faktoren, erweitert. Diese Uberlegungen und das daraus resultierende Annahmensystem konnen daher durchaus als valide und fur zukunftige Untersuchungen als gultig eingestuft werden, sodass fur diesen Ansatz zur standortspezifischen Preisdifferenzierung ein gewisser Mehrwert generiert wurde.

Dieser Abschnitt diente zudem als konzeptionelle Grundlage fur die darauf folgende Identifikation der relevanten Variablen fur die Clusteranalyse, die durch dieses Annahmensystem unterstutzt wurden. In folgendem Abschnitt 3.5 sollte vor dem Kontext der Google Places API eine Reihe von messbaren Variablen abgeleitet werden, die solche beschriebenen Ein ussfaktoren auf Zahlungsbereitschaften fur Produktgruppen mit Hilfe von Geodaten darstellen. Da die Ergebnisse einer Clusteranalyse stark abhangig von der konzeptionellen Unterstutzung des Forschenden, der diese Technik anwendet (vgl. [Hair et al., 2018], S. 193) sind, erfordert die Identifikation der fur die Untersuchung relevanten Variablen dabei enorme Sorgfalt und konzeptionelle Unterstutzung. Es wurden basierend auf dem Argumentationsgang Kriterien aufgestellt, nach denen die Kennzeichen der Google Places API bezuglich Ihrer Relevanz fur das Untersuchungsziel bewertet wurden. Die Auswahl der als relevant eingestuften Variablen erfolgte hier zwar nach nachvollziehbaren Kriterien, allerdings wurden diese subjektiv vom Autor bezuglich der Erfullung evaluiert. Demnach kann trotz des als gultig einzustufenden Annahmensystems aus vorangehendem Abschnitt in diesem Schritt eine fehlerhafte oder unvollstandige Menge an Variablen identifiziert worden sein, was letztendlich nicht ausschliet, dass dies eine mogliche Fehlerquelle fur die moglicherweise unzureichende Losung der Clusteranalyse darstellt. Im nachsten Abschnitt wird erlautert, wieso es in dem Rahmen jedoch nicht moglich ist, festzustellen, ob die ermittelten Losungen der Clusteranalyse richtig oder falsch sind. Demnach lasst sich auch nicht auf die tatsachliche Relevanz der Variablen schlieen, dies wird hier jedoch als mogliche Limitation der Herleitung der Variablen aus den konzeptionellen Uberlegungen aufgefuhrt.

Diskussion der Ergebnisse

Wie bereits in Abschnitt 4.1.11 zur inhaltlichen Validitatsprufung der ersten Iteration der Clusterlosung genauer erlautert, kann im Rahmen einer solchen explorativen Clusteranalyse gar nicht erst bestimmt werden, ob die Struktur der Daten korrekt reprasentiert wird, oder ob Fehler diese Losung verzerren, da keine erwartete Struktur, und somit keine Referenz zur Prufung von richtig oder falsch vorliegt. Vor dem Gesichtspunkt der angestellten Uberlegungen sind die Ergebnisse der durchgefuhrten Clusteranalysen eher ernuchternd. Eine Klassifikation der Filialen anhand spezifizierter Merkmale in zwei Cluster ist keine so prazise Gruppierung, wie fur eine effektive Preisdifferenzierung vermutlich notwendig ware. Dies kann eine Reihe von Grunden haben, demnach werden eine Reihe von potentiellen Fehlerquellen vorgestellt, die einen Ein uss auf die ermittelten Clusterlosungen haben konnten.

Eine Schwachstelle, die sehr wahrscheinlich Ein uss auf die Ergebnisse hatte, ist die bereits angesprochene Vollstandigkeit und Richtigkeit der Variablen. Die Uberfuhrung der abstrakten Idee von ‘lokalen Gegebenheiten’ einer Supermarktfiliale zu wirklich quantifizierbaren Variablen, die aus einer Geodaten-Schnittstelle abgerufen werden, war ein vielversprechender Ansatz, allerdings ist es schwierig, sicherzustellen, dass einerseits alle identifizierten Variablen wirklich fur die Untersuchung relevant sind, andererseits dass keine relevanten Variablen fehlen. Zusatzlich zu diesen Problemen ist nicht klar, ob die identifizierten Variablen tatsachlich dieselbe Relevanz aufweisen und ob sie demnach dieselbe Gewichtung erfahren sollten. Ein Beispiel ware hier der Flughafen, der bei einem Betrachtungsradius von 500 m rein realistisch betrachtet nur Auspragungen von 0 oder 1 haben sollte. Dies wird dann in Relation gesetzt mit anderen Variablen, wie etwa Backereien, die Werte von bis zu 20 aufweisen. Somit geht der Flughafen bei der Bildung der Cluster auf Basis der Distanz unter. Eine Dichotomisierung dieses Attributs in zwei Werte ware denkbar, sodass beispielsweise die Existenz eines Flughafens mit einem hoheren Wert als 1 reprasentiert wird, was die Existenz eines Flughafens viel starker ins Gewicht fallen lasst. Selbiger Ansatz ware fur Bahnstationen denkbar, wie etwa in der letzten Iteration exemplarisch vorgestellt wurde. Allerdings fehlt zur fundierten Transformation und Gewichtung von Variablen fur belastbare Ergebnisse abseits eines testweisen Ansatzes der notwendige statistische Hintergrund des Autors.

Es besteht zudem die Moglichkeit, dass die Stichprobe von Filialen nicht repr asentativ oder die Datenbasis fur eine Clusteranalyse mittels k-Means schlichtweg nicht gro genug war. Bacher beschreibt in [Bacher et al., 2010] auf Seite 302 f., dass eine Stichprobe von groer als 500 dazu geeignet ist, via k-Means-Verfahren Clusterstrukturen innerhalb der Daten aufzudecken, vorausgesetzt dass die Clusterstruktur uberlappungsfrei ist. Dies ist durch die enorme Reduktion der eingangs betrachteten Datenmenge nach Bereinigung um unerwunschte Datensatze (auf lediglich knapp 400 Datensatze) nicht gegeben. Bei einer uberlappenden Clusterstruktur wird sogar eine noch groere Stichprobe vorausgesetzt (vgl. [Bacher et al., 2010], S. 302 ff.). Daruber hinaus ware generell zu evaluieren, ob das k-Means-Verfahren in diesem Kontext tatsachlich das beste Clusteranalyseverfahren darstellt, oder ob andere Algorithmen, etwa Algorithmen, die weniger anfallig fur irrelevante Variablen sind, besser geeignet waren.

Eine weitere Uberlegung, die in dem Kontext zu evaluieren ware, ist die gegenseitige Abhangigkeit der Variablen. Die Variablen reprasentieren gleichzeitig Merkmale urbaner Gebiete, demnach spricht ein hoheres Aufkommen von Supermarkten fur eine Gegend, die dichter besiedelt ist. In einer Gegend, die dichter besiedelt ist, durften auch proportional mehr Backereien, Blumenhandler, Zoohandlungen, etc. auftreten, was ein moglicher Erklarungsansatz fur die entstehende 2-Cluster-Struktur sein kann. Die Frage, die in dem Kontext offen bleibt ist, ob und welchen Ein uss solche Uberlegungen auf die durchgefuhrten Clusteranalysen haben. Auch diese Fragestellung muss vor einem statistischen Kontext eingehender beleuchtet werden. Daruber hinaus kann auch der Radius der Untersuchung eine entscheidende Groe sein, deren Anpassung moglicherweise in anderen Clusterlosungen resultiert, die mit den Radien von 500 und 1500 Metern nicht gefunden wurden.

Letztlich kann auch eine erwahnenswerte Fehlerquelle in der Richtigkeit der Daten liegen. Es kann sein, dass die vorliegende Datenbasis, die ohnehin bereits eine groe Menge an Fehlern aufweist, weitere fehlerhafte Datensatze mit sich bringt, die nicht identifiziert wurden. Zusatzlich konnen potentiell fehlerhafte Daten aus der Google Places API in Frage kommen, da auch hier fragwurdige Daten gefunden werden konnten. Laut Weber und Schutte ist in solch einem Kontext die Qualitat der Daten von hochster Wichtigkeit fur die Qualitat der Entscheidungs
ndung (vgl. [Weber und Schutte, 2019]), demnach haben beide Datenquellen durch ihr mitgebrachtes Fehlerpotential, was im Folgenden naher beleuchtet wird, auch einen potentiellen Ein uss auf die Qualitat der Ergebnisse eingebracht.

 Diskussion der verwendeten Daten und Technologien

Bezuglich der technischen Komponenten ist die vorliegende Datenbasis zu bemangeln, da die Daten, die im Anhang einsehbar sind, nicht nur unvollstandig, sondern auch teilweise falsch waren, wie in Abschnitt 4.1.2 detailliert beschrieben. Zusatzlich zur nicht unerheblichen Menge an Duplikaten (sowohl hinsichtlich Koordinaten, als auch hinsichtlich der Adresse), wiesen rund 180 Datensatze schlichtweg falsche Koordinaten auf. Die Koordinaten haben keinesfalls zur ausgewiesenen, naturlichsprachigen Adresse gepasst und mussten somit aus der weiteren Betrachtung eliminiert werden. Des Weiteren sind die meisten Datensatze laut ihrer Zeitstempel im Jahr 2013 erstellt worden, wodurch die Datenbasis nicht wirklich als aktuell gesehen werden kann. Die Tatsache, ob besagte Verkaufsstatte noch existiert, ist jedoch fur diese Untersuchung im Speziellen zweitrangig, da es dennoch Sinn ergibt, die jeweiligen Standorte in die Clusteranalyse mit ein ieen zu lassen, da die Gruppierung zunachst unabhangig von den aktuellen Standorten von EDEKA-Filialen stattfinden kann. Die lokalen Gegebenheiten einer mittlerweile geschlossenen Filiale konnen trotzdem berucksichtigt werden, da sie als ein realistischer Standort fur eine Filiale eingeordnet werden kann. Des Weiteren ist durch die Eliminierung der falschen und doppelten Datensatzen die Datenbasis derart geschrumpft, dass fraglich ist, ob es mit knapp 400 Filialen noch genug Beobachtungen fur eine belastbare Clusteranalyse gibt. Hier ware fur kunftige Untersuchungen eine aktuellere, wunschenswert umfassendere, aber vor allem korrektere Datenbasis wunschenswert.

Als Datenquelle fur die lokalen Eigenschaften dieser Filiale wurde die Google Places API gewahlt, zu der es ebenfalls Kritikpunkte gibt. Auf der einen Seite war die Kommunikation mit dieser Schnittstelle sehr einfach zu realisieren, auch die Dokumentation war hierbei uberaus hilfreich. Allerdings wurde in dieser Dokumentation nicht erwahnt, dass alle Suchergebnisse auf 20 Lokalitaten begrenzt werden. Fur ein solches Vorgehen, welches abhangig von der Richtigkeit der Daten ist, mindert diese Tatsache erheblich die Eignung. Sind die Daten fur die Anwendung eines solches statistischen Verfahren falsch, kann keine richtige Losung erwartet werden. Werden also dicht besiedelte Gebiete mit einem groeren Radius betrachtet, stoen die API-Aufrufe auf das Maximum an ruckgemeldeten Lokalitaten und bewerten somit Standorte gleich, die in der Realitat in dem Aspekt unterschiedlich sind. Es wird demnach mit Hilfe dieser API nicht moglich sein, zwischen Standorten mit 20 umliegenden Supermarkten und 40 umliegenden Supermarkten zu differenzieren, was fur eine derartige Untersuchung unzureichend ist. Daruber hinaus waren fur diese kleine Datenbasis bereits uber 5.000 separate API-Aufrufe notwendig, da der Aufbau der API keinen anderen Weg der Abfrage bot, wie etwa eine allgemeine Umgebungssuche ohne Kennzeichenfilterung, die lokal bei Verarbeitung des JSON-Objekts stattfinden konnte. Bei einer Folgeuntersuchung dieser Art ware folglich zu evaluieren, ob sich eine erneute Nutzung dieser konkreten Schnittstelle anbietet. Die Google Places API ist zudem vor kurzem kommerzialisiert worden, sodass jeder API-Aufruf in Rechnung gestellt wird, was fur folgende Untersuchungen ein relevantes Auswahlkriterium sein konnte.

Daruber hinaus stellen sich fur die Google Places API generell Fragen zur Korrektheit der Daten und zum Vorgehen der P ege dieser Daten. Es stellte sich etwa heraus, dass auch Parkhauser, die zu einem Flughafen gehoren, als ‘Flughafen’ gekennzeichnet wurden. Hier ist anzunehmen, dass entweder die Nutzer oder die Inhaber von Lokalitaten die Kennzeichen zuordnen. Dies bringt ein gewisses Fehlerpotential bezuglich einer Fehlklassifizierung durch unterschiedliche subjektive Sichtweisen von Nutzern mit, was in einer solchen Kennzeichnung der Flughafen-Parkplatzen mit ‘Flughafen’ resultiert. Es ist in dem Kontext kaum zu identifizieren oder zu kontrollieren, welche Daten falsch und welche richtig gep egt wurden, dementsprechend wird ein gewisses Ma des Vertrauens in die Betreiber bei der Nutzung einer solchen Schnittstelle benotigt.

Vor dem Hintergrund der durchgefuhrten Untersuchung kann das verwendete Datenbanksystem SAP HANA als eine geeignete Technologie fur den Einsatzzweck eingeordnet werden. Die Integration mit Java uber einen JDBC-Connector hat reibungslos funktioniert und auch die durchgefuhrten Analysen mittels k-Means- Algorithmus haben einerseits ausreichende Moglichkeiten zur Festlegung der Parameter geboten, als auch schnell Ergebnisse geliefert. Allerdings konnen hier keine wirklich zuverlassigen Aussagen zur Performanz getroffen werden, da die Daten, die im Rahmen der Untersuchung verarbeitet wurden, sich nicht Big Data Dimensionen befanden. Demnach ist eine Evaluierung diesbezuglich hier nicht moglich. SAP HANA bietet zudem die Moglichkeit, raumliche Daten abzubilden und zu clustern, was im Rahmen dieser Untersuchung nicht genutzt wurde, da dem aufgrund der Art der vorliegenden Daten kein Mehrwert zugeordnet werden konnte. Fur kunftige Untersuchungen kann allerdings evaluiert werden, ob sich diese Art der Nutzung von SAP HANA mit echten raumlichen Daten fur einen solchen Anwendungszweck lohnen kann. An dieser Stelle wird demnach lediglich auf die Existenz hingewiesen werden. Eine generelle Nutzung von SAP HANA fur diesen Anwendungsfall der Clusteranalyse zur Klassifizierung von Filialen kann jedoch fur Folgeuntersuchungen grundsatzlich empfohlen werden.

Diskussion des Vorgehens

Das verwendete Vorgehen kann grundsatzlich als zielfuhrend evaluiert werden. Die konzeptionellen Uberlegungen sind im Rahmen eines realistischen Annahmensystems nachvollziehbar. Die Durchfuhrung einer Clusteranalyse ist grundsatzlich ein Verfahren, welches genau der Zielsetzung einer Gruppierung basierend auf Ahnlichkeit von Objekten, durchzufuhren, entspricht und sich grundsatzlich, bei richtiger Identifikation der Variablen, fur diesen Zweck eignet. Allerdings erfordert die Uberfuhrung der abstrakten Idee von ‘lokalen Gegebenheiten’ einer Supermarktfiliale zu wirklich quantifizierbaren Variablen, anhand derer Berechnung stattfinden, weitere Forschungsarbeit. Die Identifikation der Variablen fur die Clusteranalyse ist demnach fur diesen Anwendungsfall ein kritischer Faktor und zusammengefasst auch der grote Kritikpunkt an dieser Untersuchung, da durch eine an dieser Stelle kaum zu vermeidende Subjektivitat bezuglich der Bewertung der Relevanz von Variablen ein gewisses Fehlerpotential entsteht, wie bereits eingangs angesprochen. Daruber hinaus ist es im Kontext einer solchen explorativen Clusteranalyse nicht einfach zu bestimmen, ob dieses Fehlerpotential wirklich der Grund fur die Losungen darstellt, da kein Erwartungswert fur die resultierende Gruppierung vorliegt.

Eine Moglichkeit fur kunftige Arbeiten auf diesem Gebiet, um dieses Problem zu adressieren, konnte die Identifikation einer zu erzielenden Clusterstruktur sein, die eine eine Anzahl von Clustern als eine optimale oder wunschenswerte Gruppenanzahl fur eine solche Preisdifferenzierung ermittelt oder festlegt. Der Fokus wurde somit von einer explorativen Clusteranalyse zu einer konfirmatorischen Clusteranalyse verlagert werden und eventuelle konzeptionelle Lucken bei der Identifikation der Variablen oder Fehler bei der Durchfuhrung der Analyse waren aufgrund eines Erwartungswerts, gegen den die Losung verglichen werden muss, einfacher festzustellen. Zudem stellt sich eine eingehende Untersuchung der Variablen, die fur so ein Clustering notwendig ist, als notwendig fur den weiteren Fortschritt der Untersuchungen in diesem Gebiet heraus, demnach sollten kunftige Forschungsarbeiten auch hier ansetzen. Wird eine belastbare Menge von relevanten Variablen empirisch hergeleitet, so wird ein Erwartungswert bezuglich der ergebenen Clusterstruktur nicht zwangslaufig notwendig sein, da mit solch einem Variablensatz wiederum eine explorative Clusteranalyse durchgefuhrt werden kann. Liegt entweder eine empirisch ermittelte Menge an Variablen oder eine zu erreichende Ziel-Clusterstruktur vor, so bietet sich das in dieser Untersuchung gezeigte Vorgehen mit Hilfe einer Clusteranalyse grundsatzlich dafur an, diese Segmentierung durchzufuhren.

Eine Uberlegung, diese Variablen sinnvoll zu erweitern, ware die Einbeziehung soziodemographischer Faktoren, wie es im Kontext der mikrogeographischen Marktsegmentierung geschieht. Im Rahmen dieser Untersuchung werden lediglich umgebende Lokalitaten betrachtet, allerdings konnte eine Kombination aus verschiedenen Faktoren und eine Einbeziehung von anderen Ein ussen auf die Zahlungsbereitschaft, wie etwa Kaufkraftkennziffern, das Clustering prazisieren. Auch Erkenntnisse der recht jungen Disziplin des Geomarketings konnen Beachtung finden, da sie den Marketing-Mix mit der Zusammenfuhrung von “Daten, Tools, Methoden und Theorien verschiedener Disziplinen wie Okonomie, Geografie, Informatik, Statistik, Marketing oder Soziologie” ([Kickner et al., 2014], S. 203) unterstutzt und somit genau an dem Punkt ansetzt, an dem sich das in dieser Untersuchung behandelte Entscheidungsproblem des Preismanagements befindet.

Eine konzeptionelleWeiterfuhrung des argumentativ hergeleiteten Uberlegungen, wie die Segmentierung zwecks einer standortspezifischen Preisdifferenzierung auf Produktgruppenbasis stattfinden kann, ware – wie bereits in Abschnitt 3.4 angeschnitten – die Erweiterung um einzelne Produkte, statt einer reinen Betrachtung von Produktgruppen sein. Demnach kann untersucht werden, ob es lokale Gegebenheiten gibt, die lediglich die Zahlungsbereitschaft von Abnehmern fur einzelne Produkte erhohen. Falls dies der Fall ist, ist analog zu dieser Untersuchung eine Identifikation dieser Gegebenheiten notwendig, um die hohere Zahlungsbereitschaft der Abnehmer fur dieses Produkt abzuschopfen. Dies kann fur kunftige Forschungen ein Ansatzpunkt sein, allerdings gelten hier dieselben Limitationen wie bei dem hier behandelten Ansatz, der auf Produktgruppen basiert. Solange hier keine erwartete Clusterstruktur oder eindeutige Menge an Variablen festgelegt wird, wird dieser Ansatz bei der tatsachlichen Analyse auf dieselben Grenzen stoBen.

AbschlieBend erfolgt auf den hier angefuhrten Uberlegungen ein Vorschlag, mit dem der produktgruppenspezifische Ansatz aus Kapitel 3 fur das Proof-of-Concept von Weber und Schutte dennoch in realen Szenarien angewandt werden kann. Unabhangig von der ermittelten 2-Cluster-Losung ware die manuelle Auswahl einer Anzahl von Clustern k denkbar. Demnach wird nicht die formal ‘optimale’ Clusterlosung gewahlt, sondern durch den Anwender, der eine solche standortspezifische Preisdifferenzierung anwenden will, eine Anzahl von Segmenten vorgegeben, in die die Filialen kategorisiert werden. Diese Clusterzahl muss nicht zwangslaufig einen konzeptionell gestutzten Hintergrund, wie etwa im vorangehenden Absatz als kunftige Forschungsarbeit beschrieben, besitzen, um in realen Szenarien angewandt zu werden. Beispielsweise wurde eine Anzahl von sechs Clustern gewahlt, um die Filialen, und somit die einkaufenden Kunden, in sechs einzeln zu bewertende Segmente einzuteilen. Die Clusteranalyse wurde dann ermitteln, wie die ‘optimale’ 6-Cluster-Losung aussehen wurde und falls diese Clusterlosung hinsichtlich der vorgestellten statistischen Mazahlen trotz Nichterreichung des Optimums von k eine gute Losung darstellt, kann sie als Grundlage zur Preisdifferenzierung verwendet werden. Die Auspragungen der Clusterzentren wurden dann die lokalen Gegebenheiten der Elemente innerhalb der Cluster reprasentieren, somit konnen auf Basis dieser Clusterzentren die einzelnen Segmente bewertet werden. Der Ein uss auf den mit Hilfe dieser Gruppierung (und der darauf basierenden Preisdifferenzierung) erzielten Umsatz kann daraufhin evaluiert werden und die Clustergroe iterativ angepasst werden, um sich hinsichtlich eigens ausgewahlter Kriterien einer ‘guten’ Struktur anzunahern.