Fachartikel

FEB2005
Ausgabe 2/2005, Seite 44 | 05-02-44-1

Säulen der Planung

Mit Data Mining und Profiling zu internet facts

Für die Planung von Werbung im Internet eröffnen sich neue Perspektiven. Die internet facts der AGOF sollen quartalsweise Planungsdaten für den Online-Bereich liefern. Claudia Dubrau und Stephan Noller beschreiben, wie aus Multi-Usern und Multi-Clients planungsfähige Daten entstehen.
Das Internet ist anders als andere Medien und will es doch nicht sein. Woran liegt das? Die dem Markt bereitgestellten Zahlen in Form von Visits und Page Impressions passten nicht in den planerischen Alltag. Mit den internet facts hat es sich die AGOF zur Aufgabe gemacht, diese Situation grundlegend zu ändern. Ziel der Studie ist es, den Standards der Mediaplanung gerecht zu werden und gleichzeitig adäquate Leistungsmaße für das Medium zur Verfügung zu stellen.

Die technischen Grundlagen des Internets bieten Messmöglichkeiten, die alle Nutzungsvorgänge und auch wiederkehrende Nutzung erfassen. Eine zielgruppenbeschreibende Datenbasis wie in anderen Medien ist mit dieser Technologie alleine allerdings nicht herstellbar.

Methodenmodell der internet facts


Wegweisend für die internet facts der AGOF ist es daher, die spezifische Qualität einer technischen Messung mit den Vorteilen klassischer Instrumente der Datenerhebung in der Medienforschung zu verbinden. Im vorliegenden Fall wurde zum einen eine bevölkerungsrepräsentative CATI-Befragung durchgeführt. Zum anderen wurden Online-Interviews herangezogen. Sie bieten zusätzlich die Chance, User-bezogene Merkmale direkt im Zusammenhang mit dem Nutzungsvorgang zu ermitteln. So entstand das 3-Säulen-Modell (Abb. 1).

Die technische Datenquelle liefert auf den ersten Blick Messzahlen, die scheinbar mit den Nutzern in Verbindung gebracht werden können. Bei genauerer Betrachtung zeigt sich, dass die Gleichung „1 Computer = 1 Nutzer" hier nicht gehalten werden kann. Eine große Zahl der Internet-Nutzer verwendet verschiedene Geräte (Clients), um Inhalte abzurufen. Klassisch ist dabei die Nutzung am Arbeitsplatz und am privaten PC - das so genannte Multi-Client (MC) Phänomen. Aber auch im umgekehrten Sinn liegt in vielen Fällen eine Mehrfachnutzung durch verschiedene Personen am gleichen Computer vor. Diese Tatsache wird als Multi-User (MU) Phänomen bezeichnet.

Für die Mediaplanung und insbesondere die Ermittlung belastbarer Reichweiten- und Strukturdaten sind diese beiden Störquellen nicht zu tolerieren, denn es ergeben sich jeweils unmittelbare Implikationen für die Reichweite von Angeboten. Die entscheidende Frage für die internet facts ist daher: Lässt sich eine userzentrierte Datenbasis etablieren? Nur bei einer positiven Antwort auf diese Frage werden sich überhaupt Daten einer Online-Befragung (vor allem soziodemographische Variablen) mit den reichhaltigen Nutzungsprofilen aus der technischen Messung verbinden lassen.

Data-Mining und Profiling als Lösungsansatz


Die statistische Literatur geht in der Regel von wenigen verfügbaren Daten aus. Also geht man meist wie folgt vor: „Wie viele Fälle benötige ich mindestens um...". Dies hat vor allem mit dem hohen Aufwand für die Erzeugung von brauchbaren Datensätzen zu tun. Doch die zunehmende Verlagerung von Prozessen auf elektronische und computerisierte Kanäle produziert mehr und mehr Datenbestände, die sehr groß und nicht selten ziemlich unstrukturiert sind - so auch die technische Messung der internet facts.

Dort wo die klassische Statistik die Segel streichen muss, tritt eine andere Disziplin ins Feld: Die Methoden des Data-Mining sind für Datenlagen ausgelegt, in denen unstrukturierte Informationen in großer Menge vorliegen. Häufig geht diese Situation zusätzlich mit dem Fehlen von klaren Hypothesen einher - auch hier sind die mit zahlreichen explorativen und hypothesengenerierenden Elementen angereicherten Data-Mining-Methoden und Algorithmen gut geeignet. Im Bereich des Data-Minings, der sich dem überwachten Lernen widmet, ist die typische Fragestellung, ob eine bestimmte Zielvariable sich mit irgendwelchen Methoden aus dem vorhandenen Datenmaterial erklären lässt. Zusätzlich wird versucht, etwaige Modelle mithilfe von Testdatensätzen auf Ihre Belastbarkeit zu prüfen und schließlich in Prognosemodellen anzuwenden.

Das Profiling-System von TNS wendet einen Data-Mining-Algorithmus auf automatisierter Basis im Rahmen eines selbstlernenden Systems an. Mit dem „Nearest Neighbour Lernverfahren" werden dabei Ähnlichkeitsrelationen zwischen den einzelnen Fällen im Datensatz so intelligent genutzt und verdichtet, dass valide Prognosen erzielt werden können. Dabei spielt es eine große Rolle, dass das zugrunde liegende Verfahren ohne explizite mathematische Repräsentation des Problemraumes auskommt (im Gegensatz etwa zu einer Regression) und dennoch kontrollier- und nachvollziehbare Ergebnisse liefert (im Gegensatz beispielsweise zu neuronalen Netzen).
Für die internet facts der AGOF sind sowohl die Data-Mining Verfahren als auch das TNS-Profiling System hervorragend geeignet, um eine Reihe von komplexen Problemen bei der Aufbereitung des Datensatzes und bei der Verbindung der Datenquellen zu lösen.

Multi-User und Multi-Client


Im Fall der Multi-User-Problematik werden Fälle aus der technischen Messung produziert, die nicht die Nutzung einer, sondern mehrerer Nutzer reflektieren. Aufgabe ist es hier, die individuellen Nutzungsanteile zu identifizieren und zu separieren, um die tatsächliche Anzahl an Nutzern zu ermitteln. Im Fall der Multi-Client-Problematik werden zwar Nutzungsmuster mit einem eindeutigen Bezugspunkt produziert, allerdings reflektieren diese nicht die gesamte Nutzung einer Person. Die Implikationen sind gegenläufig: Multi-User führen zu einer Unterschätzung der Reichweite, wohingegen Multi-Clients die Zahlen artifiziell vergrößern. In beiden Fällen jedoch konnte die Herangehensweise in mehrere aufeinander aufbauende Schritte untergliedert werden: Zunächst ist ein Modell erforderlich, das hilft, die Problemfälle zu ermitteln. Denn nur für einen Teil der Daten stehen die Grundinformationen aus der Online-Befragung zur Verfügung. Mit diesen Daten müssen aber die spezifischen Rekonstruktionsanforderungen erfüllt werden.

Im Fall der MU-Problematik werden die einzelnen Nutzungsvorgänge mit individuell angepassten Cluster-Analysen gruppiert und den mutmaßlichen Usern zugeteilt, die den Client nutzen. Dabei stehen zahlreiche Variablen aus der Online-Nutzung zur Verfügung, die geeignet sind, eben diese Zugehörigkeit abzubilden. Neben thematischen Schwerpunkten (beispielsweise der Nutzung von Angeboten für Jugendliche) sind sowohl die graphentheoretischen Kennwerte als auch bestimmte Randinformationen der Nutzung (Tageszeiten, Anzahl der verwendeten Startseiten und ähnliches) entscheidend. Bei der Rekonstruktion bleiben die Nutzungsinformationen vollständig erhalten. Die Validierung des Ansatzes zeigt eine sehr zuverlässige Schätzung der MU-Anteile auf Angebotsebene - eine entscheidende Voraussetzung für die Tauglichkeit des Verfahrens zur Korrektur des Reichweiten-Effektes.

Für die Lösung der Multi-Client-Problematik müssen zusätzliche Anstrengungen unternommen werden, da die technische Messung nicht ohne weiteres in der Lage ist, aufgeklärte Multi-Client-Fälle zur Verfügung zu stellen, anhand derer eine Modellentwicklung und Validierung stattfinden kann. Deshalb werden User, die in der Befragung eine Nutzung an mehreren Orten angegeben haben, an weiteren Nutzungsorten abermals befragt. Die so erweiterte Datenbasis ermöglicht es, ein sehr trennscharfes Modell zu entwickeln. Es ist sowohl in der Lage, mit hoher Genauigkeit Nutzungsfragmente zu identifizieren, die von einem Multi-Client-Nutzer stammen, als auch diese den prominentesten Nutzungsorten zuzuordnen. Mit dieser Information ist es schließlich möglich, auch das MC-Problem befriedigend zu lösen. Erneut zeigt die Validierung auf Angebotsebene eine sehr zuverlässige Rekonstruktion der userbezogenen Strukturen.

Nutzung und Demographie


Weiterhin muss anhand der technisch ermittelten Daten die Frage gelöst werden: Ist es möglich, über intelligent aufbereitete Nutzungsdaten auf zentrale soziodemographische Informationen der Nutzer zu schließen? (siehe Abb. 2 und Abb. 3) Denn der Ansatz der AGOF enthält zahlreiche Fälle aus der technischen Messung, für die mangels Befragungsdaten keine originäre Soziodemographie zur Verfügung steht. Auch dabei handelt es sich um eine besondere Herausforderung, der nur mit modernen Verfahren der Daten-Analytik und des „machine learnings" begegnet werden kann. Die hohe Dimensionalität und die schiere Anzahl der technisch produzierten Daten lässt keine klassische Vorgehensweise zu. Hinzu kommt, dass keine trivialen und vor allem auch keine auf den ersten Blick ausreichend starken Prädiktoren aus der technischen Nutzung abgeleitet werden können. Es ist relativ klar, dass allein die Anzahl der genutzten Seiten, die Verweildauer oder die Tageszeit der Nutzung nicht ausreichen, um zu bestimmen, welches Alter, Geschlecht und vielleicht noch welche Bildung der Nutzer aufweist. Durch eine intelligente Aufbereitung und Verdichtung der Daten und den Einsatz des oben erläuterten Profiling Verfahrens ist die erforderliche Aufklärung und Anreicherung des Datensatzes für die internet facts tatsächlich möglich. Auch hier halten die Ergebnisse der Validierung in verschiedenen Dimensionen problemlos stand.

Somit ist es gelungen, einen integrierten Datensatz mit eindeutigen Relationen zwischen Zielgruppenbeschreibungen und Nutzungsdaten herzustellen, und zwar unter Beibehaltung der „harten" Informationen aus der technischen Messung. Das anspruchsvolle Ziel einer Vereinigung der Daten aus technischer Messung mit klassischen Marktforschungsdaten wurde erreicht!

Für die Planung von Werbung im Internet eröffnen sich somit völlig neue Perspektiven: Es existieren die Grundlagen, um quartalsweise sämtliche relevanten Informationen über das Online-Nutzungsverhalten der deutschen Bevölkerung zu veröffentlichen und für den Planungsprozess nutzbar zu machen.
Stephan Noller ist Leiter eines Spezialistenteams rund um den EXAMINE Profiler, das Profiling-Tool des Marktforschungsunternehmens TNS Infratest. Seine Forschungsschwerpunkte sind Machine Learning und Embedded Data-Mining.
TNS Infratest>>
Claudia Dubrau sitzt im Vorstand der AGOF und ist Leiterin des Bereichs Gremien, Methoden und Kooperationen bei der IP Deutschland in Köln. Ihre Forschungsschwerpunkte sind die quantitative Online-Forschung und generell qualitative TV-Vermarktungs-Forschung.
AGOF e.V. >>
IP Deutschland >>