Surfer im Visier

Beobachten, Befragen, Belauschen -- der Netizen wird zum Lieblingsopfer der Markt- und Sozialforschung

Wissen | Hintergrund

Was Detlef tatsächlich denkt, Michael eigentlich meint und Wilma wirklich will, hat schon immer ganze Branchen gefesselt. Psychologen, Wirtschaftswissenschaftler, Soziologen, Marketingexperten, Markt- und Meinungsforscher freuen sich über immer bessere Möglichkeiten, ihre Klientel im Internet zu untersuchen. Die Datenautobahn ist eben auch eine Datenfußgängerzone, in der immer mehr Menschen befragt und beforscht werden, ob sie es merken oder nicht.

Aufmacher

204 Millionen Surfer weltweit, darunter 14 Millionen mit deutscher Muttersprache, bilden die Bevölkerung des globalen Dorfes namens Internet. Ganze Industrien setzen darauf, die Einwohner mit ausgefeilten Techniken auszuspähen. Aber auch Forscher schätzen die Bewohner als Versuchspersonen.

Das Interesse an der Online-Community hat viele Gründe: Die Marktforschung möchte beispielsweise wissen, welche Produkte der Kunde warum wünscht. Und sie kann Aktionen der Surfer direkt dazu nutzen, den Verkauf anzutreiben. Ein Beispiel von vielen: Suchmaschinen wie Altavista oder Fireball blenden Werbung in Abhängigkeit vom eingegebenen Suchwort ein. Schaut ein Surfer etwa mit Fireball nach einem gekauften Wort, so sieht er das entsprechende Banner, und die werbetreibende Firma ist zunächst einmal um drei Pfennig ärmer, die an den Fireball-Vermarkter 1&1 fließen. Einen tiefen Blick in die Werkzeugkiste der Werber im WWW gewährt übrigens die Site www.werbeformen.de. Sie erläutert unter anderem alle wichtigen Typen von Werbebannern genauestens.

Die Tricks der Geschäftemacher im Internet sollten aber nicht den Blick darauf verstellen, dass andere Späher aus rein wissenschaftlichem Interesse Daten der Surfer erheben. Psychologen wie Ulf Reips aus Zürich haben auf Web-Sites ganze Forschungslabors eingerichtet, in denen sie Internet-Nutzer über Online-Fragebögen oder mit Mitteln der experimentellen Forschung untersuchen, um beispielsweise Denkprozessen auf die Spur zu kommen.

Die politischen Meinungsforscher sind jedoch noch zögerlich. Schließlich ist die Stichprobe, die sie bei einer Befragung im Internet ziehen können, nicht für die gesamte Bevölkerung repräsentativ. Befragungen, die auf nicht repräsentativen Stichproben beruhen, führen zu verzerrten Prognosen, auf die sich keine Partei verlassen sollte. Trends und Stimmungsbilder jedoch lassen sich bei aktuellen Anlässen (etwa der Diskussion um den Ladenschluss) schnell mit Internet-Daten gewinnen und auf dem Nachrichtenmarkt verkaufen. Der Leser sollte nur im Hinterkopf behalten, dass die Befragten hauptsächlich Männer zwischen 20 und 40 mit relativ hohem Bildungsstand sind.

Die vor kurzem gegründete Deutsche Gesellschaft für Online-Forschung [#lit1 [1]] koordiniert eine Reihe von Aktivitäten. Dazu zählt die Mailing-Liste gir-l (German Internet Reserach List) [#lit2 [2]]. Das Niveau der Beiträge auf dieser Liste zeigt, dass sich die deutsche Online-Forschung nicht hinter der in den USA zu verstecken braucht - schließlich ist die jährlich in Deutschland stattfindende GOR (German Online Research) die weltweit größte Tagung zu diesem Bereich.

So vielfältig wie die Interessen der Auftraggeber sind auch die Methoden, um dem Internet-Nutzer auf die Finger und in den Kopf zu schauen. Man unterscheidet zwischen reaktiver und nicht- reaktiver Datenerhebung. Bei der reaktiven ist dem Surfer bewusst, dass er untersucht wird, etwa bei Online-Fragebögen oder Experimenten im Web, an denen er als Versuchsperson teilnimmt. Bei der nicht-reaktiven Datenerhebung merkt er jedoch nicht, dass sein Verhalten automatisch erfasst wird. Wer Log- Files aufzeichnet, Umgebungsvariablen über CGI-Skripte liest oder die Kommunikation in News-Groups analysiert, führt also nicht-reaktive Datenerhebungen durch. Auch das millisekundengenaue Erfassen der Klicks der Surfer zählt dazu, wenn es um die Evaluation von Web-Sites geht. Ein eigener Markt ist entstanden, der sämtliche Spielarten reaktiver und nicht-reaktiver Datenerfassung im WWW unterstützt.

Die wohl einfachste Form der Datenerhebung im Internet ist der gute alte Counter, der die Besucher auf einer Webseite zählt. Seine Beliebtheit erklärt sich dadurch, dass er auch ohne Programmierkenntnisse und ohne Zugriff auf den Server Informationen über die Nutzung einer Site abwirft. Counter-Systeme zählen Zugriffe mit Hilfe von CGI-Skripten oder Java-Script. Die Skripte können sogar auf einem beliebigen Server ablaufen [#lit3 [3]].

Einfache Counter sind allerdings nicht sehr aussagekräftig. Uhrzeit, Domain, Verweildauer oder Herkunft der Besucher erfassen sie nicht. Mittlerweile gibt es aber leistungsfähigere Systeme, die unter anderem von werbefinanzierten Web-Sites kostenlos angeboten werden. Auch ohne eigenen Server und ohne Programmierkünste lassen sich solche Zähler in die Homepage einbinden, wenn man ein paar Zeilen HTML-Code einfügt. Sie erzeugen Statistiken über Hits und Visits, geben Zeitverläufe der Zugriffe aus oder berechnen Vorhersagen des zukünftigen Datenverkehrs. Zu dieser Kategorie gehören Sitemeter [#lit4 [4]] oder Webtracker [#lit5 [5]]. Neben kostenlosen gibt es selbstverständlich auch kommerzielle Counter-Dienste [#lit6 [6]]. Sie bieten ein komfortables Reporting der Ergebnisse und noch mehr Einblicke in die Systematik des Datenverkehrs auf einer Web-Site, etwa zu den Gewohnheiten regelmäßiger Besucher.

Wer Zugang zu einem Web-Server hat, kann alle Angaben, die ausgefeilte Counter-Dienste liefern, den vom Server aufgezeichneten Log-Files entnehmen. Sie enthalten Kennwerte wie den Domain-Namen des zugreifenden Clients, Browser, letzte URL, Datum und Uhrzeit der Anfrage. Log-Files werden in bestimmten Formaten angelegt, unter denen das Common-Log-Format (CLF) das gängigste ist. Die Formate unterscheiden sich in den Kennwerten, die der Server bei jedem Zugriff festhält. Das Spektrum an Programmen, mit denen sich Log-Files auswerten lassen, ist kaum noch überschaubar [#lit7 [7]].

Auch auf der Seite des Clients können Log-Files aufgezeichnet werden. Dazu eignen sich Proxy-Server, die zwischen anfragendem Client und angefragtem Server stehen. Sie können alle oder bloß die häufig nachgefragten Web-Pages zwischenspeichern. Für diese Seiten entfällt dann die Notwendigkeit, auf den angefragten Server zuzugreifen, da der Proxy-Server ja diese Seite bereithält. Solche Server reduzieren somit die Netzlast. Zugleich erschweren sie das Zählen von Zugriffen, denn beim Laden einer Web-Page von einem Proxy-Server erfolgt kein Zugriff auf den Server.

Proxy-Logs werden vor allem im wissenschaftlichen Kontext zur Datenaufzeichnung eingesetzt, zum Beispiel zur Untersuchung des Browsing-Verhaltens einzelner Benutzer. Der bekannte Webwasher von Siemens [#lit8 [8]] ist unter Online-Forschern nicht nur wegen des Wegfilterns von Werbung beliebt. Als Proxy-Server eingesetzt hält das Programm fest, welche Seiten die Clients aufgerufen haben.

Auf Proxy-Logs beruhende Systeme lassen sich aber auch verwenden, um in einer Firma oder Organisation Mitarbeiter daraufhin zu kontrollieren, welche URLs sie aufrufen. Ein System dieser Art ist WebSpy der Londoner Firma Webman Technology, die mit dem Slogan ‘Take control and STOP internet misuse’ wirbt. WebSpy liefert den Vorgesetzten eine Liste von URLs, die seine Mitarbeiter aufgerufen haben.

Größere Verbreitung haben jedoch die Server-Logs: Kennwerte, die Aufschluss über Zugriffe auf einen Server geben, werden vor allem benötigt, um Preise für Werbeflächen im WWW zu bestimmen. Dies ist nicht unwichtig, wenn man bedenkt, dass sich viele Web-Sites ganz oder teilweise über Werbeeinnahmen finanzieren. Hier sind aussagekräftige Maße unverzichtbar, die ausdrücken, wie oft eine Web-Site genutzt wird. Denn ähnlich wie sich im Bereich der Printmedien der Anzeigenpreis nach verkaufter Auflage oder Leserkontakten (Zahl der Leser) bemisst, steigt auch der Preis für Werbung auf Web-Sites mit der Beliebtheit beim Surfer. Man spricht hier auch von Kontaktmessung.

Vielfach sind immer noch auf sogenannten ‘Hits’ basierende Maße gängig, siehe die Unterscheidung im [#kasten1 separaten Kasten] auf der vorigen Seite. Um die Beliebtheit von Web-Sites zu messen, werden sie allerdings längst nicht mehr ausschließlich herangezogen. Statt dessen spielen andere Maße wie Visits und PageImpressions bei der Kontaktmessung eine größere Rolle.

Programme zur Analyse von Log-Files sind äußerst beliebt, denn sie kosten oft nicht viel und versprechen, mehr über tatsächliche oder potenzielle Kunden zu verraten. ‘Wer sind die Besucher und was wollen sie wirklich?’ dürften die beiden Fragen sein, deren Beantwortung man sich im kommerziellen Bereich am sehnlichsten von der Analyse erhofft. Die Auswertung der Files allein lässt dies jedoch nicht zu. Im Prinzip gibt es zwei Wege, um sich weitergehende Einsichten über den Surfer zu beschaffen: mehr Informationen oder raffiniertere Analysen.

Mehr Informationen liefern beispielsweise Cookies, die unter anderem Navigationspfade einzelner Benutzer oder Eingaben in Suchmaschinen festhalten. Daneben sind Cookies auch beliebt, um Wiederholungsbesuche von Benutzern erkennen zu können. Aber auch Cookies übermitteln keine Informationen, die sich einzelnen Personen zuordnen lassen. Statt dessen werden gerne Registrierungsverfahren eingesetzt: Wer einen Newsletter abonnieren oder ein kostenloses Programm herunterladen möchte, muss üblicherweise vorab seine Personalien preisgeben. Bedenkt man, dass in Deutschland im vergangenen Jahr 12,4 Milliarden Mark für adressierte Werbesendungen ausgegeben wurden, wird die kommerzielle Bedeutung solcher Informationen offenkundig. Müheloser als im Internet lassen sich Adressen kaum akquirieren.

Den zweiten Weg, um die im Internet erhobenen Daten optimal auszuschöpfen, stellen raffiniertere Analyseverfahren wie Data Mining [#lit10 [10]] oder klassische statistische Verfahren wie Regressionsanalysen dar. Im einfachsten Fall ermitteln Data-Mining-Methoden das gemeinsame Auftreten einzelner Merkmale in einer großen Datenbank, die aus dem Zusammenlegen verschiedener Datenquellen entstanden ist. Ist man in der Lage, Angaben aus Cookies, Log-Files und personenbezogene Daten zusammenzulegen, weiß man etwa, dass Herr Müller aus Hagen sich für ein Fertighaus interessiert hat. Mit weiteren Verfahren (etwa regressionsanalytischen Ansätzen) kann man dann etwa noch ermitteln, dass er ein Navigationsverhalten an den Tag legt, das auf Interesse an einem Kredit schließen lässt. Wenn Herr Müller in Zukunft einmal einen derart gläsernen Surfer darstellt, wird er öfters entsprechende Post bekommen.

Auf viele Arten von Informationen muss man jedoch verzichten, wenn man sich auf nicht-reaktiv erhobene Daten wie Log-Files oder Cookies beschränkt. Wer beispielsweise wissen will, was der Surfer über Regierung und Opposition denkt, wird auch mit den raffiniertesten Tools zur Analyse von Log-Files keine Antwort finden. Hier kommen Online-Fragebögen ins Spiel. Ob wissenschaftliche Forschung oder Erfassung von Schadensfällen bei Versicherungen - Fragebögen bieten ein schier unerschöpfliches Spektrum an Einsatzmöglichkeiten. Einfache Hilfsmittel zur Erstellung von Online-Fragebögen lassen sich ohne allzu großen Aufwand mit HTML und CGI-Skripten erstellen. Wer dies nicht mag, findet auch eine große Anzahl kommerzieller Werkzeuge.

Große Softwarehäuser haben den Trend erst mit einiger Verspätung registriert. Der Branchenriese SPSS schickt sich beispielsweise erst jetzt an, ein entsprechendes Werkzeug (SPSS Data Entry Web) anzubieten. So konnten sich Produkte von kleineren, zumeist im universitären Rahmen entstandenen Firmen etablieren, etwa SMAN von Dialego, Rogator von der Rogator AG oder OPS (Online Panel System) von Globalpark. Die Rogator AG hat es in wenigen Jahren von der studentischen Initiative bis zur Aktiengesellschaft gebracht.

Bei den Online-Fragebögen ist grundsätzlich zwischen E-Mail- und WWW-Erhebungen zu unterscheiden. Bei E-Mail-Fragebögen benötigt man Adressen der Probanden. Web-Fragebögen können dagegen ohne spezielle Adressaten veröffentlicht werden; man kann sie auf speziellen Sites [#lit11 [11]] oder in News-Groups bekannt machen. Werkzeuge für E-Mail-Erhebungen wie E-Form von Beachtech [#lit12 [12]] können so eingestellt werden, dass sie den Befragten automatisch mehrfach anmailen, wenn er nicht geantwortet hat.

Insgesamt sind Web-Fragebögen weitaus beliebter, weil sie ohne Adressen auskommen, leichter zu handhaben sind und mehr Gestaltungsmöglichkeiten eröffnen. In dieser Gruppe gibt es Tools wie den WWW-Fragebogen-Generator [#lit13 [13]]. Produkte wie Quancept Web von SPSS können darüber hinaus auch andere Aufgaben auf dem Web-Server übernehmen, etwa die Speicherung der Daten. Andere Programme wie Inquiry [#lit14 [14]] gelangen gar nicht erst auf den Server dessen, der die Erhebung durchführt, sondern lassen sich vollständig im Browser konfigurieren. Inquiry, ein Produkt von Professor Ertel von der FH Ravensberg, ist dabei besonders auf die Evaluation von Lehrveranstaltungen ausgerichtet.

Technisch in die gleiche Kategorie gehört Freepolls von VantageNet [#lit15 [15]]. Auch hier konfiguriert der Anwender den Fragebogen vollständig auf der Client-Seite und legt ihn auf den Servern von VantageNet ab. Durch einen Link kann der Fragebogen dann mit der eigenen Web-Site verknüpft werden. VantageNet bietet kostenlosen Speicherplatz für Fragebogenerhebungen an und verkauft Werbefläche auf den Bögen an interessierte Firmen. Für 1000 PageImpressions sind zur Zeit 2,50 US-$ zu bezahlen. Wer eine Erhebung ohne Werbung durchführen will, muss für die Dienste von VantageNet bezahlen.

Schon versuchen einzelne Firmen, sich durch besondere Merkmale von den Mitbewerbern abzusetzen. Dialego [#lit16 [16]] integriert etwa eine Virtual-Reality-Komponente in das Erhebungs-Tool SMAN. Damit können Marktforscher ihre Probanden durch einen virtuellen Supermarkt laufen lassen. Diese bewerten anschließend die dort angetroffenen Produkte. Die Firma Rogator [#lit17 [17]] integriert dagegen Verfahren der Spracherkennung. Ziel ist ein System, das Interviews im WWW automatisch durchführt.

Bei richtigen Web-Experimenten treten Surfer in die Rolle von Versuchspersonen, die auf ein bestimmtes Verhalten geprüft werden, etwa eine Ja-Nein-Beurteilung. Die Versuchsleiter variieren die Versuchsbedingungen systematisch, um den Einfluss dieser Bedingungen genau zu bestimmen. Ein einfaches Beispiel: Will man wissen, welcher von drei Begriffen die Besucher einer Webseite zum Anklicken einlädt, wird man in einer Testphase drei Versionen der Seite einrichten. Alle drei unterscheiden sich nur in diesem Begriff, der als Link fungiert. Eine statistische Signifikanzprüfung nach der Testphase beantwortet die Frage, ob Schwankungen in den Zugriffszahlen zufälliger Natur sind oder sich auf die Begriffswahl zurückführen lassen.

Web-Experimente haben den Vorteil, dass sie vollständig automatisierbar sind und dass sich Probanden leicht beschaffen lassen. Problematisch ist allerdings, dass in der Regel keine Kontrolle der Situation der Probanden beim Experiment möglich ist.

Eine zentrale Anlaufstelle für Web-Experimente stellt das ‘Web-Labor für Experimentelle Psychologie’ an der Uni Zürich (früher Tübingen) dar, das 1995 von Ulf Reips [#lit18 [18]] eingerichtet wurde. Der kommerzielle Ableger [#lit19 [19]] soll noch dieses Jahr seinen Betrieb aufnehmen.

Bei Online-Forschern macht die Anekdote von dem Internet-Fragebogen die Runde, bei dem nach dem wichtigsten Politiker dieses Jahrhunderts gefragt wurde. Das unerwartete Ergebnis: Kemal Atatürk. Patriotische Informatikstudenten aus Ankara hatten eine Software programmiert, die immer wieder aufs Neue für den ersten Staatspräsidenten der türkischen Republik votierte.

Die Geschichte macht deutlich, dass bei Online-Untersuchungen Vorkehrungen gegen Mehrfachteilnehmer wichtig sind, egal ob es sich um Menschen oder Maschinen handelt. Naheliegend wäre es, die IP-Adresse des Clients per CGI-Skript abzufragen und mitzuspeichern. Wegen des begrenzten Vorrats an IP-Adressen vergeben Online-Dienste wie AOL oder T-Online IP-Adressen allerdings dynamisch. Die Überprüfung von Mehrfachteilnehmern aufgrund von IP-Adressen ist infolgedessen stark fehleranfällig: Ein und derselbe Benutzer kann zu unterschiedlichen Zeiten unterschiedliche IP-Adressen erhalten. Sie würden dann zu Unrecht akzeptiert.

Umgekehrt können zwei unterschiedliche Personen auch die gleiche IP-Adresse erhalten und zu Unrecht als Mehrfachteilnehmer von der Untersuchung ausgeschlossen werden. Mit Cookies auf dem Rechner des Surfers lässt sich dies zwar leicht vermeiden, aber sie lassen sich leicht wieder löschen. Damit stände dann einer wiederholten Teilnahme nichts im Wege.

Besser ist die Vergabe von Passwörtern, die zu einer einmaligen Stimmabgabe berechtigen. Allerdings eignet sich dieses Vorgehen nur für bestimmte Einsatzbereiche. Bei reinen Online-Erhebungen taugt es wenig - wie soll der Versuchsleiter via Internet feststellen, ob er einem Probanden bereits früher einmal ein Passwort gegeben hat? Anhand eines IP-Checks oder eines Cookie kann er dies aus den genannten Gründen nicht.

Kurzum: Kein Verfahren identifiziert Mehrfachteilnehmer wirklich sicher. In der Praxis behilft man sich mit einer Kombination verschiedener Verfahren. Beliebt ist die Prüfung anhand der IP-Adresse innerhalb eines kurzen Zeitfensters. Aber auch dieses Vorgehen ist nicht wirklich zuverlässig.

Online-Untersuchungen können in der Regel nicht mit dem Anspruch auftreten, ein Ergebnis zu liefern, das für die Gesamtbevölkerung repräsentativ ist. Schließlich stellen Männer jüngeren oder mittleren Alters den Großteil der Surfer, und bestimmte Personengruppen haben kaum eine Chance auf eine Teilnahme: ältere Menschen und Leute mit niedrigem Bildungsabschluss beispielsweise.

Dies bedeutet aber keineswegs, dass Online-Forschung nutzlos wäre. Zunächst ist Repräsentativität nur dann geboten, wenn ein Schluss von der untersuchten Stichprobe auf eine Grundgesamtheit (etwa die Einwohner Deutschlands) angestrebt wird. Ist dies nicht der Fall, so verschwindet das Problem. Wer in einer Firma seine (sämtlich vernetzten) Mitarbeiter zu ihrer Zufriedenheit per Intranet befragt, muss sich beispielsweise weniger um Repräsentativität sorgen.

Ferner kann der Versuchsleiter auch künstlich eine repräsentative Stichprobe erzeugen. Dabei hat er im Wesentlichen zwei Möglichkeiten: Einmal kann er solchen Gruppen, die bei den Versuchspersonen zu wenig vertreten sind, rechnerisch mehr Gewicht geben. Zum anderen - und dies ist die erfolgversprechendere Methode - kann er Aufwand treiben, um eine repräsentative Gruppe von Versuchspersonen selbst zusammenzustellen.

Diesen (altbekannten) Weg beschreiten derzeit etwa Dialego aus Aachen [#lit20 [20]], World Research aus den USA [#lit21 [21]] und viele andere Firmen mit der Zusammenstellung sogenannter Online-Panels. Panels sind Personengruppen, die in ihrer Zusammensetzung der Struktur einer Grundgesamtheit entsprechen, etwa der Bevölkerung Deutschlands. Hinsichtlich Geschlechtsverteilung, Altersstruktur, Berufsgruppen, Einkommensklassen und einiger anderer Merkmale müssen die Panels der Grundgesamtheit ähneln.

Statt einer repräsentativen Zufallsstichprobe nutzen diese Firmen also Online-Panels für Befragungen. Ein Panel kann in puncto Repräsentativität sogar bessere Ergebnisse liefern als eine zufällige Stichprobe. Die Personen aus dem Panel werden regelmäßig befragt und erhalten dafür kleine Anreize wie Warengutscheine. Immer mehr Meinungsforschungsinstitute setzen auf diese Methode, um den bekannten Vorteilen von Online-Befragungen (weltweiter Einsatz, niedrige Kosten) nun auch das Gütesiegel der Repräsentativität hinzuzufügen. Der Kölner Universitäts-Spin-Off Globalpark [#lit22 [22]] liefert Software, um solche Panels aufzubauen.

Wer die mangelhafte Repräsentativität der Online-Forschung kritisiert, sollte wissen, dass dieser Aspekt auch für die konventionelle Meinungsforschung immer problematischer wird. Eigentlich ist es ein Glücksfall, dass man repräsentative Stichproben relativ einfach über Interviews am Ausgang des Wahllokals oder durch Zufallsziehung in den Telefonbüchern zuammenstellen kann - oder soll man sagen ‘konnte’? In jedem Fall dürfte die Zunahme von Briefwählern und die wachsende Anzahl von Menschen, die keinen Eintrag im Telefonbuch wünschen, für immer mehr Probleme sorgen. Eine echte Verzerrung von Stichproben - und folglich auch von Ergebnissen - ist unvermeidbar, wenn diese Trends anhalten. Bestimmte Personengruppen wären dann von der Meinungsforschung nur schwer zu erreichen. Kein Wunder, dass die Institute mit großen Interesse die Entwicklungen in der Online-Forschung verfolgen.

In Zeiten, in denen die öffentliche Meinung nicht nur über das Design einer Margarineschachtel, sondern auch über das Schicksal von Politikern oder die Taktik der Kriegsführung entscheidet, gewinnen Methoden der Datenerhebung an Bedeutung. Das Internet wird dabei immer wichtiger, zumal die Benutzerzahl stark wächst und auch die Randgruppen von gestern (etwa Frauen und Senioren) verstärkt ins Netz der Netze drängen. Offenbar gleicht sich die Zusammensetzung der Surfer langsam der der Gesellschaft an. Repräsentativität werden im Internet gezogene Stichproben dennoch auf absehbare Zeit nicht erlangen.(ts)

Dietmar Janetzko, Statitische Anwendungen im Internet, München: Addison-Wesley Verlag 1999

[1] www.dgof.de

[2] www.online-forschung.de/kom/gir-l/

[3] www.freeware.de/freecounter/counter.shtml

[4] www.sitemeter.com

[5] www.fxweb.com

[6] www.better-counter.com

[7] Einen Überblick bietet www.builder.com/Servers/Traffic/

[8] www.siemens.de/servers/wwash/

[9] www.webmantech.co.uk/mainpage.htm

[10] Dietmar Janetzko, Lotsen los, Data Mining: Verborgene Zusammenhänge in Datenbanken aufspüren, c't 3/97, S. 294

[11] psych.hanover.edu/APS/exponnet.html

[12] www.beachtech.com

[13] www.online-forschung.de

[14] www.inquiry.com

[15] www.freepolls.com

[16] www.dialego.de

[17] www.rogator.de

[18] U.-D. Reips, Theorie und Techniken des Web-Experimentierens, in B. Batinic, A. Werner, L. Gräf, & W. Bandilla (Hrsg.), Online Research: Methoden, Anwendungen und Ergebnisse. Göttingen: Hogrefe 1999

[19] www.psych.unizh.ch/genpsy/Ulf/Lab/WebExpPsyLabD.html

[20] www.dialego.de

[21] www.survey.com

[22] www.globalpark.de

[23] www.wuv.de/data/report/gfk_4w_0899/index.html

[#anfang Seitenanfang]


Hits: Jede Datei, die beim Zugriff eines Clients auf einen Server aufgerufen wird, bildet einen Hit. Das vom Web-Server aufgezeichnete Log-File hält jeden Hit in einer Zeile fest. Wird eine normale Web-Seite aufgerufen, so zählt der Abruf der HTML-Seite selbst als auch jedes hier verankerte Multimedia-Element (meist Bilder oder Grafiken) als jeweils ein Hit. Je mehr Bildergewusel auf einer Seite, desto mehr Hits sind protokolliert. Daher sind Hits kein taugliches vergleichendes Maß für die Popularität von Web-Sites.

PageImpressions (Seitenabrufe, früher: PageViews): Aufrufe einer Web-Seite durch beliebige Nutzer, ohne dass integrierte Multimedia-Elemente extra gezählt werden.

Klickrate (AdClickRate): Das Verhältnis bewusster Zugriffe auf ein Werbeangebot (durch Klicken) je hundert Zugriffe (PageImpressions) auf die Seite, die die Werbung enthält.

Visits (Besuche): Ein Visit bezeichnet einen zusammenhängenden Nutzungsvorgang eines WWW-Angebots durch einen Client. Als Nutzungsvorgang zählt eine Reihe technisch erfolgreicher Seitenzugriffe eines Internet-Browsers auf eine Site, sofern sie von außen erfolgen.

ViewTime: Zeitliche Dauer, mit der sich ein Nutzer mit einer Page oder einer Web-Site durchschnittlich beschäftigt.

Clickstream: Seitenabrufe während eines Visits.

Probleme bei der Kontaktmessung beruhen nicht allein auf der Unzulänglichkeit von Messungen, die rein auf Hits basieren. Auch das Zwischenspeichern von Web-Pages durch Proxy-Server reduziert die Aussagekraft von Kontaktmessungen. Auf Client-Seite erschweren unterschiedliche Plattformen und Browser die Messungen.

Die Diskussion über Messprobleme und die Festlegung von Standards hält an. Von Professor Alpar wurde beispielsweise kürzlich der Entwurf für ein alternatives Verfahren vorgestellt, das den Aufwand des Seitenbetreibers (Erstellung des Informationsangebots) in Relation zum Ertrag (Seitenabrufe) setzt. Informationen zu den in Deutschland gültigen Standards der Kontaktmessung hält die Web-Site der Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e. V. bereit (www.ivw.de). Hier können auch die Visits und PageImpressions zahlreicher großer Web-Sites in Deutschland eingesehen werden, die dem Zählverfahren der IVW folgen.

[#anfang Seitenanfang]


Nicht nur die Häufigkeit, mit der eine Seite im WWW aufgerufen wird, interessiert kommerzielle Betreiber. Auch die Verweilzeit (VWZ) halten sie für ein Kriterium von höchster Relevanz. Sie vermuten nämlich, dass mit längerer Verweildauer die Inhalte und insbesondere die Werbung besser behalten werden.

Welche Faktoren bestimmen, wie lange der Surfer auf einer Seite bleibt? Natürlich spielen einerseits Bedingungen auf Benutzerseite (Interesse, Motivation) eine Rolle, andererseits aber auch Faktoren, die in der Web-Seite begründet sind, etwa Inhalte und grafische Gestaltung. Herbert A. Meyer und Michael Hildebrandt, zwei Psychologen an der Universität Kassel, haben festgestellt, dass auch die Systemresponsezeit (SRZ) massiv unsere Verweildauer auf Web-Seiten beeinflusst, allerdings anders als die meisten vermuten würden. Unter der SRZ versteht man die Zeitspanne zwischen dem Anklicken eines Links bis zur Darstellung des angeforderten Inhalts.

In einer einfachen und zugleich trickreichen Versuchsanordnung sollten sich Probanden Folgen von Fotografien der Werke renommierter Modedesigner ansehen, also Models auf dem Laufsteg. Dabei konnten sie frei zwischen mehreren Fotoreihen hin und her wechseln. Die Untersuchung fand im Labor an einem Einzelplatzrechner statt, um eine Kontrolle der Versuchssituation zu gewährleisten. Dies wäre im WWW kaum möglich gewesen.

Die Psychologen variierten die SRZ in einem Bereich zwischen 0,75 und 3,75 Sekunden und maßen die VWZ der Probanden pro Bildschirminhalt. Das erstaunliche Ergebnis: Je länger die Probanden auf eine Seite warten müssen, desto länger sehen sie sich diese Seite anschließend auch an. Allerdings sinkt die Verweildauer wieder, wenn die Responsezeit allzu lang wird. Nachfolgende Stimmungstests zeigen, dass dieses Absinken der VWZ mit negativen Emotionen einhergeht.

Offenbar bringt eine längere Responsezeit die Probanden also in einen langsameren Betrachtungsrhythmus. Lästig wird es erst ab einer bestimmten Schwelle. Dass kommerzielle Web-Sites künstlich die Nachladezeit verlängern sollten, wäre jedoch eine voreilige Schlussfolgerung aus diesem Experiment: Vermutlich haben wir es beim Betrachten von Web-Sites via Modem ohnehin mit zu langen Responsezeiten zu tun, die eine schlechte Stimmung erzeugen und eben nicht zum längeren Verweilen einladen.

[#anfang Seitenanfang]


Er ist männlich, um die 30, gebildet, technikinteressiert und immer auf der Suche nach einer Partnerin fürs Leben: der Internet-Nutzer. Das Bild von ihm ist uns geläufig. Es tritt auch vereinzelt in einer Variante auf - der ungepflegte Computerfreak, der bis spät in die Nacht mit Pizza und Cola vor dem Bildschirm hockt und eigentlich keine richtigen Freunde hat.

Doch woher kennen wir diese Person so gut? Wer hat ihn erforscht und vor allem mit welchen Methoden? WWW-Befragungen führen kaum zu repräsentativen Aussagen - das Augsburger Marktforschungsunternehmen wp-research hat gezeigt, dass die Zusammensetzung der Internet-Nutzer in Deutschland von Site zu Site und sogar von Semester zu Semesterferien deutlich variiert.

Seit 1998 finden sich nun immer häufiger Studien, die dem Surfer durch klassische Methoden der Marktforschung auf die Schliche kommen möchten. Zumeist handelt es sich dabei um zweistufige Telefonbefragungen. In der ersten Stufe (Screeningphase) werden mehrere tausend per Zufall ausgewählte Personen gefragt, ob sie das Internet nutzen. Wer dies bejaht, wird zur zweiten Interviewstufe eingeladen.

Der GfK Online Monitor [#lit23 [23]], der zweimal im Jahr durchgeführt wird, geht genau nach diesem Verfahren vor. Für Mitte 1999 weist er 9,9 Millionen Deutsche aus, die zumindest gelegentliche Nutzer des World Wide Web sind. Das entspricht einer Steigerung um 24 Prozent in den letzten sechs Monaten. Der Frauenanteil ist in dem gleichen Zeitraum um fünf Prozentpunkte auf nun 35 Prozent angestiegen.

Um tausend Internet-Nutzer auf diese Weise herauszufiltern, benötigt man sehr viele Personen in der Screeningphase. Dies ist teuer und zeitaufwändig. Durch eine Eingrenzung der Definition des Internet-Nutzers kann man nun versuchen, möglichst schnell auf die Tausend zu kommen. So werden beispielsweise nur 14- bis 59-jährige Personen befragt. Wer jünger oder älter ist, fällt automatisch aus der Stichprobe heraus.

Besonders problematisch ist zudem die Formulierung der Frage zur Netznutzung in der Screeningphase. Wird dort nach der Nutzung von Internet, Online-Diensten oder Computernetzwerken gefragt? Reicht eine E-Mail-Adresse auf der Visitenkarte bereits aus, um als ‘Netizen’ zu zählen, oder muss man auch mal selbst eine E-Mail versendet haben? Was ist mit Personen, die nur Onlinebanking oder Sex-Chats nutzen? Wird überhaupt nach einem Internet-Anschluss im Haushalt oder nach einem persönlichen Anschluss zum Datenmeer gefragt? Reicht ein Internet-fähiger PC am Arbeitsplatz, auch wenn er praktisch nie für diesen Zweck eingesetzt wird?

So lange nicht deutlich gesagt wird, was mit Internet-Nutzung gemeint ist, sind die Ergebnisse von Umfragen nicht miteinander vergleichbar. Eine Studie des Essener Instituts Academic Data zeigt auffällige Unterschiede zwischen den Diensten: 45,7 Prozent der männlichen Internet-Nutzer, aber nur 14,1 Prozent der weiblichen geben an, das WWW sehr häufig zu nutzen. Ganz anders bei E-Mail; dort bezeichnen sich 43,7 Prozent der Frauen als intensive Nutzer, aber nur 39,8 Prozent der Männer.

Der Internet-Nutzer ist also schwer zu fassen, zumal er noch gar nicht genau definiert ist. Betrachtet man jedoch die Verteilung der Internet-Rechner auf der Welt, so können wir ihn zumindest in einem wohlhabenden Land lokalisieren. Weite Teile Osteuropas, Südamerikas und besonders Afrikas gehören nicht zum globalen Dorf. (Bernad Batinic/ts)