Viel Find – viel Ehr

Grundlagen, Werkzeuge und Anreize zum Umgang mit Big Data

Wissen | Hintergrund

IT-Werbung und -Messen trommeln seit Jahren für Big Data – aber ab welcher Größe eine Datenbank als Big-Data-Anwendung gilt, mag noch immer niemand beantworten. Stattdessen liefern derlei Fragen oft Hinweise auf verteilte Dateisysteme, NoSQL-Datenbanken und Hadoop.

Der Telefonkonzern AT&T brüstete sich 2012 damit, in der weltgrößten einheitlichen Datenbank 1,9 Billionen Datensätze mit zusammen mehr als 300 TByte zu verwalten. Andererseits hat der Handelskonzern Wal-Mart pro Stunde die Einnahmen von etwa einer Million Kunden zu verbuchen und hält auf seinen Servern nach Schätzungen im Web ständig mehr als 2,5 PByte an Transaktionsdaten. Solche Big-Data-Szenarien verlangen nach neuartigen Techniken, wie sie im Folgenden beschrieben werden.

Dank Internet lassen sich nicht nur immer größere Datenmengen sammeln und auswerten, sondern man kann die ganz verschiedenartigen Datenfluten aus unterschiedlichen Anwendungen auch noch miteinander korrelieren und daraus zusätzliche Erkenntnisse destillieren. So ist es eine Aufgabe, einen Surfer, der auf einer einschlägigen Website einen Kredit beantragt, über sogenanntes Browser-Fingerprinting einzuschätzen. Eine scheinbar ganz andere Aufgabe ist es, Milliarden von Webseiten auf enthaltene Links, interne Strukturen und Inhalte zu analysieren. Doch wenn man beide Analysen kombiniert, könnte sich herausstellen, dass ein Kreditaspirant manchmal online zockt. ...

Sie möchten wissen, wie es weitergeht?

Als c't-Plus-Abonnent gratis lesen

Anmelden als c't-Plus-Abonnent

weiterführende Links

Anzeige
Anzeige