Mit Python Daten von beliebigen Websites auslesen am Beispiel Talkshows

Mit Python und der Bibliothek BeautifulSoup lesen Sie Daten von Websites aus. Etwa aktuelle Talkshow-Termine, das Thema, die Gäste und ihre Beschreibung.

Lesezeit: 26 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 21 Beiträge
Von
Inhaltsverzeichnis

Das Internet. Unendliche Weiten. Fast jede nur erdenkliche Information ist im Netz zu finden: Der Wetterbericht für übermorgen um 14.45 Uhr, die Termine zur Vorstandssitzung des Billard Sportvereins Wuppertal 1929 e. V. oder die Begriffserklärungen zur Raufutter verzehrenden Großvieheinheit. Aber die Fülle an Daten kann einen schnell überwältigen und plötzlich klappern Sie immer wieder dieselben Websites ab, um immer wiederkehrende Informationen zu erhalten. Das geht effizienter: Ein kleines Python-Programm kann Ihnen diese Arbeit abnehmen, automatisiert beliebige Daten aus dem Netz ziehen und sie neu aufbereiten. Wir zeigen Ihnen, wie Sie ein kleines Python-Programm namens Wer talkt wo basteln, das sich anstehende Termine, Themen, Gäste und die Beschreibung der Gäste von den Homepages der Talkshows zieht.

Das funktioniert, weil das Netz maschinenlesbar ist: Die Auszeichnungssprache Hypertext Markup Language (HTML) strukturiert in der Regel die Texte, Bilder, Videos oder sonstige Daten einer Website. Regeln für die grafische Formatierung werden in der Stylesheet-Sprache Cascading Style Sheets (CSS) festgehalten. Zusammen bestimmen sie, wie eine Website aussehen soll. Ein Browser wie Firefox oder Chrome interpretiert die beiden Sprachen und stellt deren Informationen dar. Auch dieser Artikel besteht im Grunde nur aus HTML und CSS.

Wenn ein Browser diese Daten lesen kann, dann können das auch andere Programme. Solange Sie die gewonnenen Daten nicht verkaufen, sondern privat nutzen, können Sie das Netz als Ihre persönliche Datenhalde betrachten, aus der Sie mit der Programmiersprache Python die nützlichen Informationen ziehen. Man spricht vom Web Scraping, Screen Scraping oder schlicht vom Scraping.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

  • Zugriff auf alle Inhalte von heise+
  • exklusive Tests, Ratgeber & Hintergründe: unabhängig, kritisch fundiert
  • c't, iX, Technology Review, Mac & i, Make, c't Fotografie direkt im Browser lesen
  • einmal anmelden – auf allen Geräten lesen - monatlich kündbar
  • erster Monat gratis, danach monatlich 9,95 €
  • Wöchentlicher Newsletter mit persönlichen Leseempfehlungen des Chefredakteurs
GRATIS-Monat beginnen Jetzt GRATIS-Monat beginnen Mehr Informationen zu heise+