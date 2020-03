Mit Statistiken ist das bekanntlich so eine Sache. Sie können ein wichtiges Handwerkszeug beim Verstehen der Welt sein, aber schlecht angefertigte oder missverstandene Statistiken erzeugen im besten Fall Verwirrung und bilden im schlimmsten Fall die Grundlage für Propaganda.

Wie so etwas aussehen kann, können wir gerade sehr schön an Hand eines Blog-Eintrags des Online-Magazins TheBestVPN erkennen. Diese Webseite veröffentlicht eigentlich Nutzer-Tests von VPN-Software, schreibt in diesem Fall aber über die Anzahl von Sicherheitslücken in Betriebssystemen – und versteht dabei einiges falsch. Etwa, dass die Linux-Distribution Debian das "am meisten mit Sicherheitslücken belastete" Betriebssystem der letzten zwanzig Jahre wäre.

Wie kommt man auf eine solche Annahme? In dem man die Grundlagen der eigenen Analyse nicht versteht und Rohdaten falsch auswertet. Der anonyme Autor des Blog-Eintrags hat Daten des National Institute of Standards and Technology (NIST) über Sicherheitslücken in Software zusammengetragen und ausgewertet. Dabei hat er zum Beispiel alle vom NIST erfassten Lücken von 1999 bis 2019 zusammengezählt. Allerdings enthält seine Tabelle einige Probleme.

Eine in vieler Hinsicht problematische Darstellung (Bild: TheBestVPN)

Als erstes einmal werden dort verschiedene Linux-Distributionen und Windows-Versionen als Betriebssysteme bezeichnet, anstatt alle Lücken in allen Versionen eines einzelnen Betriebssystems zu addieren. Das ist schon allein deswegen problematisch, weil zum Beispiel alle Debian-Versionen aus zwanzig Jahren zusammen addiert werden, Windows aber nur mit einzelnen Versionen vertreten ist, die alle natürlich weniger als zwanzig Jahre auf dem Markt waren. So kommt der Autor auf 3.067 Sicherheitslücken in Debian und sortiert die Distribution als Spitzenreiter in seine Tabelle. Addiert man aber etwa alle gelisteten Windows-Versionen, kommt man auf insgesamt 4.865 Sicherheitslücken.

Natürlich wäre eine solche Addition aber genauso wenig aussagefähig wie die eigentliche Tabelle, denn die gesamte zugrundeliegende Datenbasis ist problematisch. Der Autor wirft schließlich nicht nur Zahlen für Betriebssysteme und Betriebssystem-Versionen willkürlich zusammen, sondern listet diese in der selben Tabelle mit Zahlen über Sicherheitslücken des Linux-Kernels und von Endbenutzer-Software wie Browsern und Adobe Flash. Handelt es sich bei den Zahlen für Android nur um das Userland oder sind dort die Zahlen für den Linux-Kernel schon inkludiert? Wie sieht es bei Debian aus? Wie kann man die Zahlen von Sicherheitslücken von Debian und Ubuntu über zwanzig Jahre addiert vergleichen, wenn Ubuntu von diesen zwanzig Jahren nur fünfzehn Jahre lang existiert hat?

Es wird deutlich, dass sich der Autor wenig Gedanken über die Daten gemacht hat, die er da versucht auszuwerten.

Nun könnte man natürlich fragen, warum ein solcher Artikel überhaupt die Aufmerksamkeit von heise online verdient. Schließlich wird jeden Tag viel Blödsinn im Netz geschrieben, den man getrost ignorieren kann. In diesem Fall gibt es drei gute Gründe das nicht zu tun.

Erstens macht dieser Blog-Eintrag gerade unter Linux-Interessenten die Runde und es hat durchaus Wert für die Allgemeinheit klarzustellen, warum das Geschriebene wenig objektiven Wert hat. Zweitens ist es ein gutes Beispiel einmal zu zeigen, warum reinen Daten, auch wenn sie aus vertrauenswürdigen Quellen kommen, nicht immer zu vertrauen ist. Schließlich kann der Schluss, den jemand daraus zieht, komplett falsch sein. Und drittens ist es vielleicht an der Zeit, noch einmal darauf einzugehen, warum das reine Zählen von Sicherheitslücken an sich eine schlechte Metrik für die Sicherheit von Software ist.

Viele Sicherheitslücken ist nicht gleich unsicher

Dieser Falschannahme begegnet man in Artikeln und Kommentaren überall im Netz immer wieder. Hier wird die Anzahl von gemeldeten Sicherheitslücken in einem Produkt mit dessen Maß an Sicherheit zusammengebracht. Tatsächlich ist dies aber ein schlechter Indikator für relative Sicherheit von Software. Schließlich handelt es sich bei den Lücken in der Regel um gemeldete und geschlossene Sicherheitslücken. Man kann also durchaus argumentieren, dass eine Software um so sicherer ist, desto mehr ihrer Sicherheitslücken gemeldet wurden. Aber auch das lässt außer acht, dass bei solchen Vergleichen oft Äpfel und Birnen im Spiel sind.

So kann man zum Beispiel bei Debian und anderer Open-Source-Software davon ausgehen, dass so gut wie alle Sicherheitslücken, die von den Entwicklern der Software gefunden und geschlossen werden, öffentlich bekannt sind. Bei proprietärer Software wie Windows sieht das ganz anders aus. Hier kann man davon ausgehen, dass Microsoft hinter verschlossenen Türen eine Menge Sicherheitslücken schließt, von denen die Öffentlichkeit nie etwas erfährt. Ist Debian deswegen objektiv sicherer? Man kann diese Frage einfach nicht verlässlich an Hand des vorliegenden Datensatzes beantworten. Und deswegen sollte man über seine Daten erst mal gründlich nachdenken, bevor man sie blind in eine Infografik schaufelt. (Fabian A. Scherschel) / (fab)