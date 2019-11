Der neue Linux-Kernel verbessert die Unterstützung für UEFI Secure Boot und liefert zuverlässiger Zufallszahlen. Außerdem soll 5.4 die App-Performance bei Android steigern.

Der am Montag erwartete Linux-Kernel 5.4 kann Root einige Sachen verwehren, um für mehr Sicherheit im System zu sorgen; das ist vor allem zur Unterstützung von UEFI Secure Boot gedacht. Um ein schwelendes Problem beim Erzeugen von Zufallszahlen ein für allemal aus der Welt zu schaffen, hat Linus Torvalds überraschenderweise mal wieder selbst eine signifikante Änderung beigesteuert. Kernel-Entwickler können jetzt den Zugriff auf Funktionen begrenzen, die ihr Code anderen Module offeriert. Ferner bringt der neue Kernel allerlei Verbesserungen beim Netzwerk-Support. Erweiterungen von Google-Entwicklern sollen die App-Performance bei Android verbessern.

Details zu diesen und weiteren Neuerungen liefern die folgenden Absätze:

Rechte des Root-Anwenders aus Sicherheitgründen einschränken

Nach vielen Entwicklungsjahren, mehreren Dutzend Anläufen durch zwei verschiedene Programmierer sowie zahlreichen hitzigen Diskussionen hat Linus Torvalds endlich Patches zum "Kernel Lockdown" integriert. Damit kann Linux selbst dem Root-Anwender (User-ID/UID == 0) ein paar bislang mögliche Dinge verwehren, um die Sicherheit des Systems zu verbessern.

Das ist vorwiegend zum Support von Techniken wie UEFI Secure Boot interessant, denn ohne die Einschränkungen, die der Kernel Lockdown ermöglicht, können Angreifer solche Sicherheitsfunktionen leicht aushebeln. Dass das so leicht ist, liegt vor allem an einigen veralteten und dieser Tage vielfach zweifelhaften Kernel-Treibern und -Funktionen, durch die der Root-Anwender teilweise überall im Arbeitsspeicher schreiben kann. Ohne den Lockdown können Angreifer darüber andere Selbstschutzmechanismen des Kernels aushebeln und so etwa hinterrücks Schadcode in den laufenden Kernel einschleusen.

Lockdown jetzt feiner konfigurierbar

UEFI Secure Boot soll gerade solch ein Umgehen von Schutztechniken verhindern, daher enthalten die Kernel nahezu aller großen Distributionen schon lange Vorläufer der jetzt integrierten Lockdown-Patches. Letztere setzen aber etwas anders an, denn um Kritiker zufrieden zu stellen, wurden der Code zwischenzeitlich angepasst, um wie SELinux, AppArmor & Co. als Linux Security Module (LSM) beim Kernel anzudocken.

Außerdem lässt sich der Lockdown jetzt auch vollkommen unabhängig von UEFI Secure Boot nutzen, um ein Ausprobieren zu erleichtern und die Sicherheit auch unabhängig von solchen Firmware-Mechanismen verbessern zu können. Der Lockdown macht es dadurch etwa Root-Kits schwerer, sich tief einzunisten und dabei so gut zu verstecken, dass man den Schadcode nur schwer entdecken kann.

Durch die Umbauten kam auch der Kernel-Parameter lockdown={integrity|confidentiality} und die Sysfs-Datei /sys/kernel/security/lockdown hinzu, über den man das Verhalten steuern kann, sofern Firmware-, Boot-Loader sowie Lockdown-Konfiguration das denn erlauben.

Wie so häufig bringt auch dieser Sicherheitsgewinn einige Nachteile und Einschränkungen mit. So blockieren gängige Lockdown-Konfigurationen einige Funktionen, die manche Anwender sehr schätzen. Darunter ist etwa der Ruhezustand (Hibernate) oder die Möglichkeit, lokal für Distributionskernel kompilierte Kernel-Module nachzuladen, ohne sie zu signieren und Verifikationsschlüssel zu hinterlegen.

Details zum Ganzen finden sich im Merge Commit zu den Lockdown-Patches, einigen der darüber eingeflossenen Commits (u. a. 1) und dem LWN.net-Artikel "Lockdown as a security module".

Torvalds schraubt überraschend am Zufallszahlengenerator

Linus Torvalds, der dieser Tage nur noch selten eigenhändig größere oder signifikante Kernel-Änderungen für der Linux-Kernel entwickelt, hat ausnahmsweise selbst eine umfangreichere Änderung am Zufallszahlengenerator des Kernels vorgenommen. Damit generiert der Pseudo Random Number Generator (PRNG bei Engpässen nun neue Zufallszahlen mithilfe von Entropie, die er selbst erzeugt, indem er Prozessorbefehle absetzt und deren Ausführungsdauer mit CPU-Cycle-Countern misst.

Diese Änderung geht ein in der Endphase der 5.3-Entwicklung viel diskutiertes Problem an: Nach einer Optimierung am Ext4-Code kam der Startvorgang bei einigen Anwendern ins Stocken, weil plötzlich nicht mehr genug Entropie erzeugt wurde und Userspace-Anwendungen dadurch endlos auf neue Zufallszahlen warteten. Der für den Generator zuständige Entwickler und Torvalds kamen zu der Zeit in längeren Diskussionen nicht zu einer adäquaten Problemlösung, woraufhin der Linux-Vater die Ext4-Optimierung wenige Tage vor der Fertigstellung von 5.3 überraschend entfernte.

Als im folgenden niemand eine Lösung vorantrieb, schritt Torvalds schließlich am Ende der Hauptentwicklungsphase von Linux 5.4 kurzerhand selbst zur Tat: Er setzte die von ihm vorgeschlagene Entropie-Erzeugung über Cpu-Cycle-Counter direkt im Hauptentwicklungszweig um und überging dabei die sonst übliche öffentliche Vorabbegutachtung vollkommen. Direkt danach pflegte er dann auch die Ext4-Optimierung wieder ein. Kurz darauf ließ er auf der Mailingliste durchblicken, durch sein direktes und weitgehend unabgesprochenes Vorgehen vielleicht andere Entwickler zu motivieren, einen noch besseren Ansatz zu entwickeln – was aber nicht passierte, daher bleibt jetzt vorerst alles, wie es ist. Weitere Details dazu finden sich im LWN.net-Artikel "Really fixing getrandom()".

Modul-Exporte partitionieren

Die neuen Symbol Namespaces könnten über kurz oder lang auch ein Problem für Entwickler externer Treiber werden – egal ob proprietär oder Open Source. Über die Symbol Namespaces können die Kernel-Programmierer nämlich die Verfügbarkeit der Symbole einschränken, über die Kernel-Module einzelne ihrer Funktionen exportieren können, damit Code anderer Kernel-Module auf diese zurückgreifen können.

Beispielhaft implementiert wurde solch ein Namespace bei den USB-Storage-Treibern: Code, der deren Funktionen nutzen will, muss sie daher jetzt über MODULE_IMPORT_NS(USB_STORAGE); explizit einbinden, sofern die neue Bauoption CONFIG_MODULE_ALLOW_MISSING_NAMESPACE_IMPORTS denn beim jeweiligen Kernel-Image gesetzt ist. Prinziell kann man die Symbol Namespaces aber auch nutzen, um bestimmte Symbole nur zur internen Nutzung freizugeben, was zu einer Hürde für unabhängig gewartete Kernel-Module werden könnte.

Details zu diesem Thema finden sich in einigen Commit-Kommentaren (u. a. 1, 2, 3), der Dokumentation und dem LWN.net-Artikel "Kernel symbol namespacing".

Fortschritte beim Realtime-Support und Prozess-API

Nachdem bei Linux 5.3 klargestellt wurde, dass Linux bald von Haus aus Echtzeitfähigkeiten bieten soll, folgten bei Kernel 5.4 einige im PREEMPT-RT-Zweig vorangetriebene Umbauten und Erweiterungen, um diesem Ziel näher zu kommen (u. a. 1, 2, 3, 4, 5, 6). Eines der wichtigen Features, was zum Realtime-Support noch fehlt, ist eine neue Printk-Infrastruktur, die sicherstellt, dass beim Protokollieren von Kernel-Ereignissen keine langen Wartezeiten entstehen. Von den dafür nötigen Umbauten ist bislang aber nicht viel zu sehen, daher dürften sie frühestens bei Linux 5.6 folgen.

Das "Scheduler Utilization Clamping" lässt sich jetzt auch über Control Groups (Cgroups) steuern; über diese kurz Uclamp genannte und bei Linux 5.3 nachgerüstete Technik können Admins oder Entwickler einzelne Programme speziell auszeichnen, um deren Reaktionsfreude zu steigern oder die Leistungsaufnahme des Systems im Zaum zu halten.

Mit dem neuen P_PIDFD-Flags des Syscall waitid() können Prozess-Management-Programme jetzt auf Prozesse warten, um so automatisch über deren Ableben zu erfahren und dabei auch dessen Rückgabewert zu erhalten. Mit dieser und einigen zugehörigen Änderungen ist die Basis des neuen Pidfs-APIs jetzt komplett; Christian Brauner hat es im Verlauf der letzten zwei Jahre vorangetrieben, um das Prozess-Management und damit auch den Container-Betrieb robuster zu machen. Details hierzu liefern die LWN.net-Artikel "Completing the pidfd API" und "Adding the pidfd abstraction to the kernel". Letzterer fasst einen Vortrag zusammen, von dem sowohl Vortragsfolien und Videoaufzeichnung frei abrufbar sind:

Jüngst zum neuen Pidfs-API gehaltener Vortrag.



Reproduzierbar bauen und Performance-Verbesserungen für Android

Die Kernel-Dokumentation liefert jetzt Hinweise zum reproduzierbaren Bau ("Reproducible Build") von Linux. Bei so einem Bauprozess entsteht beim wiederholten Übersetzen stets ein bitgleiches Resultat, daher kann man damit untersuchen, ob ein vorliegender Kernel tatsächlich aus einem bestimmen Quellcode entstanden ist.

Einige Umbauten versprechen die Performance der Vsock-Infrastuktur deutlich zu verbessern, über die bei Virtualisierung der Host und sein Gast effizient kommunizieren können.

Android-Entwickler haben einigen Änderungen beigesteuert, mit denen sie die Performance und den Start von Apps beschleunigen wollen. Dazu rüsten die Patches die madvise()-Flags MADV_COLD und MADV_PAGEOUT nach. Mit ihnen kann das Smartphone-Betriebssystem dem Kernel einige Hinweise auf Arbeitsspeicherbereiche von Programmen geben, die höchstwahrscheinlich in naher Zukunft ohnehin nicht benötigt werden, weil die Anwendung vielleicht gerade geschlossen wurde; dadurch kann der Kernel die Arbeitsspeicherinhalte bei Bedarf früher verwerfen und so Platz für wichtigere Dinge schaffen.

Längeres Hin und Her hat wohl ein Ende

Mit Linux 5.4 scheinen auch endgültig Streitereien um einen Patch zu Ende zu gehen, der die transparente Handhabung großer Speicherseiten (Transparent Hugehages/THP) zu optimieren versuchte. Er wurde bereits einmal aufgenommen und nach Beschwerden eines Entwicklers wieder entfernt, nach mehreren Monaten und allerlei Diskussionen aber jüngst bei Linux 5.3 erneut eingepflegt. Details hierzu erläutert LWN.net im Artikel "Dueling memory-management performance regressions". Der Kritiker meldete sich erneut zu Wort und fand schließlich zusammen mit den zuständigen Entwicklern und Linus Torvalds eine für alle zufriedenstellende Lösung – in dem Zug wurde der Patch dann aber ein zweites Mal hinausgeworfen, was zur leicht verwirrenden Commit-Überschrift 'Revert "Revert "Revert "mm, thp: consolidate THP gfp handling into alloc_hugepage_direct_gfpmask""'' führte.

Einige weitere Neuerungen rund um Infrastruktur des Kernels nennen die wichtigsten Merge-Commits der Bereiche ACPI, Compiler-Attributes, Dokumentation, EFI, Heterogeneous Memory Management (HMM), Kbuild, Kgdb, PCI, Perf, Power-Management, RCU, Prozess-Scheduler, Tracing und Vfi.

BPF-Programme nicht spezifisch, sondern universell kompilieren

Die Kernel-Entwickler haben große Teile einer "Compile Once, Run Everywhere" (CO-RE) genannten Infrastruktur für die BPF Virtual Machine integriert. Damit sollen viele BPF-Programme bald nicht mehr nur mit dem Kernel laufen, für den sie kompiliert wurden, sondern mit ganz verschiedenen harmonieren. Das sollte etwa den Einsatz von Performance-Analyse-Werkzeugen erleichtern, die sich die mächtigen BPF Virtual Machine zunutze machen. Dazu brauchen solche Programme aber einige Kernel-spezifische Informationen, die sie aus den seit Linux 5.2 unterstützten Datenstrukturen holen, die sich das bei Linux 4.18 eingeführte BPF Type Format (BTF) zunutze machen. Details zu CO-RE erläutern die Folien von Vorträgen, die auf der Linux Plumbers Conference (LPC) 2018 respektive der Bpfconf 2019 gehalten wurden.

Apropos BTF: Über /sys/kernel/btf/ exportiert der Kernel jetzt Informationen zu BTF-Datenstrukturen sowie darin gespeicherten Daten.

Für Netzwerkverbindungen, die der Kernel mit Programmen für den Netzwerk-Schnellverarbeitungsweg eXPress Daten Path (XDP) verarbeitet, können XDP-Programme den BPF nun SYN-Cookies erzeugen lassen, die beim Schutz vor Denial-of-Service-Angriffen mit SYN-Flooding helfen.

Weitere Änderungen rund um Netzwerk-Support nennt der wichtigste Merge-Commit dieses Subsystems.