Prozessorgeflüster

Vom Einbuddeln und Ausbuddeln

Trends & News | Prozessorgeflüster

AMD hat nun den letzten Bulldozer namens Excavator vorgestellt und der ist weniger auf bullige Performance als vielmehr auf Energie- und Platzsparen getrimmt. Derweil lugen von all überall schon die Skylakes hervor.

San Francisco, Barcelona, Nürnberg und Hannover – es ist was los in den Zentren der Welt. AMD nutzte die International Solid-State Circuit Conference (ISSCC) in San Francisco, um etwas mehr zum Carrizo mit dem Excavator-Kern, dem letzten aus der Bulldozer-Riege, zu verraten. So haben es die AMD-Entwickler durch Wechsel der Bibliotheken von High Performance auf High Density geschafft, den Kern innerhalb des gleichen 28-nm-SHP-Prozesses von Globalfoundries gegenüber dem Steamroller erheblich zu komprimieren. Jetzt ist er um 23 Prozent kleiner – oder umgekehrt ausgedrückt, auf diegleiche Fläche passen 29 Prozent mehr Transistoren. Zudem wurden einzelne Bereiche von Kontorsionskünstlern redesignt, etwa der Gleitkomma-Scheduler, die FMAC-Einheit oder die Kontroll-Logik für den Instruktions-Cache, sodass deren Platzbedarf um 35 bis 38 Prozent schrumpfte.

Vor allem im interessanten Bereich zwischen 2 und 20 Watt pro Kernpaar lohnt sich laut AMD der Einsatz der High-Density-Bibliotheken. Erst von 25 Watt an aufwärts ist die für den Steamroller gewählte Designvariante geringfügig von Vorteil, jedenfalls bezüglich Frequenzeffizienz. Für die Performance kommen beim Excavator jedoch noch weitere, wenn auch überschaubare Designverbesserungen hinzu. Früher einmal hörte man von 30 Prozent mehr Instruktionen pro Takt (IPC). Aber das war wohl ein Missverständnis im Performancevergleich zum Kaveri bei gleichem Energieverbrauch. Zur jetzt angegebenen bescheidenen IPC-Steigerung von 5 Prozent reichte vermutlich die längst überfällige Verdoppelung des L1-Daten-Cache auf 32 KByte aus – ja, ja, der alte Athlon hatte bereits 64 KByte …

Der Excavator-Kern soll nun insgesamt etwa 40 Prozent weniger Energie verbrauchen als sein Vorgänger. Nur ein Teil davon erklärt sich durch die geänderten Bibliotheken und die daraus resultierenden kürzeren Verbindungen. Hinzu kommen aber Techniken wie Voltage Adaptive Operation (VAO) und Adaptive Voltage Frequency Scaling (AVFS). Erstere fährt bei zu großem Rauschen oder kurzen Drops auf den Spannungsleitungen innerhalb von Nanosekunden den Takt herunter. Ohne solche Technik muss man genügend Spannungsreserve „just in case“ einplanen, was viel Energie kostet.

Weiterhin überwachen 500 Sensoren und 10 AVFS-Module Energieaufnahme, Temperatur und weitere Parameter einzelner Chip-Bereiche und passen so den Takt dem individuellen Chip und den aktuellen Betriebsbedingungen an. Solche adaptiven Techniken werden reproduzierbare Benchmarks zukünftig wohl noch weit schwerer machen, wie man an den Unwägbarkeiten der aktuellen Broadwell-U-Notebooks (Seite 98) schon gut ablesen kann.

Die Carrizo-GPU auf Tonga-Level (GCN 1.2) soll nun 8 Compute Units mit 512 Shader-Einheiten aufbieten. Hier konnte AMD die Leckströme um 18 Prozent reduzieren. HSA 1.0 wird dabei voll unterstützt. „Connected Standby“ ist mit Carrizo nun auch bei den größeren AMD-Chips angekommen, bislang war es den kleinen Beemas und Mullins vorbehalten. AMD spricht hier ähnlich wie Intel vom SOi3-Schlafzustand. Innerhalb einer halben Sekunde kann Carrizo aufwachen und wieder einschlafen. Intels Broadwell-U ist diesbezüglich allerdings erheblich fixer und verbraucht beim Schlafen mit 18 mW auch deutlich weniger als Carrizo mit 50 mW.

AMD verkleinerte den Chip aber nicht, sondern nutzte den frei gewordenen Platz für weitere Features. Auf 250 mm2 wirken nun 3,1 statt 2,3 Milliarden Transistoren. Einen Teil dieses Platzes belegt die Southbridge, die voll integriert wurde. Das spart zusätzlich Energie und Layout-Kosten. Intel hat im Broadwell die Southbridge zwar im Chipgehäuse untergebracht, aber noch auf einem eigenen Chip.

Ferner gehört zu den Carrizo-Goodies ein vollständig in Hardware implementierter H.265-Decoder – auch das hat die Konkurrenz noch nicht. In der Demo beim Abspielen eines 4K-Videos „idlete“ die CPU bei nur 8 Prozent Last.

Erste Skylake-Boards

Wenn alles nach Plan läuft, kann man im Sommer die ersten Carrizo-Notebooks auf dem Markt sehen. Aber dann ist Intel mit der nächsten Prozessorgeneration Skylake schon nicht mehr fern. Die ist ja wieder in Haifa entwickelt worden und die israelischen Entwickler fanden die mit dem Haswell eingeführte Idee der oregonischen Kollegen mit den integrierten Spannungsreglern nicht so gut und haben jene wieder rausgeschmissen.

Erste Industrie-Mini-ITX-Boards für Skylake mit externen Reglern hat Asrock nun auf der Embedded World in Nürnberg präsentiert, allerdings noch ohne Prozessor im LGA1151-Sockel (siehe S. 42). DFI zeigte offenherzig die Roadmap für die kommende sechste Core- und die nächste Atom-Generation, etwa den SU171/173 für Mobile mit 15 Watt. Auch Systeme mit den schon als vermisst vermuteten Braswell-Atoms sind urplötzlich am DFI-Stand aufgetaucht.

Intel hat indes weder hier noch auf der ISSCC Neues zu Prozessoren verraten, hob sich das für den Mobile World Congress in Barcelona auf. Vielleicht hat Intel aber rund um die CeBIT in Hannover noch was Feines in petto. So wartet man ja noch auf den auf dem letzten IDF angekündigten Xeon D-1500 mit bis zu acht Broadwell-Kernen, von dem laut cpuworld.com erst einmal neun Versionen geplant sind. Das wäre dann der erste Chip in 14-nm-Technik in höheren Performanceregionen. Er soll mit 35 bis 45 Watt nomineller Leistungsaufnahme den anmarschierenden ARM64-Armeen den Boden heiß machen.

Zum Thema 14 nm und kleiner hat Intels Herstellungschef Mark Bohr auf der ISSCC ein bisschen geplaudert. Bis hinab zu 7 nm klappts nach seinen Worten noch mit dem Moor’schen Gesetz bei äußerst kunstvollem Einsatz traditioneller 193-nm-Laserbelichtung. Was dann kommt, steht noch in den Sternen. Die nötige Lernrate bei 14 nm (P1272) habe man allerdings unterschätzt, was die Verzögerung bei Broadwell begründete. Der 10-nm-Prozess laufe aber im Testbetrieb deutlich besser an, als 14 nm zuvor. Und natürlich habe Intel einen großen Vorsprung und ohnehin den kleinsten Transistor und insbesondere mit 0,0588 µm2 die kleinste 6T-SRAM-Zelle, und zwar real im Broadwell implementiert und von Chipworks nachgewiesen. Konkurrent TSMC hat seinen 16FF-Prozess mit 0,07µm2 Zellgröße und Samsung seinen 14-nm-Prozess mit 0,0645 µm2 spezifiziert. Beide Werte stehen offenbar für die frühen Prozessversionen, für beide sind jedoch baldige Plus-Updates geplant, die dann etwa mit Intels P1272 gleichauf liegen müssten. Ganz so groß ist der Vorsprung von Intel dann vielleicht doch nicht. (as@ct.de)

Artikel kostenlos herunterladen

Anzeige