Hammer, Nägel und Köpfe

Das Microprocessor Forum 2001

Trends & News | News

AMDs Hammer, IBMs Low-Power-PPC und ATIs Eintritt in die Prozessorszene waren diesmal die Highlights des Microprocessor Forum. Darüber hinaus bot sich der alljährlich in San Jose, im Herzen des Silicon Valley, zusammenfindenden Microprozessor-Szene auch die eine oder andere Überraschung.

Sei es das Fehlen des langjährigen Veranstalters und Mentors des Microprocessor Forum, Michael Slater, sei es die kräftige Erhöhung der Seminarpreise oder die Scheu angesichts der Terrorereignisse ins Silicon Valley zu reisen - jedenfalls zeigte sich die Teilnehmerschar des diesjährigen Forums gegenüber dem Vorjahr deutlich geschrumpft - passend zum ebenfalls arg geschrumpften Halbleiter- und PC-Markt.

Am Angebot selbst kann es kaum gelegen haben, denn das war so reichhaltig wie nie, sodass die Veranstalter das Forum gar um einen halben Tag verlängern mussten. Und genau an diesem halben Tag wurde gleich vorab einer der Höhepunkte des Forums geboten, nämlich Einblicke in die Mikroarchitektur des AMD-64-Bit-Prozessors ‘Hammer’. In guter alter Forums-Tradition erläuterte AMDs Cheftechniker Fred Weber Details zur Prozessor-Pipeline, den Funktionseinheiten, den Caches und zu anderen Interna des Neulings.

Die Besonderheit neben der 64-Bit-Erweiterung ist der eingebaute Speicher-Controller (‘Northbridge’), der mit ein oder zwei SDRAM-Kanälen mit DDR333 - auch PC2700 genannt - arbeiten kann. Hierüber lässt sich eine Bandbreite von 5,33 Gigabyte/s erzielen. Nach außen kommunizieren die Hammer-Prozessoren je nach Ausführung über einen oder mehrere der von AMD entwickelten schnellen seriellen I/O-Kanäle namens Hyper-Transport, (mit je 6,4 GByte/s Transfergeschwindigkeit). Die von Weber vorgestellte ‘Musterlösung’ wies drei solcher HT-Links pro Prozessor auf. Um bis zu acht Hammer-Prozessoren via HT ohne weitere Zusatzhardware verknüpfen zu können, verfügen diese über einen integrierten ‘Verteiler’, dem Crossbar-Switch (XBAR). Dieser XBAR sitzt wie die Spinne im Netz und lenkt dort die Datenströme der drei HT-Links, des Memory Controller (MCT) und des über die System Request Queue angekoppelten Prozessorkerns. Wie die gezeigten Blockschaltbilder (mit CPU0 und CPU1) nahe legen, kann es sich dabei auch um einen Dual-Kern handeln, worauf auch eine Stufe in der gegenüber dem Athlon um zwei Stufen verlängerten Pipeline namens Pick hinweist. Prozessoren mit zwei Kernen sind offenbar bei AMD schon fest eingeplant, doch ob bereits die erste Hammer-Version damit ausgestattet sein wird, wollte Fred Weber in einem Gespräch mit c't noch nicht verraten.

Eine integrierte Northbridge (Speicher-Controller) und ein Crossbar-Switch sind auf dem ersten Blick die Neuerungen im Hammer, die gegenüber dem Athlon-Design ins Auge springen.

Die Hammer-Versionen unterscheiden sich vor allem auch durch unterschiedliche L2-Cache-Größen von 256 KByte bis 1 MByte. Ansonsten ähnelt die Mikroarchitektur sehr derjenigen des Athlons mit zwei L1-Caches à 64 KByte, drei x86-Decodern und neun Funktionseinheiten, nur verfügt der Hammer über mehr und breitere Register und unterstützt Intels SSE2. Weiterhin wurde der Translation Buffer an größere Server-Workloads angepasst. Die Sprungvorhersage wurde verbessert (mit 16k Einträgen für die Historie und 2k für Target-Adressen). Informationen über die Instruktionen (Predecoded Bits) speichert Hammer jetzt nicht nur im L1-I-Cache, sondern auch im L2-Cache ab. Der Clou dabei ist, dass der L2 zwischen Daten und Instruktionen unterscheiden kann. Bei Daten dienen Zusatzbits für die ECC-Prüfsumme, bei Code nehmen sie die Predecoded Bits auf.

Die integrierte Northbridge bringt gleich zwei Vorteile. Zum einen können sich Zugriffe auf den L2-Cache und Speicher besser überlappen, was die Latenzzeit bei wahlfreiem Speicherzugriff deutlich senkt. Zum anderen befreit sich AMD so von irgendwelchen Chipsatz-Animositäten. Alle performancerelevanten Faktoren sind dann im Prozessor integriert, auf dem Board befinden sich dann nur noch relativ harmlose Hypertransport-zu-Irgendwas-Bridges, wie sie etwa API Networks jetzt schon für PCI anbietet. Allerdings sei der Konkurrenzchip damit zu unflexibel, kritisierte Intel-Fellow und Pentium-4-Chefentwickler Glenn Hinton.

Intel war ebenfalls vielfältig auf dem Forum vertreten, wiewohl sich der verbreitete Inhalt in etwa umgekehrt proportional zu der Zahl der Vorträge verhielt. Nichts war beispielsweise von den auf dem Forum doch so beliebten Pipelines neuer Prozessoren zu sehen, sieht man mal von einer neuen Microengine für Intels Netzwerkprozessor IX ab. Dafür präsentierten die Intel-Mannen zuhauf (im Wesentlichen bekannte) Roadmaps und andere eher allgemeine Betrachtungen. Intel-Fellow Glenn Hinton präzisierte ein wenig das auf dem IDF vorgestellte Hyper-Threading-Konzept, wiewohl sich das meiste seiner Präsentation schon zuvor einem White Paper von Intel entnehmen ließ.

Warten, warten, warten: Nur im schwarzen Teil arbeitet der Itanium-Prozessorkern - und selbst dann besteht ein Teil der Arbeit aus dem ‘Ausführen’ von NOPs oder von bedingten Befehlen (Predications).

Beim Hyper Threading wird der Prozessor schizophren: Er verhält sich dann so wie zwei (logische) Prozessorgeister in einem Körper. Die beiden Prozessoren besitzen getrennte Instruktionszeiger sowie eigene logische Registersätze (die allerdings per Renaming auf einen gemeinsamen physischen Registersatz abgebildet werden). Auch die Interrupt-Controller (APICs), die Queues und Reorder-Buffer sind für jeden Prozessor separat vorhanden, die anderen Ressourcen wie Caches und Recheneinheiten teilen sich die beiden jedoch zweckmäßig auf, und wenn der eine warten muss (etwa auf einen Speicherzugriff), dann kann der andere die gemeinsamen Ressourcen allein verwenden.

Dieses SMT (Simultanious Multithreading) genannte Verfahren benötigt nur minimal zusätzliche Die-Fläche, kann aber bei geeigneter multithreaded Software bis zu 30 Prozent Performancegewinn herausarbeiten. Erste Messergebnisse aus Intels Microprocessor Software Labs verheißen Vielversprechendes: Die Linux-Compilation wird per Hyper Threading um 18 Prozent schneller, Microsofts SQL-Server wird 22 und der Webserver IIS um 30 Prozent beschleunigt.

Mit einer etwas esoterischen Lösung kann SMT auch single-threaded Applikationen auf die Sprünge helfen. Der Direktor der Microarchitecture Software Labs John Shen berichtete auf dem Forum von ersten Erfahrungen mit so genannter ‘Speculative Precomputation (SP)’. Hierbei werden an vorher festgelegten Punkten im Programm (Basis Trigger Points) ein oder mehrere Threads gestartet, die dem Haupt-Thread vorauslaufen und die schon mal spekulativ Code und Daten in die gemeinsamen Caches laden. Dummerweise führten aber die ersten Experimente mit dieser Idee (übrigens auf einer speziellen SMT-Itanium-Ausführung durchgeführt) zumeist zu einer Verlangsamung. Erst wenn der spekulative Thread selbst noch weitere ‘Helfer-Threads’ anwirft, lässt sich ein Performancegewinn einspielen. Theoretisch sind je nach Applikation sogar Performancesteigerungen bis zu 170 Prozent drin. Doch dazu müssen Intels Spökenkieker noch reichlich forschen. Immerhin, den massiv unter Speicherwartezeiten leidenden Benchmark mcf der SPECint-Suite konnten sie schon mit insgesamt acht solcher Threads auf etwa doppelte Geschwindigkeit hieven.

Wie sehr der Itanium unter realer Software ‘leidet’, belegte tags drauf Professor Wen-mei Hwu von der Universität Illinois, dessen Team an einem optimierenden Compiler für den Itanium namens Impact bastelt. Von der sechsfach parallelen Ausführungsmöglichkeit des Prozessors bleiben beim problematischen mcf-Benchmark mal gerade effektiv 0,15 IPC (Instruction per Clock cycle) über - ein Desaster. Da könnte der Itanium auch mit hundert Funktionseinheiten aufwarten, es würde ihm nichts helfen. Insgesamt zeigte Hwu, dass der Anteil der reinen Rechenzeit beim SPECint2000-Benchmark auf dem Itanium bei allenfalls zehn Prozent liegt, der Rest besteht aus Wartezeiten auf Grund von Speicherzugriffen, Pipeline-Flushs wegen falsch vorhergesagter Verzweigungen oder wegen Abhängigkeiten bei der Ausführung.

Itanium-Nachfolger McKinley verbessert vor allem den Zugriff auf die Caches und verdreifacht die Speicherbandbreite. Die Pipeline wurde von zehn auf acht Stufen verkürzt, der Takt erhöht und zwei zusätzliche Integer-Funktionseinheiten eingebaut. Das führt laut Intel zu einer Beschleunigung beim SPECint um mindestens 70 Prozent. Ab dem zweiten Quartal 2002 soll McKinley auf den Markt, ein Jahr später soll dann Madison folgen, gefertigt in 0,13 µm und mit 6 MByte L3-Cache on Chip. Dileep Bhandarkar, Intels Direktor der Enterprise Architecture Labs, gab auch Ausblicke auf die Roadmaps der anderen Prozessoren.

Die Multiprozessor-Version des Pentium 4 (Codename Prestonia) wird als Xeon-MP mit Hyper Threading und mit 1 MByte L3-Cache im ersten Quartal 2002 an den Start gehen. Ihr folgte dann im zweiten Halbjahr im High-End der Gallatin mit 2 MByte L3. Im Performance-Bereich beim auf den Zweiprozessor-Betrieb beschränkten taucht ein neuer Codename auf: ‘Nocona’.

Banias, der als besonders Strom sparender Mobile-Prozessor zurzeit in Israel entwickelt wird, ist auch im Rahmen der ‘Ultra-Dense’-Verpackung für Server vorgesehen. Intels Ingenieur Bob Jackson verriet aber nur so viel, dass Banias mit separatem Mobile-Chipsatz, also ohne integrierte Northbridge, designt wird. Ungerührt behauptete Jackson, Intel habe die Strom sparendsten Prozessoren überhaupt - dabei hatte unmittelbar vor ihm Transmeta-Gründer Dave Ditzel dieses Aussage als Mär widerlegt und konkrete Messergebnisse präsentiert, die inklusive des Verbrauchs für Northbridge und Speicher den Crusoe 5800 weit unterhalb des Ultra-Low-Power Pentium III (mit 700/500 MHz) platzierten. Aber dieser Aspekt war ja nur eine ‘Randnotiz’, denn eigentlich stellte Ditzel den Crusoe TM6000 vor, der als System-on- a-Chip mit integrierter North- (DDR333) und Southbridge (IDE, USB, PCI ...) sowie 2-D-Grafik-Controller mit einem Takt von 1 GHz und mit einem Gesamtverbrauch von zwei Watt in der zweiten Jahreshälfte 2002 auf den Markt soll.

Die Idee, den Speicher-Controller mit in den Prozessor zu integrieren, hatten Transmetas Designer ja von Anfang an. Doch auch andere Entwickler haben diese nahe liegende Idee aufgegriffen - bis auf Intel, deren Vorstoß in diese Richtung, der unglückselige Timna-Prozessor, jäh gestoppt wurde. Sun beispielsweise integrierte einen Memory-Controller in den UltraSparc III, dessen jetzt vorgestellte neueste Ausführung IIIi mit Codenamen Jalapeno an eine untergegangene Prozessor-Ära erinnert: Unter diesem Namen stellte Cyrix 1998 an gleicher Stelle ein Prozessordesign vor - übrigens auch mit integriertem Speicher-Controller. Suns Jalapeno verfügt über zwei DDR266-Kanäle und einen integrierten L2-Cache von 1 MByte. Der von Texas Instruments in 0,13 µm gefertigte Prozessor entspricht mit seiner 14-stufigen Pipeline ansonsten weitgehend dem normalen UltraSparc III. Er zielt vorrangig auf preiswerte Server mit bis zu vier Prozessoren. Bei 1,4 GHz Takt soll er ‘nur’ 60 Watt verbrauchen.

Da ist Compaqs nächster Alpha-Prozessor 21364 (EV7) ein ganz anderes Kaliber: Mit seinen 155 Watt nähert er sich doch bedrohlich einem Toaster. Compaq hatte beim Verkauf der Alpha-Restbestände an Intel versprochen, den 21364 noch in zwei Versionen fertig zu stellen, und zwar als EV7 (in 0,18 µm) und als EV79 (0,13 µm SOI). Der EV7 hat - natürlich - einen Speicher-Controller integriert, oder genauer gesagt derer zwei, die aber statt mit DDR-SDRAM mit Rambus RD800 arbeiten. Rund um den ansonsten unveränderten 21264-Kern (EV68C) hat Compaq ferner einen L2-Cache von 1,75 MByte integriert. Der zergliedert sich in sieben einzelne Sub-Caches à 256 KByte und ist daher auch siebenfach assoziativ aufgebaut. Das Tape-out des 400 mm2 riesigen Chips ist im Frühjahr erfolgt, ab dem dritten Quartal 2002 soll er auf den Markt. Nachfolger EV79 ist als krönender Abschluss der Alpha-Ära für 2004 vorgesehen - dann soll für Compaq nur noch IA-64 gelten.

HP packt zwei komplette PA8700-Cores auf einen Chip, der dann 300 Millionen Transitoren aufweist.

Einen Schwenk zu IA-64 hat eigentlich auch Compaq-Neubesitzer Hewlett-Packard vor; schließlich gestaltete HP IA-64 ja mit. Und das McKinley-Design stammt - anders als der Itanium-Merced - weitgehend aus HPs Entwicklerschmiede. Doch so ganz traut HP der IA-64-Zukunft noch nicht, sondern macht vorsichtshalber mit PA-RISC weiter. Die neueste Version mit Codenamen Mako packt zwei 8700 Cores auf einen Die. Mit 300 Millionen Transistoren liegt Mako dann wieder vor dem McKinley in der Multitransistor-Disziplin. HP lässt den Chip übrigens nicht vom IA-64-Partner Intel fertigen, sondern von IBM, im 0,13-µm Prozess mit Kupfer/SOI/low-k. So kommt der Chip ‘nur’ auf 365 mm2. Das Besondere an ihm sind die geradezu gigantischen L1-Caches von zweimal 768 KByte - pro Prozessorkern! Der für beide Kerne gemeinsame L2-Cache ist extern über einen schnellen 128-bittigen Backside-Bus angebunden. Er ist mit 32 MByte Größe recht stattlich, wobei HP hierfür keine statischen Speicher einsetzt, sondern ESRAM. Die Tags für seine Verwaltung, auch schon immerhin 1 MByte, sind allerdings als statische Speicher im Prozessor integriert. Eine besondere Neuerung ist der Systembus, denn der ist kompatibel zum McKinley (200 MHz, 128 Bit, double pumped, 6,4 GByte/s). So lassen sich Mako und McKinley im System austauschen.

Mako-Hersteller IBM liefert sein eigenes Prozessor-Monster, den Power 4, bereits aus. Dieser Prozessor übernimmt jetzt mit seinen 1,3 GHz Takt auch locker die Führung im SPEC-CPU-Wettbewerb (Peakwerte SPECint: 807, SPECfp: 1169). Genauer gesagt reicht dafür sogar der halbe Prozessor, denn Power 4 besitzt wie Mako zwei Prozessorkerne und die SPEC-Suite ist ein Single-threaded-Benchmark. Andererseits ist der Betrieb eines ‘halben’ Doppelprozessors etwas unrealistisch, das gibt genügend Stoff für viele Diskussionen über faires Benchmarking solcher ‘Janus’-Prozessoren.

Geschätzte SPEC-Werte der nächsten Prozessor-Generationen

Auf dem Forum berichtete IBM-Vertreter Bradley McCredie mehr über Power-4-Systeme und über die Auswirkungen einzelner Prozessor-Features wie Hardware-Data-Prefetch oder der Page-Größen auf die SPEC-Werte. Den schon angesprochenen problematischen mcf der SPECint-Suite beschleunigt der Prefetch beim Power 4 immerhin um gut 40 Prozent. Bei dem mit großen Matrizen arbeitenden Benchmark mgrid der SPECfp-Suite spielt er sogar über 100 Prozent ein. Dass auch modernste Software und schnellste Rechner manchmal dennoch nicht das Nonplusultra darstellen, war eine Information am Rande. So haben IBM-Designer beim Power 4 wichtige Bereiche des Core von Hand geroutet und die Backplane sogar komplett.

Bewegen sich all diese Monster-Systeme so langsam in Richtung Megawatt, so formierte sich auf dem Forum auch die Gegenbewegung aus dem Milliwatt-Lager. Neben dem schon erwähnten Crusoe-Komplett-System TM6000 wusste hier vor allem IBM zu überzeugen. Ihr PowerPC 405LP ist ebenfalls ein System-on-a-Chip (SOC) mit Speicher- und LCD-, DMA- und Interrupt-Controller sowie Timer, serielle Schnittstellen, PCMCIA, Touch-Panel-Interface et cetera. Drei Hardware-Beschleuniger stehen für Spracherkennung und DES-Kryptographie und Code-Kompression zur Verfügung. Letzteres ist ein interessantes Feature, das den Instruktionscode komprimiert und so zu weniger Speicherbelastung führt. Herausragend sind jedoch die Leistungs- und Verbrauchswerte des 405LP, der wie Intels XScale dynamisch Takt und Spannung dem Bedarf anpassen kann. Bei 1,8 V und 380 MHz Takt kommt er auf beachtliche 577 Dhystone-MIPS, wobei er lediglich 500 mW verbraucht. Bei 1,0 V und 152 MHz schafft er immer noch 231 MIPS und ‘schluckt’ nur 50 mW. Da erwächst also Intels XScale ein ernst zu nehmender Gegner.

Daneben präsentierte das Internet-Appliance- und Settop-Box-Lager diverse weitere neue SOCs, National etwa den Geode GX2 und MiMagic einen von Infineon gefertigten Chip namens NMS7041. Herauszuheben ist hier der Einstieg von ATI in dieses Genre. Rund um einen 32-bittigen 300-MHz-MIPS-Core unbekannter Herkunft designte ATI alles, was derzeit so im Embedded-Bereich Rang und Namen hat. Ob Firewire-1394 oder USB, ob PCI, SmartCard oder Flexbus, IDE, IR oder serielle Schnittstelle, ob Audio, Video in oder out (und das gleich auf zwei TV-Kanälen): Der Xilleon 220, das laut ATI derzeit größte System-on-a-Chip, bietet für Digital-TV wirklich fast alles. Dazu gehört natürlich auch ein integrierter 2D/3D-Grafik-Controller sowie eine MPEG-2-Hardware-Beschleunigung. Der ‘Personal Video Recorder’ (PVR) mit versetzter Aufnahme/Wiedergabe (Timeshift)? - kein Problem für den Xilleon, sogar mit zwei Kanälen. Zwei verschieden ausgestattete Chips will ATI im nächsten Jahr auf den Markt bringen, die ersten Muster werden bereits ausgeliefert.

ATIs Xilleon 220 hat wahrlich kein Mangel an Schnittstellen.

Auch Motorola präsentierte einen hochintegrierten Chip für Netzwerk-Applikationen, den MPC8540. Rund um den Kern e500 mit bis zu 1 GHz sind hier DDR-Speicher-, DMA-, Interrupt-Controller, mit seriellen und Ethernet-Schnittstellen, Rapid-I/O und PCI-X angesiedelt.

Beim Thema 1-GHz-PowerPC wollte IBM nicht hinten anstehen und stellte den PPC 750FX vor - ein normaler, schöner PowerPC mit 512 KByte Cache ohne sonstige Zusatzhardware. Bei 1 GHz soll er 2300 Dhrystone-MIPS schaffen, ansonsten gab IBM - oh Graus - völlig veraltete SPEC95-Werte an, statt die zeitgemäße SPEC2000-Pendants. Runtergetaktet auf 500 MHz/1,2 V soll der Prozessor nur noch 1,6 W verbrauchen.

Die im Embedded-Bereich führenden Architekturfirmen Mips und Arm erweiterten beide den Instruction Set ihrer IP-Kerne. Während Mips eine neue ‘ubiquitous’ ISA kreierte, optimiert für Multithreading mit bis zu 32 Hardware-Threads, erweiterte ARM mit der Version V6 die vorhandene ARM-V5-Architektur um ein paar Befehle, verbesserte das Memory-Management und führte Multiprozessor-Unterstützung ein. Davon profitieren vor allem ‘höhere’ Betriebssysteme wie Windows CE und Linux. Intel und Texas Instruments haben schon vorab V6 lizenziert.

ARM und Mips standen auch im Mittelpunkt der erstmals auf dem Forum vortragenden ‘Rekonfigurierbaren’. Firmen wie Xilinx, Altera und Quicklogic haben nämlich solche Prozessor-Cores in ihre programmierbaren Logik- und ‘Field programmable ASSP’-Chips eingebunden. Und dann gab es noch Netzwerkprozessoren und eine Fülle neuer DSPs, die zu erwähnen den Rahmen hier sprengen würde.

Größere Aufmerksamkeit erregte eine britische Firma, die keine Prozessoren, ja überhaupt keine Hardware, sondern nur Software herstellt, die allerdings ‘explosiv’ ist. Das Dynamite-Paket von Transitive ist in der Lage, ähnlich wie Transmetas Crusoe-Prozessor, von einem Instruction Set eines Prozessors in das eines anderen mit hoher Effizienz zu übersetzen. Dynamische Optimierung zur Laufzeit sorgt dann dafür, dass beispielweise ein 1,4 GHz Athlon den für PowerPC kompilierten Dhrystone-Benchmark etwa auf dem (hochgerechneten) Niveau eines 1-GHz-PowerPC G4 ausführt. Der Pentium 4 - so ein Transitive-Mitarbeiter - sei für diese Aufgabe ‘zu schlapp’.

Unterschiedliche Betriebssysteme, etwa Mac OS zu Windows, mappt Dynamite nicht, alles bleibt in der Linux-Welt. Sinn macht so was im Embedded-Bereich, wo etwa eine MIPS-Settop-Box im Internet x86-Plug-ins ausführen kann. Dass das keine Spökenkiekerei ist, sondern bereits funktioniert, belegte Transitive mit einer Demo-Vorführung. Dort lief auch ein per MIPS-Prozessor emulierter ARM - schneller als es derzeit irgendein realer ARM-Prozessor vermag. (as)

Kommentare