
Während die ersten drei Standards der Motion Picture Experts Group (MPEG1-MPEG3) ein möglichst günstiges Verhältnis zwischen Audio-/Videokompression und der Bildqualität beim Abspielen anstrebten, bietet MPEG4 nun endgültig den holistischen Ansatz, alles mit allem verknüpfen zu wollen. Die einstmals überschaubare Welt von MPEG-Karten, Softwaredecodern und CD-ROM-basierten Anwendungen wird sich dabei in ein Parallel-Universum auflösen.
Das beim letzten Meeting vom 12. bis 16. Oktober in Atlantic City von den MPEG4-Detektiven zum Final Draft International Standard erkorene Werk bringt als Neuerungen Interaktivität, Objektsegmentierung, parallele Datenströme, Integration natürlicher und synthetischer Daten, mehr Effizienz bei niedrigen Datenströmen und inhaltsbasierte Zugriffs- und Skalierungsmöglichkeiten. Es dürfte die Multimediawelt bei Vorliegen geeigneter Hard- und Softwareimplementierungen zumindest gehörig in Schwung bringen.
MPEG1 ist seit 1993 verabschiedet und wurde seit 1988 im wesentlichen mit dem Ziel entwickelt, Audio- und Videodaten auf CD-ROMs speichern und ruckelfrei wieder abspielen zu können. Dieses Ziel wurde zunächst durch Hardwareimplementierungen (MPEG-Karten) erreicht. Im Handel ist derzeit eine Fülle von MPEG-CD-ROMs erhältlich, die bis zu 70 Minuten Audio/Video in erstaunlicher Qualität bieten. Darüber hinaus ist man heute nicht mehr von Zusatzhardware abhängig, da bereits handelsübliche Prozessoren und Rechnerkonfigurationen in der Lage sind, MPEG1-Videos per Softwaredekodierung in der gleichen Qualität abzuspielen wie frühere Hardwarelösungen (zum Beispiel Macintosh G3 mit 300 Mhz und QuickTime 3.0 Softwaredecoder).
Die Funktionsweise von MPEG1 ist ebenso genial wie einfach: da in den schnell aufeinanderfolgenden Videobildern (30 Bilder pro Sekunde bei NTSC-Video) nur sehr geringfügige Änderungen von einem Bild zum nächsten auftreten und viele Bildinhalte praktisch gleich bleiben, kann diese Redundanz mit Hilfe von einfachen Algorithmen eliminiert werden. Hierdurch sinkt der Speicherbedarf und damit auch der Rechenaufwand für die Wiedergabe der Bilder. Da aber auch die Qualität von Bild zu Bild nachläßt, wird nach einem variablen Zeitraum oder nach einer entsprechenden Anzahl von Bildern wieder ein Originalbild eingespielt, von dem aus dann wie oben skizziert weitergerechnet werden kann. Zusätzliche Kompression und schnellere Datenströme werden durch ergänzende Methoden der Signalverarbeitung (DCT, Diskrete Kosinustransformation) erreicht, die auf Matrizen von nebeneinanderliegenden Bildpunkten angewendet werden.
MPEG2 sollte auf dieser Funktionsweise aufbauen und einen Standard für Fernsehübertragungen schaffen, also bei hohen Datenübertragungsraten von bis zu 15 Mbit/s (gegenüber den 1,5 Mbit/s bei CD-ROM-Anwendungen) arbeiten. Durch eine Modifikation der Signalverarbeitungsalgorithmen bietet MPEG2 gegenüber MPEG1 eine verbesserte Bildqualität, und es stellte sich schnell heraus, daß dieser Standard auch auf die langsameren Datenraten angewendet werden kann. So sprach vieles dafür, fortan MPEG2 für Implementierungen zu verwenden.
Für Anwendungen unter HDTV wurde als nächstes MPEG3 diskutiert, wobei man festgestellt hat, daß MPEG2 sie bereits abdeckt. MPEG3 ist daher heute fast ohne Bedeutung, während fast alle MPEG-Anwendungen mit Datenübertragungsraten zwischen 1,5 und 15 Mbit/s auf MPEG2 beruhen.
Die ersten drei MPEG-Standards waren also auf eindeutige Anwendungen festgelegt. In der Zwischenzeit entwickelten sich aber nicht zuletzt durch die gesteigerte Performance der Geräte neben Audio- und Videoverarbeitung innovative Anwendungsgebiete, die ein neuer MPEG4-Standard zu integrieren in der Lage sein müßte:
Vor diesem Hintergrund wurde der kürzlich verabschiedete MPEG4-Standard entwickelt.
Bei der Gründung der MPEG4-Gruppe wurden 1993 zunächst unter Berücksichtigung der geringen Bandbreiten im Internet Ziele definiert, die gute Videoqualität auch bei 64 Kbit/s ermöglichen sollten. Nicht zuletzt aufgrund der ersten technischen Realisierungsvorschläge konnten diese Ziele bald dahingehend modifiziert werden, daß sowohl höhere Datenübertragungsraten als auch Anwenderinteraktionen unterstützt werden konnten. Dies haben die vorgeschlagenen Algorithmen ermöglicht, die in der Lage sind, einzelne bewegte Objekte aus dem Gesamtbild zu separieren und auf mehreren Kanälen separat zu speichern und wiederzugeben.
Diese beiden voneinander abhängigen Punkte sind die wichtigste Neuerung von MPEG4. Im Gegensatz zu den vorherigen Standards, bei denen nur auf Änderungen der Bildmatrix gerechnet wurde, fallen dabei rechenintensive Algorithmen an, bei denen die Objekte lokalisiert, abgetastet und geeignet kodiert werden müssen. Als gutes Beispiel kann dabei ein Tennisspiel dienen: Objekte der Szene sind die beiden Spieler, der Ball und der Hintergrund mit dem Spielfeld, den Zuschauern und dem Horizont. Diese Objekte bewegen sich mit unterschiedlicher Geschwindigkeit. Während beispielsweise der Hintergrund fast stillsteht, agieren die Spieler recht schnell, verändern ihre Position jedoch immer noch langsam im Vergleich zum Spielball.
|
Der Tennisspieler ist als Objekt separierbar und steht so benutzerspezifischen Manipulationen zur Verfügung (Abb. 1). Quelle. MPEG |
Anhand dieses Beispiels kann man sich gut vorstellen, daß es zu einer gewaltigen Ersparnis an Speicherplatz und Rechenleistung kommen kann, wenn es gelingt, Spieler und Ball als eigenständige Objekte zu separieren und auf getrennten Kanälen wiederzugeben, da für den Großteil des Bildes, den Hintergrund, kaum Rechenleistung benötigt wird. Ebenso ist dann leicht vorstellbar, die Szene bei unterschiedlichen Datenübertragungsraten in unterschiedlichen Qualitäten anzubieten: während etwa beim digitalen Fernsehen alle Kanäle mit der Höchstgeschwindigkeit von 30 fps (Frames pro Sekunde) wiedergegeben werden können, ließen sich auf der üblichen Internet-Bandbreite von 64 Kbit/s zum Beispiel der Hintergrund nur mit langsamen 4 fps, die Spieler mit 10 fps und lediglich der Ball mit vollen 30 fps wiedergeben.
Die Steuerung der einzelnen Kanäle erfolgt über einen Kanal, in dem die einzelnen Objekte mit Zusatzdaten, ähnlich Regieanweisungen, verwaltet werden. Bei der Wiedergabe werden die Objektdaten zusammengefügt, so daß beim Abspielen zunächst kein Unterschied zu einer normalen Videosequenz besteht. Zurück zum Beispiel bedeutet dies aber natürlich auch, daß die so separierten Objekte für Interaktionen nutzbar sind. Hier wäre es vorstellbar, die üblichen Spielstatistiken (Unforced Errors, Anzahl der ersten und zweiten Aufschläge, Doppelfehler, ) durch Klick auf einen der Spieler abzurufen.
Da der Anwender mit einem MPEG4-fähigen System letztendlich sogar die einzelnen Objekte innerhalb vorgegebener Grenzen manipulieren, also beispielsweise verschieben, skalieren, abfragen und anordnen kann, wäre es in letzter Konsequenz sogar möglich, das Spielgeschehen zu beeinflussen. Dabei wird das Erscheinungsbild der Szene praktisch am Benutzerende modifiziert, was bei einem echten Tennisspiel wenig Sinn macht, von Videospieleherstellern jedoch begrüßt werden dürfte.
Weiterhin könnte sogar auf der Seite der Serviceanbieter interagiert werden, wenn eine Rückverbindung besteht (Interaktionskanal). Hier wären Onlinedienste aller Art denkbar wie virtuelle Callcenter, Videoconferencing und ähnliche Services. Auch für das Authoring ist es interessant, daß sich Inhalte und Informationen auf beliebigen Plattformen dekodieren lassen, vorausgesetzt, es stehen geeignete Tools zur Verfügung. Als Systemsoftware gibt es hier bereits unzählige Tools, von VRML bis Java, die MPEG4 integriert. Die Objektbeschreibung basiert übrigens hauptsächlich auf Apples Quicktime 3.0, was das Rendering diverser Media-Objects für die Bildschirmausgabe betrifft.
Für die Objektsegmentierung wurden verschiedene Algorithmen und Lösungsvorschläge diskutiert. Zum einen die der Arbeitsgruppe um Murat Telkap, University of Rochester, der die zu verfolgenden Objekte mit einem Polygonnetz belegt, das auf Bildveränderungen reagiert und aufgrund seiner sehr geringen Datengröße sogar den Transport über herkömmliche Telefonleitungen realisieren könnte. Zum anderen die der Arbeitsgruppe des Berliner Heinrich-Hertz-Institutes um Thomas Sikora, den Leiter der Videogruppe der MPEG. Er hat ein Verfahren entwickelt, das sich beliebigen Formen von Objekten anpaßt und Szenen mit 20 bis 30 kbit/s in guter Videoqualität zuläßt. Der Final Draft des Standards integriert beide Lösungsansätze.
Wie bei der Verabschiedung der alten MPEG-Standards dürfte auch heute eine reine Softwaredekodierung der MPEG4-Algorithmen die derzeitigen Rechnerleistungen überfordern, so daß ein geeigneter Kompromiß zwischen Soft- und Hardwarelösungen gefunden werden muß. Mit diesen Fragen beschäftigt sich die Arbeitsgruppe Videosignalverarbeitung der TU München, von deren Homepage aus sich ein guter Einstieg in die wissenschaftliche Diskussion um MPEG4 herstellen läßt (viele Forschungsarbeiten, sehr gute Literaturverweise).
Der Aufbau des MPEG4-Standards ist symptomatisch für amerikanischen Definitionsbürokratismus und ähnelt dem von MPEG1. Er besteht aus sechs Teilen (Parts, manchmal auch Layers genannt), von denen der sechste Teil bei den alten Standards fehlt. Dieser Teil beschreibt das DMIF (Delivery Multimedia Integration Framework) mit neuen Features wie die Objektsegmentierung. Es ist für Einzelpersonen unüberschaubar und richtet sich an die Giganten der Softwarebranche, die ihn ja auch, neben wissenschaftlichen Mitarbeitern, entwickelt haben und letztendlich auch davon profitieren werden.
|
Die Scene Description Language aus MPEG4-Part 1 organisiert den Aufbau einer Szene hierarchisch (Abb. 2). |
Die Homepage der MPEG bietet einen Overview an, der die wesentlichen Aspekte beschreibt und - Nomen est Omen - einen gewissen Überblick schafft. Sehr umfassende Information erhält man, wenn man zum Beispiel den nebenstehenden Quellenangaben und den vielen dort angegebenen Literaturangaben und Links folgt.
Gesondert sollte in diesem Zusammenhang übrigens MP3 erwähnt werden, denn dieser Audiostandard führt mittlerweile abseits vom MPEG-Geschehen ein sehr populäres Eigenleben. Es handelt sich hierbei um Part 3 des MPEG1-Standards, auch Layer 3 genannt, der in Ergänzung zur Videokompression die Speicherung von Audiodaten auf kleinstem Raum behandelt. Da die verwendeten Algorithmen die subjektive Wahrnehmung berücksichtigen, können Kompressionsraten von 10 : 1 bis 15 : 1 erreicht werden, ohne individuelle Qualitätsverluste. Die Fangemeinde ist derart groß, daß eine Vielzahl von Tools zur MP3-Wiedergabe und -Bearbeitung als Freeware im Internet verfügbar sind und sich zahllose Homepages damit befassen.
|
Die erste im Internet gefundene MPEG4-Datei war bezeichnenderweise ein Amateurvideo (Abb. 5). |
Obwohl der Standard gerade erst verabschiedet wurde, finden sich im Internet überraschenderweise bereits einige Dateien im MPEG4-Format. Besonders überraschend ist, daß gerade nicht-professionelle Anwender hierzu Beiträge leisten (siehe das Treppenfest-Amateurvideo). Nach der Ankündigung der MPEG-Gruppe, daß das Datenformat von Apples QuickTime 3.0 als Basis für das MPEG4-Dateiformat verwendet werden sollte, waren wir persönlich nach unserem Artikel über QuickTime 3.0 natürlich besonders gespannt auf diesen Aspekt.
|
Der Movieplayer von Apples Quicktime 3.0 erkennt MPEG4-Dateien, will sie aber nicht abspielen (Abb. 4). |
| Nach Installation des Netshow Players taucht ein weiteres Codec in der Multimediasteuerung auf (Abb. 3). |
|
Versucht man, eine der heruntergeladenen MPEG4-Dateien mit dem QuickTime Movie Player abzuspielen, moniert der, daß ein entsprechendes Codec nicht vorhanden sei. Eine Internet-Recherche mit der Suchmaschine der Firme Apple ergab daraufhin 195 Seiten, auf denen die genannte Pressemitteilung der MPEG4-Gruppe zitiert wird, die jedoch außer Selbstbeweihräucherung leider keinen Hinweis auf ein geeignetes Codec enthält. Windows hingegen machte kaum Schwierigkeiten bei der Wiedergabe; nach Installation von Microsofts Netshow Player konnten sogar MPEG4-Videodateien erstellt werden. Um Verwirrungen vorzubeugen: der Netshow Player ist nicht in der Lage, die MPEG4-Dateien abzuspielen, es geht nur um das Codec, das nach der Installation in bekannter Weise dem System zur Verfügung steht und die Kodierung und Komprimierungsmethode bestimmt. Erste Versuche mit Adobe Premiere zeigten zwar extreme Kompressionsraten, lieferten aber keine revolutionären Ergebnisse. Hier müssen noch einige Ecken und Kanten beseitigt werden, was in naher Zukunft sicherlich auch geschehen wird.
Bei den Beispieldateien handelt es sich um ganz normale Videos ohne erkennbaren Unterschied zu MPEG1/2-Videos. Wer hier die neuen Features erwartet, wird leider enttäuscht. Diese waren außer in theoretischen Skizzen bis zum Redaktionsschluß nicht als Praxisbeispiele aufzutreiben.
Im Jahr 2000 soll der bereits in Bearbeitung befindliche MPEG7-Standard fertiggestellt werden. Dabei handelt es sich um ein Multimedia Content Description Interface, das ähnlich den textbasierten Suchmaschinen des WWW nun die Beschreibungsmöglichkeiten zur extensiven Datenbankabfrage und -eingabe für audiovisuelle Inhalte bereitstellen soll. Die Grundidee ist, daß nach heutigem Entwicklungsstand Audio- oder Videoquellen weltweit auf Servern und Datenbanken verteilt sind, mit teilweise erheblicher Redundanz, ohne echte Verfügbarkeit der Informationen. Wer schon einmal versucht hat, eine Audiodatei über AltaVista zu finden, nur mit Hilfe von Textattributen, kennt das Problem.
MPEG7 soll da Abhilfe schaffen. Es wird darüber nachgedacht, die Informationen direkt mit den Multimediaobjekten zu assoziieren, um schneller und effizienter Suchergebnisse zu erzielen. Am 9. April 97 trafen sich erstmals 250 Experten aus aller Welt in Bristol, um Erfahrungen und Projekte zu diskutieren, die die Entwicklung von MPEG7 vorantreiben. Man darf also auf erste integrative Schritte in naher Zukunft gespannt sein. Freuen wir uns schon jetzt darauf, mit unserem Mobiltelefon während eines Gesprächs die Kinderfotos unseres Gesprächspartners im Display einzublenden.
ANDREAS RAU
ist Inhaber einer Agentur, die unter anderem Multimedia-Anwendungen entwirft und realisiert.
FRANK RENNER
ist freiberuflicher Informatikberater in den Bereichen Macintosh, Windows, Datenbanken und Medizininformatik.
Literatur
[1] Andreas Rau, Frank Renner; Salz in der Suppe; Apples Quicktime 3.0; iX 7/98, S. 46 ff.
| iX-TRACT |
|
Dieser Text ist der Zeitschriften-Ausgabe 12/1998 von iX entnommen.
Parallelprogrammierung - die Kunst der Multi-Core-Nutzung
Agile ALM - agile Praktiken im Application Lifecycle Management
Webentwicklung - Applikationen für mobile Clients