In der Virtuellen Realität werden Bilder widerständig

Das Bild im virtuellen Raum

Google hat mit der Daydream eine neue VR-Brille für Smartphones vorgestellt, die in etwa derselben Kategorie wie Samsungs GearVR spielt.

Dabei ist es bemerkenswert, dass Google diese Nische jetzt noch besetzt: Ist mobiles VR nicht längst tot? Zwar erhält die GearVR noch immer regelmäßig Updates, neue Apps und Spiele, aber gerade die Spiele befinden sich trotz teils guter Grafik spielmechanisch auf Moorhuhn-Niveau. Und schaut man sich den VR-Markt insgesamt an, dann stechen die PC-basierten Systeme Oculus Rift und HTC Vive sowie Playstation VR deutlich hervor. Gerade für VR-interessierte Gamer und Spielejournalisten spielt dort die Musik, nicht auf den leistungsschwachen Smartphones. Höchstens als Einstieg werden die mobilen Geräte ernstgenommen.

Genau dieser Einstieg aber hat seine ganz eigenen Reize. Der unkomplizierte und kabellose Weg in virtuelle Räume deutet nicht nur das Versprechen stärkerer Systeme nach erstaunlichen Immersionsgefühlen an, sondern ist auch eine für sich lohnende Form der Medienkonsumierung: Fotos, Videos, Netflix gucken, vielleicht mal ins Museum gehen - ein paar Minuten Eskapismus, ohne sich ernsthaft auf komplexe Spiele einlassen zu müssen.

Bildfläche

Medientheoretisch erfolgt der Zugang zu diesem Teilaspekt virtueller Welten über das Bild, und auch praktisch eignen sich 360°-Fotos und -Videos für den sanften Einstieg; Bilder, die von typischen Reise- oder Touristenzielen aufgenommen wurden, ganz ähnlich wie die Kaiserpanoramen des 19. Jahrhunderts (die schon zu Walter Benjamins Zeiten aus der Mode gekommen waren). Es gibt Abertausende solcher Aufnahmen, bei Google Streetview, Flickr, Facebook 360, YouTube 360, Vrideo, Round.me und anderen. Solche Medien können schon länger mit jedem Webbrowser betrachtet werden. Am normalen Computer dient die Maus dazu, die Blickrichtung durch Ziehen zu verändern.

Was am flachen Bildschirm interessant, aber unspektakulär erscheint, gewinnt mit einer VR-Brille unweigerlich an Reiz. Das liegt an drei Dingen. Erstens wird das Foto oder Video um den eigenen Standort im virtuellen Raum herumprojiziert. Statt von außen auf das Foto oder Video des Ortes zu blicken, scheint es, als wäre man vor Ort, im sichtbaren Raum; in der Regel schwebt man körperlos auf Höhe der Kamera. Dadurch hat man zweitens das Foto oder Video direkt vor den eigenen Augen, es gibt keinen Abstand mehr. Drittens schließlich wird das umständliche Ziehen mit der Maus ersetzt durch eine weit natürlichere Eingabeform.

Befindet man sich z.B. auf dem Florahügel im Marlygarten des Parks Sanssouci in Potsdam und möchte statt der Florastatue lieber die Parkbesucher anschauen, die auf der nahen Bank sitzen, dann muss man nicht die Maus von links nach rechts ziehen, sondern man schaut die Leute einfach an. Das geht verzögerungsfrei und genau so wie man es in der Realität auch tun würde.

Der Phänomenologe Bernhard Waldenfels drückt den Effekt als schrittweisen Vorgang aus: "Die zweidimensionale Bildfläche, vor der wir uns befinden, bzw. der dreidimensionale Bildraum, der sich vor uns öffnet, schließt sich am Ende um uns zusammen zu einem dreidimensionalen Raum" (Waldenfels 2000, 318). Der Bildraum wird zum 3D-Raum - und mit Lambert Wiesing, Bildtheoretiker und ebenfalls Phänomenologe, ist das Bild damit kein Bild mehr. "Es kommt zu einer Verwechslung", so Wiesing (2015, 211). "Der Betrachter merkt nicht, daß er ein artifizielles Bildobjekt sieht" (ebd.).

Wiesing kritisiert an dieser Stelle den Gebrauch des Immersionsbegriffs in Zusammenhang mit Bildern. Immersive Bilder sind nach Wiesing logisch nicht möglich (ebd., 212): "[E]ntweder lassen sich immersive Bilder aus technischen Gründen nicht verwirklichen, dann funktionieren sie schlicht und ergreifend nicht, oder sie funktionieren, dann lässt sich das Ergebnis nicht mehr als 'Bild' ansprechen" (ebd.).

Wiesings Überlegungen sind nicht nur von theoretischem Wert. Er berührt hier etwas, das den Kern der Foto- und Videoerfahrung unter einer VR-Brille ausmacht. 360°-Fotos und -Videos sind sehr direkt - und manchmal ist das so intensiv, dass man glaubt, man wäre an dem dargestellten Ort oder mit den gezeigten Personen am selben Ort. Manchmal wird im Englischen der Ausdruck in your face, der umgangssprachlich eine aggressive Direktheit meint, auch auf deutlich 'ins Auge springende' visuelle Eindrücke verwandt; bei VR kann man diese Bedeutung wörtlich nehmen.

Momenthaft ist das als ein 'Umschlagen' wahrzunehmen, und obwohl rein technisch immer noch eine Foto- oder Videodatei im .jpg oder .mp4-Format angezeigt wird, schaut man darauf nicht mehr wie auf ein Bild. Mit Waldenfels schließt sich ein Raum um den Betrachter und mit Wiesing entsteht "ei[n] intentionale[r] Zustand, den jeder Wahrnehmende sowieso schon hat und kennt" (ebd., 213). Immersion ist für Wiesing damit "kaum bemerkenswert" (ebd.) und nicht einmal erstrebenswert, denn nur bei bloßen (2D-)Bildern "wird [der Betrachter] von der Zumutung der immersiven Wahrnehmung, nämlich der anstrengenden Daueranwesenheit in der wahrgenommenen Welt, entlastet" (ebd.). Bei VR geht es aber gerade darum, anwesend zu sein, noch viel direkter an der Darstellung als ohnehin schon möglich, und am besten mit der Wahrnehmung, im dargestellten Raum zu sein.

Bruch

Sehr hoch aufgelöste und dadurch auch sehr "nah" wirkende Fotos sind heute nichts Besonderes mehr, sie umgeben uns überall. Oft handelt es sich um journalistische Fotos (Barthes 1981, 41), nicht selten um Pornografie (ebd.), immer mehr aber um simple Schnappschüsse und "Selfies", die nur als kurzes Aufblitzen in der Facebook-, Instagram- oder Twitter-Timeline erscheinen und schnell wieder verschwinden.

Solche von Barthes als naiv und gleichförmig (ebd.) bezeichneten Fotos würden die Realität nur doppeln, sie aber nicht ins Schwanken bringen (ebd.). Sie hätten kein "punctum", das die Betrachter wirklich berühren könnte. Byung-Chul Han stellt daher fest, dass es heute nur noch gefällige (Han 2013a, 46) Bilder gebe. Sie hätten weder punctum (ebd.), noch ließen sie wenigstens lektürehaftes (ebd.) studium zu. Für Han sind Bilder heute alle pornografisch (ebd.), distanzlos (ebd.) und reines "spectaculum" (ebd.).

Wendet man Barthes und Hans Urteile auf 360°-Fotos/Videos an, ist es verführerisch, dieser sehr kritischen Sicht Recht zu geben. Das Bild ist das einzige, was man unter der VR-Brille sieht. Bei Fotos handelt es sich fast immer um typische Touristenschnappschüsse oder Reiseführerillustrationen, so perfekt sie technisch auch umgesetzt sein mögen. Der direkte Eindruck, den diese Bilder, ob bewegt oder unbewegt, unter der VR-Brille hinterlassen, ist für momenthaftes Staunen gut - aber wirkt er nach, zumal das nächste Bild schon wartet? Mit der von Barthes, Han, auch Kracauer, umrissenen medientheoretischen Traditionslinie wäre dies womöglich zu bezweifeln.

Interessanterweise jedoch weisen Fotos und Videos in der virtuellen Realität Eigenschaften auf, die gegen die kritisierte Glätte wirken. In vielen 360°-Fotos gibt es zwei Punkte, in denen das Glatte gebrochen wird und der scheinbare Realismus zusammenfällt. Diese Punkte befinden sich direkt unter und über dem Betrachter, dort, wo bei der Aufnahme die im Foto oder Video unsichtbare Kamera stand. Manchmal werden diese Punkte durch Schwarz verdeckt, manchmal durch Grafiken, oft aber fallen einfach die benachbarten Bildelemente in einer Art Strahlenkranz auf einen Pixel zusammen. Die Scheinwelt wird so offenbar: Die Punkte verweisen auf die Kamera, die zwar selbst unsichtbar bleibt, aber so doch als anwesend markiert wird. Das Gefühl der Präsenz endet, die Aufnahme wird wieder als Bild erkennbar.

360°-Fotos- und Videos sind technisch selten perfekt. Gerade am Platz des Betrachters, der der Position der Kamera entspricht, sind Artefakte zu erkennen, die auf die Bildhaftigkeit der Darstellung hinweisen. Hier blicke ich herunter und sehe einen schwarzen Fleck, wo im Bild etwas fehlt.

Manchmal sind diese Punkte unsichtbar oder nur sehr schwach wahrzunehmen. Oft gibt es dann aber andere Störungen, die das Gesehene als bloßes Bild entlarven. Gerade in Videos, aber auch in weniger perfekten Fotos kann man Brüche erkennen, die sich quer durch einzelne Objekte ziehen. Menschen, Tiere oder Gegenstände sind mittendrin durchbrochen und ihre Teile um Zentimeter versetzt aneinander gefügt. Auch diese Bruchstellen verweisen auf die Kameras, die zum Fotografieren oder Filmen verwendet wurden, auch sie machen die Scheinwelt deutlich.

Bildraum

Besonders irritierend wirken Brüche in stereoskopischen Fotos und Videos, die nicht nur 360°-Rundumblick bieten, sondern auch die Illusion von Räumlichkeit. Die durchbrochenen Details sind dann nicht nur in ihrer Länge oder Breite gestört, sondern auch in der Tiefe. Weil aber bei Fotos und Videos keine echte Tiefe da ist, zerfällt die virtuelle Realität in etwas, das am besten als Scherben bezeichnet werden kann - ein eigentümliches Erlebnis, insbesondere wenn die betreffenden Details große Teile des Bildes einnehmen oder sich laufend bewegen.

Eine Dokumentation über iranische Künstler im Exil platziert die Betrachter in die Ateliers der jeweiligen Künstler. Die anfängliche Blickrichtung jeder Szene ist auf die Künstler und das Atelier gerichtet, dahin also, wohin die Autoren der Dokumentation das Interesse der Zuschauer lenken möchten. Diese Räume sind so gefüllt mit Objekten, das man die Dokumentation mehrfach anschauen muss, um alles potenziell Interessante zu erfassen.

Während es sich bei den genannten Punkten um technische Mängel der Aufnahme handelt, die mit genügend Aufwand vermeidbar sind, gibt es einen weiteren Aspekt, der im 360°-Medium selbst angelegt ist. Im klassischen Foto oder Video ist die Kamera stets auf ein bestimmtes Motiv gerichtet. Ich erwähnte den Florahügel. Ein typisches Touristenfoto würde die eingangs erwähnte Florastatue in den Blick nehmen, die Blumen um sie herum und die Wiese hinter ihr. Das ist die Sehenswürdigkeit - das, was z.B. im allgemeinen kunsthistorischen Interesse würdig ist, auch später noch einmal gesehen zu werden und weswegen man überhaupt das Foto macht; das, was für Barthes das bloße "studium" wäre, ohne (im positiven Sinne) störendes "punctum".

Der besondere Reiz von 360°-Bildern ist jedoch, dass es neben dem Hauptmotiv immer auch weitere Elemente im Bild gibt, wie die erwähnten Parkbesucher auf der Bank. Obgleich nicht auszuschließen ist, dass der Fotograf die Szene arrangiert hat, ist es wahrscheinlicher, dass die Personen zufällig dort sitzen. Somit lenken sie vom 'Glatten' der Aufnahme ab: Die perfekte Szenerie wird durch sie gestört; die wie aus der Zeit gefallene Harmonie von Statue, Pflanzen und Parkanlage wird durch die Besucher in die Gegenwart des Fotografen geholt und aufgebrochen. Sie sind das punctum, das im Nachgang vielleicht eher in Erinnerung bleibt, als die bloß 'schöne' Landschaftsaufnahme (das studium). Das ist die eine Seite.

Und umgekehrt: Was, wenn nicht die Florastatue, sondern die Parkbesucher das studium wären, an dem der Betrachter interessiert ist? Da es in der Szenerie keinen Fokus gibt, sondern alle Seiten gleich deutlich ausgeleuchtet und dargestellt sind, ist das durchaus denkbar. Betrachtete man zuerst diese Menschen, ohne zu wissen, in welchem Park sie sitzen, welcher Effekt wäre es dann, drehte man sich um und würde erkennen, wo sie sich aufhalten? Ganz andere Interpretationen wären möglich. Der zuvor unsichtbare Park, hereingeholt durch das aktive Umschauen, hätte als punctum gewirkt - das ist die andere Seite.

Da es sich bei der Dokumentation über iranische Künstler um ein 360°-Video handelt, steht es den Betrachtern frei, die Blickrichtung zu ändern. So ist es dann möglich, statt der eigentlich im Mittelpunkt stehenden Künstler auch das Team der Dokumentation zu beobachten. Dadurch wird eine zweite Ebene in den Film eingebracht, die im klassischen Film nur als Audiokommentar oder Making of möglich wäre, hier aber wesentlich direkter ist. Man beachte die verschränkten Arme und Beine (links) und die hochkonzentrierte Haltung (rechts). Beides regt zu Interpretationen abseits des eigentlichen Gangs der Dokumentation an.

Studium und punctum sind im 360°-Foto und -Video schwieriger zu trennen als im begrenzten Raum eines flachen Bildes. Die 360°-Kamera nimmt auf, ohne einen Schwerpunkt zu setzen. Nur ihre eigene Position ist festgelegt. Das Interesse des Betrachters am Bild kann sich nicht auf etwas Offensichtliches richten, denn alles kann durch bloßes Umsehen offensichtlich werden. So kann ich mich dem Foto des Florahügels zuwenden, weil ich an der Anlage des Gartens interessiert bin, aber genauso gut, weil ich wissen will, wie sich Menschen im Alltag auf einer Parkbank ausruhen.

Beides kann studium sein, beides kann als punctum 'stören'. Vor allem aber ergänzt sich beides. Das, was sonst nie gezeigt wird, der Raum hinter, neben, unter und über der Kamera, ist nun verfügbar und zwingt zu Kontextualisierungen, die flache Bilder nicht zulassen. Damit werden Bilder grundsätzlich "widerständig", um Hans Begriff aufzugreifen. Will man die gesamte Szenerie erfassen, muss man sich mit der Differenz des Raums (vor/hinter/neben/über/unter 'mir') auseinandersetzen. Das verlangt Zeit und Hingabe. Anders als beim schnell konsumierten flachen Bild ist die glatte, widerstandslose Erfahrung in der virtuellen Realität nicht zu haben. Der Raum steht dem entgegen. Gerade einfache mobile VR-Systeme, die zu viel mehr nicht taugen, laden dazu ein, diese Erfahrung selbst zu machen.

Dieser Artikel ist ein modifizierter und mit neuer Einleitung versehener Auszug aus Mario Donicks Essay "Die Form des Virtuellen. Vom Leben zwischen zwei Welten", der kürzlich als telepolis-eBook erschien.

Anzeige