Damit ein videobasierendes AR-System seine Aufgabe erfüllen kann, muss es zunächst seine Position und Orientierung im Raum bestimmen, dann die passenden virtuellen und realen Objekte aus einer Datenbank abrufen, diese angemessen visualisieren und das Ergebnis als Mischung aus Video und Rendering ausgeben. Das alles in Echtzeit, interaktiv und bitte ohne Ruckeln.
Manchen AR-Anwendungen genügt die relative Orientierung der aufgenommenen Objekte zur Positionsbestimmung. Oft dienen dazu gedruckte Barcodes wie in den genannten Spielen – oder auch in Zeitschriftenanzeigen. Hält man dort den Barcode vor eine Webcam, erscheint auf dem Monitor an derselben Stelle ein dreidimensionales Produktmodell oder ein Avatar (siehe auch "Augmentierwerkstätten" und [2]).
Die meisten Projekte arbeiten jedoch ortsbezogen, wozu sie eine absolute geografische Position benötigen. Zur exakten Positionierung reicht die Hardware in aktuellen Smartphones nicht aus: „Consumer-GPS und Kompass alleine sind einfach unzureichend genau“, stellt Dieter Schmalstieg fest. Deshalb konzentriert sich die akademische Forschung derzeit auf Bildverarbeitungstechniken (Computer Vision). Hierbei kommen weitgehend standardisierte Verfahren zum Einsatz, die von den Forschern gezielt optimiert werden. Die einfachste Methode setzt auf im realen Raum platzierte 2D-Barcodes – Fiducial Markers genannt. Dieser Ansatz eignet sich gut für kontrollierte Umgebungen wie Museen und Fabriken. Für flächendeckende Anwendungen oder Expeditionen ins Unbekannte taugt die Technik freilich nicht.
Verfahren ohne Marker arbeiten mit Referenzbildern von Objekten. Für Gebäude mit einer einzigen Schaufassade reicht grundsätzlich eine Aufnahme, die möglichst bei bewölktem Himmel aufgenommen wurde – direktes Sonnenlicht verzerrt die Kontraste zu stark.
Alternativ dazu kann man die Zielumgebung statt über Referenzbilder gleich als vereinfachte 3D-Modelle gestalten. Das AR-System muss dann anhand der Kamerabewegung durch den Raum und per Kantenerkennung ein eigenes 3D-Bild der Umgebung erzeugen und beides deckungsgleich übereinanderlegen.
„Dieses Verfahren ist aufwendiger und flexibler, hat kein Problem mit wechselnden Lichtverhältnissen, ist aber noch ein Riesenthema in der Forschung“, so Michael Zöllner vom IGD. Mitunter werden auch Erkennungsmethoden kombiniert, sodass GPS, Kompass, Beschleunigungs- und Lagesensoren die Bildverarbeitung stützen.
Bislang bleiben Verzögerungen und Ungenauigkeiten trotz allem Aufwand unvermeidbar: „Es wackelt bei allen“, stellt Zöllner trocken fest. Seiner Erfahrung nach bewältigt die Bildverarbeitung fest installierter AR-Systeme derzeit zwar 10 bis 15 Bilder pro Sekunde. Für die meisten mobilen Geräte ist eine solche Leistung derzeit noch unerreichbar – von Smartphones ganz zu schweigen.