Der kleine Lauschangriff

Auditive Systeme aus Sicht der Ethik

Das gesprochene Wort ist seit jeher Objekt der Begierde, nicht erst seit dem Kalten Krieg und der Arbeit des Ministeriums für Staatssicherheit der DDR, von der Bevölkerung auch "Horch und Guck" genannt. Das lautlose Anschleichen und hemmungslose Mitlauschen gehört in jeden Indianerfilm und in jede Intrige. Während "Guck" aus der Ethik heraus recht umfassend behandelt wurde, bedarf "Horch" noch eines genaueren Hinsehens bzw. -hörens, gerade im 21. Jahrhundert, und nicht nur in Bezug auf Staatsapparate, Strafverfolgungsbehörden und Nachrichtendienste, sondern auch und insbesondere in Bezug auf Privatpersonen und Unternehmen, die sozusagen den kleinen Lauschangriff erproben.

Sprach- und Tonsysteme erobern die Welt, sei es in Form von Lautsprechersäulen, intelligenten Fernsehern, Mobilgeräten wie Smartphones und Tablets und darauf installierten Assistenten, intelligentem Spielzeug sowie Datenbrillen und Drohnen, die Mikrofone besitzen. Die Ethik, ob Informations- oder Technikethik, kann Probleme wie den Verlust der informationellen und persönlichen Autonomie identifizieren.

Die Neugier der Geräte

Auditive Ein- und Ausgabegeräte haben eine lange Geschichte. Aus Detektivbüchern, Spionagefilmen und der jüngeren deutschen Geschichte sind Wanzen bekannt, über die man Verdächtigte und Verdächtige in ihren Wohnungen und Hotelzimmern observierte (Piper 2015). Kassettenrekorder haben noch die Kindheit der Älteren bestimmt, und man hat damit nicht nur Musik, sondern auch Gespräche und Vorträge mitgeschnitten und angehört.

Mit dem Einzug der digitalen Technologien und Systeme in den privaten und beruflichen Alltag standen immer mehr Schnittstellen zur Verfügung, ohne dass am Anfang schon exzessiv Gebrauch von ihnen gemacht wurde. Diktiergeräte verbreiteten sich bei Juristen und Ärzten und bei allen, die das Mündliche schnell und ohne Tastatur und Maus zu benutzen ins Schriftliche verwandeln wollten. Musikanwendungen erlaubten das Produzieren von mehr oder weniger gelungenen Songs. Zugleich wurden Speicher und Prozessoren immer kleiner, günstiger und leistungsfähiger. Es konnten enorme Mengen an Daten gesichert und ausgewertet werden.

Im vorliegenden Beitrag stehen solche Funktionen und Gadgets im Vordergrund, die (zumindest zunächst) nicht der bewussten, benutzergesteuerten Aufzeichnung von Tönen bzw. Inhalten dienen, und die Möglichkeiten der Überwachung und der Datenanalyse bieten. Diktiergeräte und Musikprogramme werden demnach ausgeklammert. Erstere wären auch dazu geeignet, Gespräche zu belauschen; auf diese Möglichkeit kann indes bei den Smartphones eingegangen werden. Smartwatches werden nicht thematisiert, da sie oft mit Smartphones zusammenwirken und teils ähnliche bzw. entliehene Funktionen haben. Auch Standrechner und Notebook werden nicht herangezogen, da die Probleme grundsätzlich die gleichen wie bei Smartphones und Tablets sind. Smart Toys wie Hello Barbie verdienen einen eigenen Beitrag. Gier und Neugier der Geräte sollen zunächst an konkreten Beispielen aufgezeigt werden.

Smartphone und Tablets

Smartphones und Tablets verfügen üblicherweise über Mikrofon und Lautsprecher. Das Mikrofon ist für Aufnahmen von Geräuschen und Klängen, für die Sprachsteuerung sowie für die Spracheingabe beim Telefonieren gedacht, der Lautsprecher gibt Signale, Weckrufe, Musik und Sounds von Computerspielen sowie die Stimme des Gesprächspartners am anderen Ende aus. Zusätzlich können Kopfhörer oder Headsets und separate Boxen angeschlossen werden. Auch Handys haben oft die beschriebenen Funktionen, und natürlich muss jedes Telefon über eine Spracheingabe und -ausgabe verfügen.

Smartphones und Tablets werden überall genutzt, unterwegs, im Zug oder im Bus, bei der Arbeit und zu Hause. Auch im Schulunterricht und bei Vorlesungen sind sie massenhaft zu finden. Sie sind, mit anderen Worten, omnipräsent, und der Benutzer weiß oft nicht, ob die Aufnahmefunktion aktiviert wurde, zumal dies durch einen Bedienungsfehler passieren kann. Pakalski (2015) konstatiert, dass über Schadsoftware vorgegaukelt werden kann, dass das Smartphone ausgeschaltet ist, und in diesem Zustand ein Lauschangriff droht. Auch Personen im Umfeld können in der Regel nicht eruieren, ob ihre auditiven Aktivitäten aufgezeichnet werden oder nicht. Die Aufnahme erfolgt sozusagen heimlich, still und leise, meist ohne ausdrückliches Einverständnis der Betroffenen.

Die auditiven Funktionen von Smartphones und Tablets können von Sprachassistenten genutzt werden. Siri und Cortana sind zwei bekannte Beispiele. Sie haben menschliche Stimmen und kommunizieren in natürlicher Sprache, ähnlich wie Chatbots auf Websites, die aber meist nur textuell interagieren, oder pädagogische Agenten in Lernumgebungen. Ein weiteres Beispiel ist OK Google. Mit dem gleichnamigen Befehl wird die (Such-)Maschine aktiviert, und eine künstliche Stimme beantwortet Fragen, etwa auf der Basis von Wikipedia. Andere Quellen sind Websites aller Art, die über eine Suchfunktion gefunden werden, und Datenbanken, die automatisch oder von Inhalteerstellern gefüllt werden.

Lautsprechersäulen

Lautsprecher waren früher meist, durchaus im Sinne ihrer wörtlichen Bedeutung, keine Ein-, sondern Ausgabegeräte. Spätestens mit Amazons Echo - Nomen est omen - hat sich die Situation geändert (Hill/Harshaw 2015). Das Gerät, das wie ein normaler Lautsprecher aussieht, kann mit Sprachbefehlen und mit einer App gesteuert werden. Es ist über W-LAN permanent mit dem Internet verbunden und verfügt über sieben Mikrofone im Boden (Linden 2014). Die Sprachanalyse findet gemäß dieser Quelle in Amazons Rechenzentren statt. Laut dem Unternehmen wird sie nur bei vorangehendem Codewort durchgeführt; "sonst wird von Echo nichts aufgezeichnet" (Linden 2014). Das Codewort ist der nicht ganz ungebräuchliche Mädchenname "Alexa".

Fragen nach dem Wetter werden von Echo ebenso beantwortet wie nach dem Radio- oder Fernsehprogramm. Auch kann man sich Witze erzählen, Nachrichten vorlesen, To-do-Listen generieren und an Termine erinnern lassen (Fuest 2014). Das ausschnittsweise Vorlesen von Wikipedia-Artikeln wird - wie von OK Google - ebenfalls beherrscht. Vor allem hilft die erweiterte Lautsprechersäule beim Shoppen zu Hause: "Per Zuruf können Nutzer Produkte auf die Einkaufsliste setzen oder Musik aus Amazons Multimedia-Angeboten abrufen." (Fuest 2014) Damit wurde, auch von der Optik her, eine Art digitale Litfaßsäule realisiert, die zugleich ein Vorschlags- und Bestellsystem ist.

Die häusliche Situation ist eine besondere. Man befindet sich in den eigenen vier Wänden, normalerweise nicht der Ort für Überwachung und Abhörung, außer wenn man im Visier von Geheimdienst oder Polizei bzw. unter "Beobachtung" des Partners ist. Die Lautsprechersäule kann Geräusche und Anweisungen erfassen, die von einem beliebigen Ort der Wohnung oder Etage kommen. Amazon nennt dies in seinem Einführungsvideo "Introducing Amazon Echo" auf YouTube "far-field technology". Die Devices können im Prinzip auch in Büro- und Arbeitsräumen sowie im Freien aufgestellt werden. Ein Leuchtring am Kopf zeigt die Aktivität von Echo an. Dies ist für den Nichteingeweihten aber nicht unbedingt offensichtlich.

Intelligente Fernseher

Moderne Fernseher können neben dem Lautsprecher auch ein Mikrofon aufweisen. Sinn und Zweck ist üblicherweise die Sprachsteuerung, etwa zum Umschalten der Programme und insgesamt zum Bedienen des Menüs. Insofern greifen auditive und visuelle Funktionen ineinander. Ein Beispiel ist der Samsung SmartTV. Bei diesem werden Signalwörter über einen Service erkannt, der nicht zum Unternehmen gehört. Dieses hat im Jahre 2015 informiert: "Please be aware that if your spoken words include personal or other sensitive information, that information will be among the data captured and transmitted to a third party." (Hill/Harshaw 2015)

Man ist wiederum im scheinbar abgesicherten Raum, wo normalerweise keine Überwachung und Abhörung stattfindet. Man sieht fern, macht es sich gemütlich, plaudert über die Serie oder das Leben. Die Fernseher können sich auch in Lokalen befinden, was in südlichen Ländern sowie bei Sportübertragungen nicht unüblich ist. Nicht alle Benutzer rechnen damit, dass ihr Fernseher als Spion tätig sein kann. Nicht allen ist auch die Funktion des Lämpchens klar, das beim erwähnten Modell während des Aufzeichnens leuchtet und auf das Samsung in seiner Erklärung explizit hingewiesen hat (Taglinger 2015).

Datenbrillen

Die Datenbrille ist ein mit Peripheriegeräten ergänzter Kleinstrechner, der am Kopf getragen und mit Augen, Augenlidern und -brauen, Händen und Stimme bedient wird. Auch eine Sprachausgabe kann vorhanden sein. Die Datenbrille ist wenig verbreitet, bei potenziell vielen Anwendungsfeldern. Sie erleichtert mit Hilfe von Augmented Reality die Orientierung in Siedlungsräumen und Landschaften sowie in betrieblichen und anderen Prozessen und erlaubt Nichtexperten das Bearbeiten von Gegenständen und Vorgängen (Bendel 2014b). Auch in der Logistik gibt es Verwendungsmöglichkeiten. Polizei und Militär können Verdächtige erkennen und auf informationeller Grundlage ihre Gegner festnehmen bzw. ausschalten. Neben der eigenen Stimme können die Äußerungen anderer Menschen aufgezeichnet und ausgewertet werden.

Der Träger mag sich in einer komplexen Umwelt mit vielen Akteuren aufhalten, etwa im Freien oder in öffentlichen Gebäuden. Auch am Arbeitsplatz wird er zu finden sein, im Zusammensein mit Kolleginnen und Kollegen. Für den privaten Bereich sind bislang nur wenige Anwendungsgebiete bekannt; wird die Brille aber beispielsweise zum Spielen und Kochen verwendet, kann sie auch hier Einzug halten. Auch beim Wandern und beim Sport könnte Bedarf bestehen, zur Unterstützung der Navigation und der Interaktion. Im Unterhaltungsbereich ist der Einsatz ebenfalls zu erwarten. Die Video-, 3D-, VR- oder Multimediabrille wird hier noch wichtiger sein, und auch sie verfügt i.d.R. über auditive Schnittstellen.

Der Träger selbst ist nicht zwangsläufig darüber orientiert, ob die Sprachfunktion aktiv ist oder nicht. Für seine Mitmenschen ist die Situation noch schwieriger zu beurteilen, und sie erkennen die Datenbrille vielleicht nicht oder zu spät. Immerhin ist diese mit einem Träger verbunden und auf dessen Bedienung angewiesen. Auch seine Befehle können u.U. gehört werden, etwa zum Start einer Aufzeichnung. Diskutiert wird eine starke gesellschaftliche Ablehnung, bis hin zum Herunterreißen und Zerstören von Brillen, was wiederum deren Dezimierung im öffentlichen Raum nach sich ziehen könnte (Bendel 2014b).

Private und wirtschaftliche Drohnen

Eine Drohne ist ein unbemanntes Luftfahrzeug (Unmanned Aerial Vehicle, UAV), das entweder von Menschen ferngesteuert oder von einem Computer gesteuert und damit teil- oder vollautonom wird. Man unterscheidet den militärischen und zivilen oder spezifischer den militärischen, politischen, journalistischen, wissenschaftlichen, wirtschaftlichen sowie privaten, persönlichen Einsatz (Bendel 2015b). Die private oder wirtschaftliche Drohne, oft ein Quadrocopter, besitzt zuweilen ein Mikrofon, hauptsächlich für die Sprachsteuerung, wobei die Fluggeräusche herausgefiltert werden. In manchen Fällen kann sie mit Piloten von Flugzeugen "reden" (Pichler 2015). Die private Nutzung hat sich stark verbreitet, sodass manche Länder und Regionen mit Verschärfungen reagiert haben (Häuptli 2013).

Die Drohne befindet sich vor dem Start auf der Erde im Freien bzw. an einem Gebäude oder einer Station. In ihrer Flugphase kann sie nahe am Boden sein, aber auch hunderte Meter darüber, wobei in jedem Land mehr oder weniger restriktive Gesetze bestehen und eine bestimmte Höhe nicht überschritten werden darf - vermieden werden soll das Eindringen in den kontrollierten Luftraum. Einschränkungen gelten auch für Airports, Privatgrundstücke, Menschenansammlungen, Regierungsgebäude etc. Grundsätzlich zeichnen UAV, wenn sie fliegen, von oben auf. Damit ist u.U. die Herkunftsbestimmung von Schallwellen erleichtert. Zudem stören Mauern, Häuser und LKW weniger die Schallausbreitung. Neben der eigenen Stimme kann man wiederum die Äußerungen und Geräusche anderer Menschen aufzeichnen und auswerten.

Der Besitzer wird im Allgemeinen wissen, wie die Drohne zu bedienen und ob die Sprachfunktion aktiviert ist. Er ist an einer versierten Steuerung interessiert und will die Möglichkeiten ausreizen. Für den Betroffenen ist die Situation schwierig zu beurteilen. Er sieht die Drohne vielleicht nicht oder zu spät und weiß nicht, ob die Funktion in Betrieb ist respektive was sie umfasst. Die Maschine verrät sich höchstens durch ihre Eigengeräusche, durch ihren Schatten oder eine Reflexion. Wenn sie sehr hoch fliegt, ist ein Erkennen noch schwieriger. Allerdings müssen dann für eine Aufzeichnung die Systeme sehr leistungsfähig sein und sowohl auf ferne Distanzen funktionieren als auch zahlreiche Störgeräusche eliminieren.

Fahrzeugsysteme

Auditive Schnittstellen werden in Autos seit geraumer Zeit genutzt, im Rahmen der Freisprecheinrichtung und bei Navigationssystemen. Sie schützen Autofahrer und Verkehrsteilnehmer, denn viele Tätigkeiten, die den Gebrauch von Händen und Fingern sowie längeren Blickkontakt benötigen, sind verboten oder aus Sicherheitsgründen geboten. Auch manche Fahrerassistenzsysteme können per Stimme gesteuert werden, ebenso autonome Autos, wenn der Mensch eingreifen soll. Auf die Möglichkeit der Irritation weist Rojas (2014) hin, einen Bericht der American Automobile Association zitierend, demzufolge Gespräche mit dem Computer dem Fahrer eine hohe kognitive Last aufbürden. Die sprachliche Interaktion lenkt angeblich den "Fahrer mehr ab als Handygespräche und mehr als Gespräche mit Personen im Auto selbst" (Rojas 2014).

Das alte Auto war so sehr Ort der Privatheit, dass damit nicht nur gefahren wurde. Es wurde regelrecht ausstaffiert, man hat mit ihm Autokinos besucht und ist mit ihm als junges Paar häuslicher Enge entflohen. Der Fahrer des 21. Jahrhunderts ist zwar ein Stück weit abgeschirmt gegen die Umwelt: Passanten können nicht ohne weiteres hören, was er sagt, andere Teilnehmer allenfalls von den Lippen lesen. Aber die verbauten Systeme können Daten jeglicher Art erfassen und diese an Anbieter und Mittler weitergeben. Dabei interessieren Interaktion und Kommunikation zwischen Mensch und Maschine ("human-machine interaction" und "human-machine communication", spezieller "human-computer interaction") sowie zwischen Mensch und Mensch, wenn mehrere Personen im Auto sind, also gewöhnliche Dialoge. Auch Monologe wie Beschimpfungen sind zu berücksichtigen.

Serviceroboter

Serviceroboter sind für Dienstleistung, Unterhaltung und Zuwendung zuständig, holen Nahrungsmittel und Medikamente herbei, überwachen die Umgebung ihrer Besitzer oder den Zustand von Patienten und halten ihr Umfeld im gewünschten Zustand (Bendel 2014c). Mäh-, Saug- und Putz-, aber auch Pflege- und Therapieroboter sind in Haushalten und Einrichtungen im Einsatz. Sie sind häufig teilautonom oder autonom und ein Stück weit lernfähig, etwa insofern sie sich Namen behalten oder je nach Behandlung unterschiedlich entwickeln können. Oft haben Serviceroboter auditive Schnittstellen wie Mikrofone und Lautsprecher. In einigen Fällen kommunizieren sie natürlichsprachlich. Zum einen müssen sie Befehle und Fragen entgegennehmen können, zum anderen ist es üblich, dass bestimmte elektronische Geräte auch über Signaltöne und Äußerungen etwas zum Status und zur Funktionsfähigkeit mitteilen.

Es sind nicht nur ökonomische Gründe, die dazu führen, dass Serviceroboter immer mehr den privaten und öffentlichen Raum erobern. Bei humanoiden Varianten ist dem Benutzer meist klar, dass Aussagen und Fragen verstanden werden. Was die Auswertung und Weitergabe der Daten anbetrifft, dürfte weniger Klarheit herrschen. Bei Dementen und manchen älteren Patienten müssen ebenfalls Einschränkungen im Verständnis angenommen werden. Bei Patienten kommt die besondere Situation der Krankheit dazu. Die Maschinen erfassen potenziell Daten zu Körperfunktionen und Gesundheitszustand. Nichthumanoide Roboter sind womöglich noch schwieriger einzuschätzen.

Das gesprochene Wort in der Moral

Moderne auditive Systeme sind bislang kaum Gegenstand von ethischen Untersuchungen oder von Studien der Technikfolgenabschätzung geworden. Dabei muss berücksichtigt werden, dass letztere im Dienste des Staates steht. Erst in jüngster Zeit sieht man es als Problem an, dass uns Sprach- und Tonsysteme belauschen. Endkonsumenten werden als gläserne Bürger erkannt und beschrieben. Entsprechende moralische Fragen tauchen immer mehr in den Medien auf (Linden 2014), und Big Data und Überwachung sind Reizthemen, die man in den Online-Zeitungen und deren Foren erörtert (Mayer-Schönberger/Cukier 2013).

Bei auditiven Eingabegeräten kann man in Bezug auf verbale Äußerungen drei Ebenen unterscheiden. Erstens können sie die Stimme auswerten. Zweitens sind sie in der Lage, die Sprechweise zu analysieren, die Lautstärke, den Rhythmus, den Fluss, die Betonung etc. Drittens sind die Inhalte verfügbar, in Form von Aussage- und Fragesätzen oder einzelnen Wörtern, mit ihren jeweiligen Bedeutungen, die maschinell mehr oder weniger gut erfasst und eingeordnet werden können, z.B. durch Matching. Zudem kann, in Verbindung mit diesen Ebenen, auf die Zahl anwesender Personen geschlossen werden, auf ihre Größe, ihre Position im Raum etc. Nicht zuletzt sind auditive Informationen verfügbar, die nicht von Personen, sondern aus anderen Quellen stammen, von Geräten und Tieren. Auch sie lassen zahlreiche Rückschlüsse zu.

Im Folgenden wird auf ein zentrales Konzept der Informationsethik eingegangen, die sogenannte informationelle Autonomie, mit ihren Aspekten der Privatheit und der Überwachung sowie der Aggregation und Manipulation der Daten. Zudem wird die persönliche Autonomie behandelt, für die Technik- und Informationsethik kompetent sind, im Gegenüber von menschlicher und maschineller Autonomie, und die letztere im Zusammenhang mit der Sprachkompetenz und der Tendenz zu Wahrheit oder Unwahrheit. Am Rande interessiert die persönliche Freiheit in der Informationsgesellschaft.

Privatheit, Privat- und Betriebsgeheimnis

Die Aufzeichnung von Stimmen und Geräuschen wurde bald nach ihrer Erfindung zum Problem, wenn man an die informationelle Autonomie und die Wahrung der Privatsphäre (und das eine oder andere Gegenstück, vom Stalking bis zur Überwachung) denkt. Die Digitalisierung vermehrt die Herausforderungen. Smartphones und intelligente Fernseher sind omnipräsent, private Drohnen verbreitet, wirtschaftliche Drohnen in der Planung; Datenbrillen und Lautsprechersäulen mit Mikrofonen müssen sich erst bewähren oder in verbesserten Nachfolgemodellen aufgehen. Aufzeichnungen sind im großen Maßstab möglich, ebenso Auswertungen. Im Persönlichen steigt die Gefahr des Verlusts in der Informationsflut, im Öffentlichen wirken dem - was der skeptische Bürger bedauern mag - Data Mining und Big Data entgegen (Bendel 2015b).

Die Mikrofone erlauben Momentaufnahmen und Verlaufsprotokolle in der öffentlichen Welt der Stimmen und Geräusche. Ein Problembereich ist der Abzug persönlicher Informationen, wobei Stimme, Sprechweise und Inhalte gleichermaßen betroffen sind. Auf der Ebene der Inhalte werden Lebensdaten, Standpunkte und Weltanschauungen erhoben. Ein besonderer Aspekt sind Geheimzahlen, Passwörter, Kreditkartennummern usw., über die Unbefugte sich Zutritt zu Konten und Accounts verschaffen können. Dabei müssen die Angaben allerdings laut ausgesprochen werden, wozu manche Menschen tatsächlich neigen, etwa an Bankautomaten. Möglicherweise könnten auch Geräusche beim Bedienen der Tastatur ausgewertet werden, z.B. in Bibliotheken.

Einige Geräte holen über das Codewort sozusagen eine Bewilligung zur Aufnahme ein, wobei es problematisch ist, wenn jenes häufig fällt, weil es identisch mit dem Namen einer Person ist, wie im Falle von "Alexa". Wenn der Betreiber die Daten auswertet oder weitergibt (auch an Mittler, wie bei Samsung SmartTV und beim LG Smart TV), ist die Gefährdung der informationellen Autonomie wahrscheinlich (Hill 2015).

Sobald die Geräte in eigentlich geschützten Umgebungen benutzt werden, wie es beim Smartphone oder bei der Lautsprechersäule (und natürlich auch beim Notebook) der Normalfall ist, tauchen weitere Probleme für Privatheit, Intimsphäre und Datenschutz auf. In nicht- oder teilöffentlichen Räumen spricht man anders, teilt man etwas anderes mit, hat man sowohl Privat- als auch Betriebsgeheimnisse, und die Diskrepanz zwischen dem Vermögen der Geräte, die permanent aufnehmen, abspeichern und weitergeben können, und dem Bedürfnis nach Privatsphäre, Persönlichkeitsschutz und Geheimhaltung ist groß.

An Hochschulen ergibt sich das spezielle Problem, dass Studierende die Aussagen von Dozenten konservieren, die dann gegen diese verwendet werden, ein Angriff auf die wissenschaftliche Freiheit. Unter dem permanenten Druck ändern sich die Gepflogen- und Gewohnheiten (Bendel 2015b). Man senkt die Stimme, spart Details aus, vermeidet Pointen und Spitzen, Privatsprache und Kosenamen. Manche Geräte können im Prinzip auch auskundschaften, ob überhaupt jemand an einem Ort ist, und welche Position die Personen haben, wo sie sind, ob sie stehen, ob sie liegen. Damit sind weitere Rückschlüsse auf Verhaltensweisen und Geisteshaltungen möglich.

Aggregation von Daten

Die systematische Zusammenführung von Daten ist aus virtuellen Umgebungen seit langem bekannt, wenn man an Plattformen wie Yasni denkt (Bendel 2014b). Bestimmte Informationen präsentieren sich auf Plattformen anders. Das Nebensächliche kann in den Vordergrund rücken, das Hauptsächliche durch die Datenmenge verschwinden. Die Aggregation kann zu überraschenden und hochproblematischen Ergebnissen führen, zu einer erheblichen Beeinträchtigung der informationellen Autonomie. Auch Geheimdienste und die Polizei sind Aggregationen seit jeher zugetan. Sie fügen Stück für Stück in einem Puzzle zusammen, sammeln und verbinden Indizien und Beweise, um schließlich die richtige Person zu fangen oder zu überführen. Mehr und mehr spielen dabei auch digitale Daten eine Rolle, und neben visuellen vor allem auditive.

Geräusche und Äußerungen werden entweder von Geräten und Apps direkt oder durch online vorhandene bzw. von "Spionen" betriebene Dienste aggregiert. Zu bedenken ist auch, dass Smartphone, Datenbrille etc. zusammenwirken können ("machine-to-machine communication"). Die Aggregation verleiht dem Aggregator eine gewisse Macht. Dieser steht die Ohnmacht der Person gegenüber, die man observiert und analysiert und deren Aussagen und Fragen, Ankündigungen, Reflexionen und Handlungen man verknüpft (Bendel 2014b). Während das einzelne Datum oft wenig aussagekräftig ist, vermittelt die Aggregation ein vielleicht vollständiges und entlarvendes Bild des Betroffenen. Wird dieses weitergereicht, an Unternehmen oder die Polizei, oder in soziale Medien eingespeist, können dem Betroffenen wiederum Nachteile erwachsen.

Besonders heikel scheint die Verknüpfung (innerhalb) der Ebenen Stimme, Sprechweise und Inhalte zu sein. Mit der Stimme kann man Geschlecht, Gesundheit und Alter bestimmen. Sie ist bei deutlich artikulierten Worten und Sätzen, ferner bei Lauten und Geräuschen von Bedeutung, bei Ausrufen wie "Ah" oder Schmerzensbekundungen wie "Au". Die Kennzeichen der Sprechweise gestatten Rückschlüsse auf Intelligenz, Sprachvermögen, Sozial- und Kommunikationsfähigkeit. Die Inhalte beziehen sich auf die Welt, die nähere Umwelt der Person und die Person selbst, und zwar in Bezug auf die Gegenwart, auf die Vergangenheit, in Form von Geschichten und Beichten, und auf die Zukunft, in Form von Voraussagen, Plänen, Hoffnungen und Ängsten; durch die Aggregation entsteht sozusagen die Timeline des Betroffenen mit ihren inneren und äußeren Ereignissen.

Zu bedenken ist dabei, dass Funktionen und Systeme wie Google OK und Echo rund um die Uhr empfangsbereit sind. Die Verknüpfung der Ebenen lässt tiefe Einblicke in die Persönlichkeitsstruktur und in die Lebensgeschichte zu. Zudem hinterlässt man damit einen eindeutigen Fingerabdruck. Bereits die Stimme ist mehr oder weniger unverwechselbar, zumindest für Maschinen - die Kombination mit Sprechweise und Content ist es ohne Zweifel.

Unbefugtes Eindringen und unerlaubte Manipulation

Computerisierte Systeme und Geräte können von Malware befallen und von Hackern attackiert werden. Im Falle von eingebetteten und von vernetzten Systemen sind unbefugtes Eindringen und feindliche Übernahme in der Regel recht einfach zu bewerkstelligen. Dies wurde für Autos und Drohnen ebenso nachgewiesen wie für Herzschrittmacher (Bendel 2015b). Die Geheimdienste NSA und GCHQ haben das Netzwerk von Gemalto, des weltgrößten Sim-Karten-Herstellers, gehackt und damit ein Abhören ermöglicht (Stöcker/Horchert 2015).

Bei der Übernahme wird häufig gegen Gesetze verstoßen, und wenn sie in einer gewissen Weise oder für eine Weile passiert, kann neben dem unbefugten Eindringen auch Diebstahl geltend gemacht werden, sei es von Daten oder der Maschine selbst (Bendel 2015b). Die Thematik kann ebenfalls im Kontext von Freiheit und Autonomie (und von Überwachung) behandelt werden, geht aber darüber hinaus; zudem ergeben sich rechtliche (nicht zuletzt datenschutzrechtliche) Implikationen.

Auditive Geräte bilden hinsichtlich der Anfälligkeit keine Ausnahme. Gezeigt wurde, dass man mittels Malware dem Benutzer vorspielen kann, dass sein Smartphone ausgeschaltet ist (Pakalski 2015). Wenn sich eine Person die Mühe macht, dieses zu übernehmen, liegt die Vermutung nahe, dass sie Schaden anrichten will. Sie will womöglich das Mikrofon benutzen, um den Benutzer oder seine Umgebung auszuhorchen. Damit wären wiederum Privatsphäre und Betriebsgeheimnis betroffen und Stalking und Überwachung oder Wirtschaftsspionage möglich. Es ist aber auch denkbar, dass die auditiven Informationen manipuliert, z.B. entfernt oder hinzugefügt werden. Das Ergebnis könnte man gegen den Benutzer verwenden, oder diesem würde etwas fehlen, wenn er Berichte der Medien entkräften oder Beweise vor Gericht vorlegen wollte. Hier wird neben der informationellen Autonomie die individuelle Freiheit in der Informationsgesellschaft verletzt, das Recht auf Unversehrtheit eigener Geräte, der Nutzung im normalen Umfang, und das Recht auf Freiheit vor falscher Beschuldigung mit Hilfe technischer Manipulation.

Maschinelle vs. menschliche Autonomie

Im Zusammenhang mit technischen Systemen meint der Begriff der Autonomie, dass sie in der Lage sind, zeitlich beschränkt oder dauerhaft selbstständig zu entscheiden und eigenständig zu handeln, weder direkt durch Menschen angeleitet noch von ihnen fremdgesteuert. Dazu gehört zum Teil auch, sich aus eigenem Antrieb zielorientiert zu bewegen (Bendel 2015b). Viele Maschinen sind nicht vollautonom, sondern - auch jenseits zeitlicher Faktoren - teilautonom, also in gewisser Hinsicht von Menschen abhängig und ihrem Willen unterworfen. In der Industrie 4.0 werden mobile, selbstständige, lernfähige Roboter immer wichtiger. Sie arbeiten mit Menschen eng zusammen und müssen sich entsprechend verhalten.

Auditive Systeme reagieren entweder auf Codewörter oder Inputs oder sind permanent aufnahmebereit. Auch für das Erkennen der Codewörter müssen Informationen ausgewertet werden, müssen die Geräte angeschaltet und u.U. mit dem Internet verbunden sein. Selbstständige Entscheidungen auditiver Systeme könnten in vielen Bereichen eine wichtige Rolle spielen. So könnten Studierende ihre Smartphones in der Vorlesung deponieren, und die Software entscheidet selbst (oder in der Kommunikation mit anderen Maschinen), wann sie mitschneidet und wann nicht. Auch Systeme von Polizei und Geheimdienst könnten auf Reizwörter reagieren und selbstständig an die Quelle heranzurücken versuchen, was allerdings Mobilität voraussetzt und deshalb allenfalls im Bereich der Robotik relevant ist. Die hier behandelten Drohnen und Serviceroboter wären dazu in der Lage.

Dass maschinelle Autonomie menschliche ergänzt und verdrängt, ist Thema von Informations- und Technikethik. Der Mensch wird einerseits entlastet, und die Maschine kann eine Tätigkeit mit nie dagewesener Schnelligkeit und Sorgfalt ausführen. Andererseits verliert man Möglichkeiten der Entscheidung und Entfaltung, büßt man Freiheit ein Stück weit ein (Bendel 2015b). Die Maschinenethik untersucht, wie sich die auditiven Systeme so verhalten, dass sie moralische Konventionen (von Gesellschaften und Gruppen oder des Kunden) einhalten. Es kann ihr ferner um standardisierte Prozesse gehen. Man könnte die Geräte zum Beispiel so beschränken, dass ihnen nur funktionsbezogene Aufnahmen möglich sind bzw. andere Aufnahmen umgehend gelöscht werden, etwa wenn die Betroffenen über bestimmte Dinge reden.

Ein spezieller Aspekt ist, ob die Maschine einen richtig versteht. Seit den 1950er Jahren bemüht sich die KI, die menschliche Sprache maschinenverarbeitbar zu machen. Bis heute reichen die meisten Systeme nicht weit über Volltextsuchmaschinen hinaus, die Begriffe und Sätze vergleichen und zählen. Ein richtiges Verständnis ist durch automatisierte Spracherkennung kaum möglich, und es kann zu Problemen durch Homonyme kommen. Jedes Missverständnis kann Zeit kosten und Schaden anrichten.

Eine weitere Frage ist, ob Siri, Cortana und Co die Wahrheit sagen. Hammwöhner (2003) hat den Heuristic Algorithmic Liar (HAL) erdacht, dessen Ziel es ist, "möglichst viele Zimmer zu möglichst hohen Preisen zu vermieten". In (Bendel 2013) wird der Lügenbot erwähnt, ein Chatbot, der alle Aussagen, die er für wahr hält, in ihr Gegenteil verkehrt. Aufgeführt werden dort auch beschönigte Onlinewetterberichte und falsche Aussagen von Antwortmaschinen wie Wolfram Alpha. In (Bendel 2015a) wird ausführlich auf Münchhausen-Maschinen eingegangen.

Zusammenfassung und Ausblick

Auditive Systeme galten bereits früh als optimal für das Ausspionieren von Menschen und das Auswerten des Verhaltens der Bevölkerung. In den 2010er Jahren erleben sie eine Renaissance. Nicht mehr als gewöhnliche Wanzen, nicht nur als konventionelle Telefonüberwachung. Sondern in Form von Alltagsgeräten, die für uns teilweise unverzichtbar sind, teilweise zumindest bereitwillig ausprobiert werden. Es werden offensichtlich immer mehr, und dass man auch Spielzeug mit Spracherkennung ausrüstet, dass Hello Barbie und Cognitoy-Dinosaurier auf dem Markt sind, darf kaum noch verwundern. Einige moralische Probleme, die mit informationeller und persönlicher Autonomie und der Freiheit in der Informationsgesellschaft zusammenhängen, konnten systematisiert und diskutiert werden. Andere wurden nur angedeutet.

Nicht behandelt werden konnte im vorliegenden Beitrag das Zusammenwirken von optischen und auditiven Systemen. Es ist offensichtlich, dass hier noch mehr Chancen und Risiken vorhanden sind. Smartphones, intelligente Fernseher, Datenbrillen und Drohnen vereinen beide Sphären. Es ist eher die Ausnahme, dass eine der Schnittstellen fehlt. Die Aggregation auditiver Informationen kann, wie gezeigt wurde, zu weitreichenden Schlüssen führen. Zusätzliche Quellen werden noch weitaus präzisere und tiefere Analysen zulassen. Einige visuelle Informationen haben direkt mit den auditiven zu tun. Die Maschine könnte in der Lage sein, den Menschen von den Lippen zu lesen, sodass das Gesprochene selbst bei Störungen und Lücken verstanden werden kann.

Deutlich wurde, dass die Geräte nicht allein für die Herausforderungen verantwortlich sind. Sie sind untereinander und mit Rechnern und Dingen verbunden. Die Daten werden zusammengeführt und aufbereitet, mit maschineller Hilfe und in Verbindung mit maschineller oder menschlicher Entscheidung. Man kann in Zukunft versuchen, auf bestimmte Geräte zu verzichten, und man kann mit weiteren Maschinen gegen diese kämpfen. Der Einzelne wird allerdings dem Ansturm der Möglichkeiten ausgeliefert sein. Deshalb braucht es zusätzliche ethische Überlegungen und verschiedene rechtliche Konsequenzen. Die Informationsgesellschaft soll weiterhin eine Gesellschaft sein, in der die Nutzung von Technologien Freude macht und Gewinn bringt. Aber sie muss für den Einzelnen auch möglichst vertrauenswürdig und sicher sein.

Literatur

  • Anderson, M.; Anderson, S.L. (Hrsg.): Machine Ethics. Cambridge: Cambridge University Press, 2011.
  • Bendel, O.: Können Maschinen lügen? Die Wahrheit über Münchhausen-Maschinen. In: Telepolis, 1. März 2015a (letzter Zugriff: 15.06.2015).
  • Bendel, O.: Private Drohnen aus ethischer Sicht: Chancen und Risiken für Benutzer und Betroffene. In: Informatik-Spektrum, 14. Februar 2015b ("Online-First"-Artikel auf SpringerLink).
  • Bendel, O.: Die Roboter sind unter uns. In: Netzwoche, 22 (2014c). S. 28.
  • Bendel, O.: Die Datenbrille aus Sicht der Informationsethik: Problemanalysen und Lösungsvorschläge. In: Informatik-Spektrum, 13. September 2014b ("Online-First"-Artikel auf SpringerLink).
  • Bendel, O.: Wirtschaftliche und technische Implikationen der Maschinenethik. In: Die Betriebswirtschaft, 4/2014a. S. 237-248.
  • Bendel, O.: Der Lügenbot und andere Münchhausen-Maschinen. In: CyberPress, 11. September 2013. http://cyberpress.de/wiki/Maschinenethik (letzter Zugriff: 15.06.2015).
  • Bendel, O.: Maschinenethik. Beitrag für das Gabler Wirtschaftslexikon. Wiesbaden: Gabler/Springer, 2012b. http://wirtschaftslexikon.gabler.de/Definition/maschinenethik.html (letzter Zugriff: 15.06.2015).
  • Bendel, O.: Informationsethik. Beitrag für das Gabler Wirtschaftslexikon. Wiesbaden: Gabler/Springer, 2012a. http://wirtschaftslexikon.gabler.de/Definition/informationsethik.html (letzter Zugriff: 15.06.2015).
  • Fuest, B.: Wie Amazon unseren Alltag übernehmen will. In: DIE WELT ONLINE, 7. November 2014 (letzter Zugriff: 15.06.2015).
  • Häuptli, L.: Kampf den Drohnen. In: NZZ am Sonntag, 7. Dezember 2014 (letzter Zugriff: 15.06.2015).
  • Hammwöhner, R.: Können Computer lügen? Mayer, M.: Kulturen der Lüge. Köln: Böhlau Verlag, 2003. 299-320.
  • Hill, K.; Harshaw, P.: It’s not just Samsung TVs - lots of other gadgets are spying on you. In: Fusion, 17. Februar 2015 (letzter Zugriff: 15.06.2015).
  • Linden, M.: Amazon hört und spricht ins Wohnzimmer. In: Golem, 6. November 2014 (letzter Zugriff: 15.06.2015).
  • Mayer-Schönberger, V.; Cukier, K.: Big Data Meets Big Brother: The Privacy Risks of Big Data. In: The European Business Review, 8. September 2013 (letzter Zugriff: 15.06.2015).
  • Pakalski, I.: Vermeintlich ausgeschaltetes Smartphone hört mit. In: golem.de, 20. Februar 2015 (letzter Zugriff: 15.06.2015).
  • Pichler, K.: Drohnen sollen wie Piloten mit Fluglotsen "reden". In: ICTkommunikation, 2. März 2015 (letzter Zugriff: 15.06.2015).
  • Piper, G.: Abhörstaat Deutschland. Die SIGINT-Landschaft seit 1945 in Ost und West. Haar: Verlag Heinz Heise, 2015. Rojas, R.: Wie sage ich es meinem Auto? In: Telepolis, 2. November 2014 (letzter Zugriff: 15.06.2015).
  • Stöcker, C.; Horchert, J.: Wie Geheimdienste Millionen Sim-Karten-Daten stahlen. In: Spiegel Online, 20. Februar 2015 (letzter Zugriff: 15.06.2015). Taglinger, H.: Jetzt haben wir Dich, Du Stimme. In: Telepolis, 11. Februar 2015 (letzter Zugriff: 15.06.2015).