Eine gefährliche Analogie: Der beliebte Vergleich von Daten und Öl lässt uns falsche Schlüsse ziehen. Fehler beim Erschließen der Daten potenzieren sich bei ihrer Verarbeitung. Das sollten wir im Zeitalter von Machine Learning schon bei der Auswahl der Daten berücksichtigen.
Nach zwei Buchstaben war erst einmal Schluss: „lo“ erschien Anfang November 1969 auf dem Rechner des Stanford Research Institute, bevor die Verbindung wieder abbrach. Dennoch markieren diese beiden Buchstaben, der Anfang des Wortes „login“, die Geburtsstunde des Internet. 50 Jahre später nutzt die halbe Welt das Netz.
Noch schneller setzte sich ein Stück Hardware durch, das es ohne das Internet nicht geben würde. Vor 12 Jahren brachte Apple das erste iPhone auf den Markt. Auch zu diesem Zeitpunkt ahnte wohl niemand, wie sehr es unser ganzes Leben verändern sollte. Dinge, die wir vorher materiell besaßen, verschwanden darin: zuerst unsere Adressbücher, dann die Kamera, die Musiksammlung, der Geldbeutel. Sie verschwanden nicht nur darin, sondern verbanden sich auf wunderbare Weise zu neuen Dingen. Whats-App bedient sich bei unserem Adressbuch und weiß, wen wir alles kennen. Die Fotos unseres Smartphones speichern Zeit und Ort, die dann in unserer Time- und Travel-Line als Erinnerungen wieder auftauchen, ebenso wie auf Facebook, Instagram und Co., wo wir sie gepostet haben. Diese und viele andere nützliche oder auch nur nette Funktionen machen das Smartphone so mächtig, dass wir unser Verhalten darauf abgestimmt haben und alle ein bisschen zu Smartphone-Zombies, sogenannten Smombies degenerieren.
Smarte Ökosysteme lassen Daten sprudeln
Aus dem Smartphone ist ein ganzes Ökosystem entstanden, mit smarten Uhren, Kopfhörern, Lautsprechern usw. Alle Geräte sind miteinander vernetzt und mit vielen Sensoren ausgestattet, die unablässig Daten über uns sammeln. Wenn Daten das neue Öl sind, dann sind diese Geräte unsere digitalen Ölquellen – der Rohstoff unserer Informationsgesellschaft. Sie treiben alle modernen Geschäftsmodelle an, sie sind es, die Facebook, Google, Amazon und Co. so wertvoll machen.
Und neben den Consumer-Markt schwemmen Industrie-Anwendungen noch viel mehr Daten auf den Markt beziehungsweise in die Wolke: Sensoren in Autos, Robotern und ganzen Industrieanlagen erzeugen ein Vielfaches an Daten und füttern Cloud Systeme, in denen diese Daten bereitgestellt und weiter raffiniert werden.
Daten sind die wertvollste Ressource der Welt, titelte der Economist im Mai 2017. Und wenn man den Prognosen der Technologie-Analysten vertraut, dann steht uns ein wahrer Daten-Tsunami erst noch bevor. Doch das Bild von Daten als dem neuen Öl ist nur auf den ersten Blick schlüssig. Schauen wir doch einmal genauer hin. In der Öl-Wirtschaft spricht man von Upstream, also dem Erschließen von Ölquellen, Midstream, dem Transport des Öls, und Downstream, dem Verarbeiten und Verteilen des Öls. Auf unser Daten-Bild angewendet heißt das:
Daten als Öl: Upstream, Midstream und Downstream
- Upstream: An Minen besteht kein Mangel, wie wir gerade gesehen haben. Die Datenquellen sprudeln inzwischen überreichlich. Es sind bereits jetzt so viele Geräte vernetzt, dass sich die Verarbeitung der Daten immer weiter an die Quelle, an den Sensor verlagert. Das bedeutet aber auch, dass die Nutzer der Sensoren immer früher entscheiden müssen, welche Daten für sie überhaupt relevant sind.
- Midstream: Der schnellste Transporter großer Datenmengen ist heute der LKW. Amazon, einer der größten Cloud-Betreiber, setzt immer noch auf mit Festplatten beladene Laster, um Daten von einem Rechenzentrum in das andere zu transportieren. Die bestehende Netz-Infrastruktur reicht dazu nicht aus. Aber das ist eher eine kuriose Randnotiz beim Datentransport. In der Öl-Welt erfolgt der Transport über Schiffe, Pipelines und die Lagerung in Tanks. In der digitalen Welt transportiert das Internet die Daten, die bei den Cloud-Anbietern lagern. Bei den Lagerstellen ist der Markt weitgehend unter den US-amerikanischen Anbietern verteilt (siehe meinen Artikel „Das große Fressen 2.0“). In unserer Daten-Welt ist das Internet als Verbund unabhängiger Netze der wichtigste Transportweg eine kostenlos nutzbare Infrastruktur, die allen zur Verfügung steht. Der Grundsatz der Netzneutralität „alle Daten sind gleich“ wird mit zunehmender wirtschaftlicher Relevanz des Netzes in Frage gestellt. Die USA haben 2018 die Netzneutralität abgeschafft. In der EU schützen die Regelungen seit mehr als drei Jahren europäische Internet-Nutzer und garantieren ihnen eine weitgehend gleichberechtigte Datenübertragung, egal wofür sie das Internet nutzen. Mit der Einführung des neuen 5G-Standard wird die Diskussion jedoch wieder aufgeworfen, weil es technisch möglich ist, verschiedenen Diensten jeweils eine andere Verbindungsqualität zuzusichern. Dem Midstream des digitalen Zeitalters stehen also neue Verteilungskämpfe beim Zugang zu unserer Ressource bevor.
- Downstream: Ein Informationsvorsprung von 4 Millisekunden genügt manchmal, um reich zu werden. Dafür lohnte sich sogar die Investition von 300 Millionen US-Dollar in eine Datenleitung zwischen den Börsen von New York und Chicago. Um den Weg der Daten zwischen den beiden Städten zu verkürzen, bohrte die Firma Spread Networks dafür extra einen Tunnel durch die Berge. Der Informationsvorsprung von 4 Millisekunden zwischen Future- und Aktienmarkt reichte aus, um den sogenannten Flash Boys durch den Hochfrequenzhandel einen riesigen Gewinn zu bescheren.
Vier Millisekunden haltbar
Daten haben also anders als Öl eine Verfallszeit, auch wenn es nicht immer Millisekunden sind. Ihr Lebenszyklus hängt neben dem Informationsvorsprung im Markt auch noch von der Veränderungsgeschwindigkeit ihrer physischen Zwillinge, seien es Maschinen, Märkte oder Menschen ab. In vielen Industrien sind Echtzeit-Daten die wichtigste Quelle für Entscheidungen, etwa bei der Wartung einer Maschine durch Predictive Maintenance oder beim Einsteuern einer Werbebotschaft bei einem potenziellen Käufer eines Schuhs. Autonomes Fahren ist ohne Echtzeit-Daten nicht möglich. Somit wird der Wert von Daten auch immer durch deren mehr oder weniger schnelle Verfügbarkeit bestimmt. Was uns dann wieder zum Thema Netzwerkneutralität führt…
Als Historiker habe ich gelernt, welcher Wert in den Quellen liegt und wie wichtig ein kritischer Umgang damit ist. Beim Umgang mit Daten sehe ich das Bewusstsein dafür kaum entwickelt. Und dabei geht es heute längst nicht nur um die aufgeregte Debatte um Fake News und Deepfakes. Verzerrte Daten, sogenannte „Biased data“ entstehen noch viel häufiger einfach aus Unachtsamkeit, Schlampigkeit und mangelnder Methodenkenntnis.
Die Reputation des Datenhandels dürfte sich spätestens seit der Aufdeckung des Skandals um Cambridge Analytica auf Augenhöhe mit dem Drogenhandel befinden. Datenhandel ist ein Kerngeschäft der Social-Media-Plattformen. Facebook identifiziert über eine eindeutige Kennung (ID) seine Nutzer und wertet über Cookies sämtliche Interaktionen im Internet aus, selbst wenn der Nutzer gar nicht auf Facebook ist. In den Händen von Daten-Spezialisten ein mächtiges Instrument, wie die Entscheidung der Briten für den Brexit und der Wahlausgang in den USA zeigt. Neben den großen Konzernen gibt es tausende weitere Akteure, die vor allem als Broker im Handel mit Daten tätig sind. Dazu zählen etwa die arvato Bertelsmann Tochter AZ direct, die Deutsche Post und der US-Konzern Acxiom, dessen Spezialität Offline-Kundendaten sind.
Datenhandel: Von einem transparenten Markt noch weit entfernt
Während große etablierte Informationsbroker direkt an ihre Kunden verkaufen, entwickeln sich für spezialisierte und kleinere Anbieter Marktplätze für Data as a Service (DaaS) (siehe etwa „Meet me at the Data Marketplace“ von IDG). Von einem transparenten Markt mit standardisierten Produkten ist der Datenhandel allerdings noch weit entfernt. Eine Commodity wie das Barrel Brent Oil, dessen Preis an den Rohstoffbörsen ICE in London und Nymex in New York ermittelt wird, sucht man bei Daten vergebens. Dabei wäre es möglicherweise ganz hilfreich, auch einen transparenten Markt für personenbezogene Daten zu schaffen und hier etwa die Standards wie „Privatadresse mit 15 Ausprägungen“ oder „Mobilitätsdaten mit 1.000 Datenpunkten“ zu handeln. Das wäre ein Weg, den Handel aus seiner bisweilen schmutzigen Ecke zu holen. Dieser Weg hätte zudem den Vorteil, dass sich der eine oder andere Nutzer mehr Gedanken darüber macht, wie viele Daten er im Tausch gegen ein wenig Convenience an die großen Datenkonzerne künftig abzugeben bereit ist.
Das Aufbereiten der Daten potenziert auch die Fehler
Beim Downstream wird Öl in seine verschiedenen Bestandteile zerlegt, etwa Heizöl, Benzin und Gas: Es entstehen standardisierte und eindeutig identifizierbare Produkte mit klarer Herkunft – wie etwa aus der schon erwähnten Ölsorte Brent, die aus der Nordsee stammt. Bei Daten sieht die Verwertung umgekehrt aus: Rohdaten werden in Big Data Pools mit verschiedenen Datenquellen angereichert, erweitert und verarbeitet. Im Unterschied zu Öl verschwinden Daten dabei nicht. Im Gegenteil: sie vermehren sich, es entstehen über Algorithmen und Verfahren des Machine Learning Sekundär-, Tertiär- und weitere Daten, deren Herkunft oft gar nicht mehr erkennbar ist. Die Verfahren der Künstlichen Intelligenz tragen dazu bei, dass sich Fehler und Vorurteile fortsetzen und potenzieren.
Als Historiker habe ich gelernt, welcher Wert in den Quellen liegt und wie wichtig ein kritischer Umgang damit ist. Es geht dabei unter anderem darum zu verstehen, unter welchen Umständen und mit welcher Absicht die Quelle entstanden ist und wer sie hergestellt hat. Beim Umgang mit Daten sehe ich das Bewusstsein dafür kaum entwickelt. Und dabei geht es heute längst nicht nur um die aufgeregte Debatte um Fake News und Deepfakes. Verzerrte Daten, sogenannte „Biased data“ entstehen noch viel häufiger einfach aus Unachtsamkeit, Schlampigkeit und mangelnder Methodenkenntnis (siehe dazu den Artikel von Prabhakar Krishnamurthy: Understanding Data Bias).
Der Einsatz von Künstlicher Intelligenz (KI) verschärft das Problem, weil nicht mehr unbedingt erkennbar ist, aus welchen Gründen Schlussfolgerungen gezogen wurden, gleichzeitig aber der Anspruch großer Exaktheit erhoben wird, weil die Ergebnisse ja angeblich unbeeinflusst von menschlichen Einflüssen seien.
Solange mir nur ein unpassendes Produkt auf der Website empfohlen wird, ist das verschmerzbar. Die Auswirkungen reichen allerdings deutlich weiter und beeinträchtigen bereits das Leben vieler Menschen, ohne dass diese etwas dagegen unternehmen können. Cathy O’Neill hat in ihrem Buch „Weapons of Math Destruction“ (Buch bei Amazon) analysiert, welche Auswirkungen der Einsatz hochaggregierter Daten in den USA etwa auf den Zugang zu Bildung, Geld und das Verhalten der Polizei haben. Sie zeigt, wie stark Vorurteile in den Daten selbst enthalten sind und durch deren Anwendung weiter verstärkt werden.
Die Datenraffinerie – ein falsches Narrativ
Vorsicht ist also bei dem schönen Bild von Daten als dem neuen Öl angebracht. Gerade das Narrativ der Datenraffinerie, die bei der Verarbeitung die Daten besser macht, ist einfach falsch. Unternehmen sind gut beraten, sehr genau die Quellen zu wählen, aus denen sie Grundlagen für ihre Entscheidungen treffen. Sie sollten sich immer darüber im Klaren sein, dass allein die Auswahl der Daten eine Entscheidung beinhaltet, die maßgeblich das Ergebnis bestimmt. Mit allen Fehl- und Vorurteilen, die bereits in den Daten enthalten sind. Bei der Datenverarbeitung gilt die Gleichung „garbage in = garbage out“ nicht mehr. Mit Algorithmen und maschinellen Lernverfahren potenzieren wir auch den Müll, den wir vorne reinstecken.