Synthetische Daten: Ein neues Geschäftsmodell?

Daten sind der Rohstoff für KI-Systeme. Doch was machen Unternehmen, die nicht genügend Daten generieren?

Artificial Intelligence

Die großen Technologie-Unternehmen wie Google, Facebook oder Amazon haben einen gemeinsamen Erfolgsfaktor: Sie sind datengetrieben und bauen ihre Geschäftsmodelle konsequent über Künstliche Intelligenz, Algorithmen und Deep Learning auf. Das lässt sich aber nur in wenigen Fällen auf die etablierten Unternehmen der Old Economy übertragen. Sie müssen sich zunächst digital transformieren und ihre Geschäftsmodelle auf den datengetriebenen Ansatz umstellen. Selbst den großen Unternehmen fehlen so zunächst die notwendigen Daten, um von den Möglichkeiten der Künstlichen Intelligenz sofort zu profitieren. Denn gerade Algorithmen und Deep Learning benötigen große Datensätze. Je mehr Daten zur Verfügung stehen, desto besser werden die Ergebnisse.

Die datengetriebenen Unternehmen haben hier also einen klaren Vorteil: Ihre intelligenten Systeme bekommen mehr Input und können schneller lernen, die wichtigen Muster zu erkennen. Mit geringeren Datenmengen dauert der Lernfortschritt nicht nur länger, sondern ist auch ungenauer. Das erschwert den Wettbewerb auch für die ansonsten agil aufgestellten kleinen und mittleren Unternehmen und führt unter dem Digitalisierungsdruck zu einer erhöhten Fehleranfälligkeit. Wer dagegen genügend Daten besitzt, kann die Digitalisierung selbst aktiv bestreiten und seine Position durch neue Geschäftsmodelle festigen oder sogar ausbauen. Doch was tun, wenn nicht genügend eigene Daten vorhanden sind?

Synthetische Daten füttern KI-Systeme

Künstliche Daten für Künstliche Intelligenz? Das hört sich zugegebenermaßen etwas skurril an, ist aber bereits zu einem veritablen Geschäftsmodell geworden. Und tatsächlich werden synthetisierte Daten schon seit längerer Zeit in wissenschaftlichen Co-Simulationen eingesetzt. Beispielsweise, wenn es um neue Komponenten für hochkomplexe Systeme mit verschiedenen Ebenen geht, wie bei der Digitalisierung des Energieversorgungssystems oder dem Aufbau eines digitalen Verkehrssystems mit autonomen Fahrzeugen. Eine solche Simulation baut dann komplett auf Daten aus einer anderen Simulation auf. Generiert werden diese Daten von speziellen Algorithmen, die in der Lage sind, reale Daten nachzuahmen. Zusammen mit den bereits existierenden Datenpaketen entsteht so eine genügend große Datenmenge, um einen Lerneffekt in der KI-Anwendung auszulösen.

Aber nicht nur die Quantität spielt eine wichtige Rolle für das notwendige Training der KI-Systeme, auch die Qualität ist sehr wichtig. Daten aus Simulationen haben dabei den Vorteil, dass die Rahmenbedingungen streng definiert sind. Das macht sie hochgradig valide, denn sie müssen nicht erst analysiert und in einen Kontext gesetzt werden.

Wofür lassen sich synthetische Daten nutzen?

Synthetische Daten können unter anderem für die KI-gestützte Auswertung von Bild- und Videomaterial in Bereichen wie Gesundheitswesen, Sicherheit, Robotik, Logistik oder der Fertigung hilfreich sein. Hier fallen oft so viele Daten an, dass Menschen sie nicht mehr auswerten können oder es schlicht zu lange dauern würde. Zudem fehlt den Daten oft der Kontext, so dass sie erst aufwändig analysiert werden müssen.

Mittlerweile gibt es daher erste Unternehmen, die sich auf die Synthetisierung von Daten spezialisiert haben. Eines dieser Unternehmen ist das Startup TwentyBN aus Berlin. Die vier Gründer haben eine eigene „Data-Factory“ entwickelt, die Videos in hoher Qualität für lernende Systeme erzeugt. Der Clou: Die Videos sind bereits mit vordefinierten Labeln angereichert, so dass sie vom KI-System nicht mehr analysiert werden müssen, sondern als Basis für das weitere Training dienen können. Die Daten liefern somit quasi das Muster gleich mit und ermöglichen den KI-Systemen ein sicheres und schnelles Lernen.

Einen ähnlichen Ansatz verfolgt LDV Capital aus New York. Auch hier geht es um kategorisierte synthetische Daten für Deep-Learning-Systeme, um sie für die Auswertung von Bildmaterial zu trainieren. Sie lösen damit für Startups aus unterschiedlichen Branchen das „Kaltstart-Problem“: Sie alle benötigen eine genügend große Datenbasis mit einer hohen Qualität und kontextrelevanten Datensätzen, die ihre Algorithmen trainieren.

Zu den Kunden von LDV Capital gehört unter anderem AiFi. Das Startup aus dem Silicon Valley will mittels Künstlicher Intelligenz das kassenlose Einkaufen ermöglichen und wertet dafür umfangreiches Bild- und Videomaterial aus den Läden aus. Das Prinzip kennen wir bereits von Amazon Go, doch AiFi will nicht selbst als Händler auftreten, sondern die Technologie für alle Einzelhändler verfügbar machen.

Das zeigt nicht nur das große Potenzial der synthetischen Daten und den daraus resultierenden Geschäftsmodellen, sondern auch, dass die Datengiganten keineswegs einen uneinholbaren Vorsprung haben. Synthetische Daten demokratisieren somit das datenbasierte Business der Zukunft.