Künstliche Intelligenz (KI) und Machine Learning (ML) sind die Themen der Stunde – nicht nur in der gesellschaftlichen Debatte, sondern auch für viele Unternehmen, die diese Technologie für Innovationen oder die Optimierung ihres Geschäftsmodells nutzen wollen oder müssen. Die Technologie hat viel zu bieten: von der Chatbot-Entwicklung bis zur Automatisierung von Routineaufgaben, von neuen Wegen zur Überprüfung der Produktionsqualität bis zur Anpassung von Produkten und Dienstleistungen an sich ändernde Kundenpräferenzen. Egal, für welche Technologie man sich entscheidet: Der Zugang zu hochwertigen Daten ist immer erforderlich. Nicht umsonst heißt es in der Informatik oft „Garbage In Garbage Out“ (GIGO), denn die Leistung der Technologie korreliert häufig stark mit der Qualität der Eingabedaten.
Trainingsdaten als Herausforderung
Damit KI- und ML-Systeme ihre Aufgaben erfüllen können, müssen sie mit riesigen Datenmengen trainiert werden. Der Zugang zu Daten dürfte kein Problem darstellen, da sowohl Einzelpersonen als auch Unternehmen nahezu ständig Daten produzieren. Doch bei der Datennutzung gibt es eine Reihe von Herausforderungen, die es wert sind, untersucht zu werden.
Die Datennutzung unterliegt heute einem strengen Rechtsrahmen, der sich vor allem auf den Schutz der Privatsphäre des Einzelnen konzentriert. Ein prominentes Beispiel dafür ist die Datenschutz-Grundverordnung (DSGVO), die zu den umfangreicheren EU-Gesetzen in diesem Bereich gehört. Die DSGVO soll sicherstellen, dass personenbezogene Daten verantwortungsvoll gehandhabt werden. Zudem soll sie dem Einzelnen mehr Kontrolle über seine Daten geben. Die Gesetzgebung schränkt auch ein, wie Daten gesammelt und verwendet werden und wie lange sie gespeichert werden dürfen. Dies bedeutet unter anderem, dass Sie Kunden- und Mitarbeiterdaten nicht frei verwenden können, um Ihre KI-Systeme zu trainieren.
Die legale Nutzung personenbezogener Daten erfordert häufig eine umfangreiche Anonymisierung der Daten, die sowohl komplex als auch kostspielig ist. Zudem ist zu beachten, dass die Anonymisierung von Daten nicht vollständig sicher ist. Darüber hinaus erzielt man den besten Effekt für das Training von KI- und ML-Systemen mit historischen Daten, die über einen längeren Zeitraum hinweg erzeugt wurden. Auch wenn heute Unmengen an Daten produziert werden, sind die Daten aus der Vergangenheit möglicherweise nicht so reichhaltig und umfangreich – falls sie überhaupt vorhanden sind.
Einige Daten können auch urheberrechtlich geschützt sein. Dieses Thema wird viel diskutiert. Es ist nicht unwahrscheinlich, dass es in Zukunft Richtlinien gibt wird, die von Organisationen eine Erklärung darüber verlangen, welche öffentlichen Daten für das Training einer bestimmten Funktion oder eines Moduls verwendet wurden.
Diese Aspekte müssen bei der Planung Ihrer KI- und ML-Initiativen unbedingt berücksichtigt werden und sollten ein Eckpfeiler Ihrer KI-Strategie sein.
Ein weiterer wichtiger Bereich ist die Datenqualität. Vorhandene Daten können eine Reihe von Fehlern enthalten, die mehr oder weniger leicht zu beheben sind. Nur weil die Daten organisch erzeugt wurden, bedeutet dies nicht, dass sie von hoher Qualität sind.
Synthetische Daten
Eine Alternative zu organischen sind synthetische Daten. Dabei handelt es sich um Daten, die nicht aus realen Ereignissen gewonnen, sondern künstlich erzeugt wurden. Synthetische Daten enthalten also keine echten Daten, haben aber die gleichen statistischen Eigenschaften und liefern daher die gleichen statistischen Schlussfolgerungen. Dies macht sie für KI-Lösungen sehr wertvoll.
Synthetische Daten können zu verschiedenen Zwecken und in einer Vielzahl von Arten erstellt werden, von einfachen Tabellendaten bis hin zu fortgeschritteneren Datentypen wie Bildern, Text und Sprache. Synthetische Daten ermöglichen es Organisationen, viele der oben genannten Herausforderungen im Zusammenhang mit Trainingsdaten zu umgehen. Die synthetischen Daten können in der gewünschten Menge erstellt werden, sodass die Datenknappheit behoben wird, und sie sind vollständig anonym, das heißt frei von personenbezogenen Daten, sodass die Einhaltung der entsprechenden Vorschriften gewährleistet ist. Gleichzeitig liefern sie aber die gleichen statistischen Schlussfolgerungen wie echte Daten.
Ein sehr wichtiger Aspekt von synthetischen Daten ist ihre Qualität – ein relativ unerforschter Bereich. Bei synthetischen Daten können Sie bestimmen, welche Qualität die Daten haben müssen. Es kann Anwendungen geben, bei denen die Qualität gering sein darf, zum Beispiel bei Testdaten für die Systementwicklung. Dann muss man nicht in eine hohe Qualität der Daten investieren. Es gibt aber auch eine Reihe von Bereichen, in denen eine sehr hohe Datenqualität erforderlich ist, um das gewünschte Ergebnis zu erzielen. Bis heute gibt es keinen Konsens oder gar eine Definition dafür, wie die Qualität synthetischer Daten bestimmt wird.
Synthetische Daten sind ein spannender Ansatz, der eine Lösung für einige der größten Herausforderungen bei der Datennutzung bietet wie Datenschutz, Datenzugang und -qualität und neue Anwendungsmöglichkeiten eröffnet. Die Demokratisierung von Daten ermöglicht es Unternehmen und Forschenden, umfangreiche Analysen durchzuführen und KI-Modelle zu entwickeln – ohne die Risiken und Einschränkungen, die mit der Verwendung echter, sensibler Daten verbunden sind. Synthetische Daten können zudem einen Kostenvorteil mit sich bringen, da die Erhebung echter Daten aufwendig sein kann. Es ergeben sich neue Möglichkeiten für die Erforschung von Innovationen und die Verbesserung bestehender Prozesse, während ein hohes Maß an Datenschutz und Compliance gewahrt bleibt.
Wir bei CGI haben einen starken Fokus auf KI- und Machine-Learning-Projekte. Synthetische Daten und ihre Qualität sind etwas, das mich besonders interessiert. Ich hoffe, dass ich Ihnen in Kürze mehr über ein spannendes Projekt aus diesem Bereich erzählen kann, das wir gerade starten. In der Zwischenzeit können Sie mit meinem Kollegen Nima Samsami oder mir in Kontakt treten, um über Datennutzung, KI-Projekte oder einfach nur über die Definitionen und die Messung der Qualität von synthetischen Daten zu sprechen.