Manche Entscheidungen bestimmen über Leben und Tod: Sei es die Befundung bildgebender Diavgnostik wie Röntgenbilder oder das Erkennen und Reagieren von autonomen Fahrzeugen auf Hindernisse im Straßenverkehr. Würden Sie in solchen Situationen einer Künstlichen Intelligenz (KI) Ihr Leben anvertrauen? Für viele Menschen lautet die Antwort: nein. Studien zeigen, dass die Mehrheit KI-Systemen skeptisch gegenübersteht – selbst dann, wenn diese von den Befragten als nützlich gelten.
Wie können Organisationen also das Vertrauen in KI stärken, so dass diese auch in kritischen Situationen Entscheidungen treffen darf – unabhängig davon, ob es um lebenswichtige Fragen geht oder nicht?
Transparenz der Technologie als Basis
Ein vielversprechender Ansatz ist, die Zuverlässigkeit eines KI-Systems transparent zu machen. Wenn Nutzer nachvollziehen können, mit welchen Methoden und welcher Genauigkeit eine KI etwa radiologische Bilder befundet, Unfälle verhindert oder Anomalien in Produktionsprozessen identifiziert, führt das zu mehr Vertrauen. Doch wie kann die Zuverlässigkeit von KI-Systemen überhaupt festgestellt werden? Zentral ist dabei die Korrektheit: In welchen Fällen trifft die KI Entscheidungen, die als richtig bewertet werden? Und wie lässt sich dies messen?
Von der „Black Box“ zur nachvollziehbaren KI
Oft agieren KI-Algorithmen als „Black Box“ – insbesondere klassische Künstliche Neuronale Netze (KNN) und ihre Varianten, die häufig in Machine-Learning-Anwendungen oder Generative AI eingesetzt werden. Die internen Strukturen und Gewichtungen dieser Modelle sind nicht unmittelbar interpretierbar. Das bedeutet: Es ist für den Nutzer nicht nachvollziehbar, wie ein bestimmtes Ergebnis zustande gekommen ist. Anders als bei herkömmlicher Software, bei der sich der Programmcode nachvollziehen lässt, muss die Bewertung der Korrektheit von KI auf Basis ihrer Ein- und Ausgaben erfolgen.
Mit geeigneten Datensätzen, die präzise Eingabewerte und korrekt klassifizierte Ausgabewerte enthalten, können Organisationen KIs auf ihre Leistungsfähigkeit prüfen. Dabei wird untersucht, ob die Modelle Daten korrekt klassifizieren oder zutreffende Vorhersagen treffen. Mithilfe standardisierter KPIs lässt sich dann die Genauigkeit beschreiben, sofern die Testdaten und die mathematische Verteilung der Werte den Anforderungen entsprechen.
Komplexer wird es, wenn die Datenlage weniger eindeutig ist. Beispielsweise müssen Sprachmodelle, die Texte in Fremdsprachen übersetzen, anhand statistischer Modelle mit Referenzübersetzungen verglichen werden. Bei generativen KI-Anwendungen – wie großen Sprachmodellen à la ChatGPT oder Gemini – ist die Bewertung noch anspruchsvoller. Neben der inhaltlichen Korrektheit der Ausgaben spielt auch die sprachliche Darstellung eine Rolle. Nur die Kombination verschiedener Kennzahlen ermöglicht hier eine fundierte Aussage über die Zuverlässigkeit.
Datenqualität: Das Fundament für vertrauenswürdige KI
Organisationen können die Korrektheit ihrer KI-Systeme gezielt beeinflussen. Der Schlüssel liegt in der Qualität der Trainingsdaten: Diese stammen zumindest teilweise aus unternehmensinternen Quellen, und oft sind gerade diese Daten für organisationsspezifische Use Cases ausschlaggebend. Sind diese Daten unvollständig, fehlerhaft oder widersprüchlich, beeinträchtigt dies den Lernprozess der KI und reduziert ihre spätere Leistungsfähigkeit. Eine solide Datenbasis – geschaffen durch Data Governance und effektives Data Quality Management – zahlt sich aus. So kann übrigens auch Vertrauen in organisationsübergreifende Trainingsdaten geschaffen werden, wenn Unternehmen Datenstände teilen oder kombinieren, um einfach und effizient einen aussagekräftigeren Trainingsdatenbestand zu schaffen.
Darüber hinaus müssen Organisationen ihre Mitarbeiter befähigen, die Zuverlässigkeit von KIs einzuschätzen. Grundkenntnisse über Daten, KI-Konzepte und relevante Kennzahlen helfen, Systeme zu verstehen und gezielt einzusetzen sowie Kennzahlen zu deren Leistung zu interpretieren. Wenn die hohe Leistung einer KI, beispielsweise bei der Befundung medizinischer Bilder, klar dokumentiert und für den Nutzer interpretierbar ist, steigt automatisch das Vertrauen in ihre Entscheidungen. Langfristig profitieren Organisationen dabei von einer Datenstrategie, die die verschiedenen Handlungsfelder koordiniert und strukturiert umsetzt, und so KI mit geschulten Mitarbeitenden, die KIs verantwortungsvoll bewerten und einsetzen können, verzahnt.