Nima Samsami, CGI

Nima Samsami

Executive Consultant​

In den letzten zehn Jahren hat die maschinelle Sprachverarbeitung erhebliche Fortschritte gemacht. Frühere Systeme wie Glove und BERT haben wichtige Durchbrüche in der wissenschaftlichen Forschung erzielt. Sie haben gezeigt, dass maschinelle Modelle Sprache verstehen und sogar Vorhersagen darüber treffen können, welches Wort als nächstes in einem gegebenen Kontext folgen kann. Einen bemerkenswerten Fortschritt gab es vor etwa fünf Jahren, als das GPT (Generative Pre-trained Transformer) -Modell eingeführt wurde. Es hat die Fähigkeiten der maschinellen Sprachverarbeitung auf eine neue Stufe gehoben. Ein Beispiel ist ChatGPT, das in der breiten Gesellschaft immer bekannter wird und zu vielen Diskussionen geführt hat.

Trotz aller Fortschritte gibt es bei den Large Language Models (LLM) auch Grenzen: Sie verfügen nicht über faktisches Wissen. Das heißt, sie können Informationen nicht auf der Grundlage eines tatsächlichen Verständnisses verarbeiten. Sie arbeiten auf Basis umfangreicher Textmengen, die während des Trainings analysiert werden. Das Sprachmodell erlernt dabei Gewichtungen, wie das nächste Wort in einem Satz vorhergesagt werden kann, ohne den tatsächlichen Kontext zu verstehen. Es ist vergleichbar mit einem Kleinkind, das komplexe Sätze nachsagen kann, ohne den eigentlichen Sinn zu verstehen. Large Language Models können sprachliche Muster erkennen und menschenähnliche Kommunikation simulieren, aber ihnen fehlt das tiefgreifende Verständnis, das Menschen bei der Interpretation von Sprache haben.

Um diese Grenzen zu überwinden, liegt der Fokus der aktuellen Forschung auf der Vermittlung faktischen Wissens an die Sprachmodelle. Damit entwickelt sich ein besseres Verständnis für spezifische Domänen und ermöglicht die Verbesserung von Abläufen und Prozessen, wie beispielsweise die Analyse von technischen Dokumentationen, Einhaltung von Vorschriften oder Fehlerdiagnosen. Eine vielversprechende Methode ist dabei die Modellierung von Wissen in Wissensgraphen, die es dem System erlauben, mit weniger Trainingsdaten präzise Fakten zu verarbeiten. Unternehmen können davon profitieren, indem sie spezifisches Domänenwissen und ihre eigenen Unternehmensdaten in die Sprachmodelle integrieren. Es bietet Unternehmen effizientere Entscheidungsgrundlagen.

Spracherkennungssysteme erleichtern das Leben von Menschen mit Behinderungen Ein wichtiger Aspekt der maschinellen Sprachverarbeitung ist die Unterstützung von Menschen mit Behinderungen. Insbesondere für Menschen mit Hör- oder Sehbehinderungen kann die Technologie eine bedeutende Verbesserung der Kommunikation ermöglichen. Ein vielversprechendes Konzept, an dem CGI arbeitet ist die Übersetzung von Gebärdensprache in natürliche Sprache und die Rückübersetzung mittels eines 3D-Avatars. Mit dieser Technologie können Barrieren für Menschen mit Behinderung überwunden werden, wie sie zum Beispiel noch häufig auf Flughäfen oder Bahnhöfen vorzufinden sind.

Menschen, die Gebärdensprache verwenden, können von maschinellen Modellen unterstützt werden, indem diese ihre Gesten und Bewegungen in natürliche Sprache übersetzen oder umgekehrt. Die LLMs können komplexe Sachverhalte und komplizierte geschriebene Texte in eine einfache Sprache zusammenfassen und erklären. Das kann dann in Gebärdensprache oder jede andere Sprache übersetzt werden. Auch Menschen mit geistiger Behinderung oder mangelnden Sprachkenntnissen würden davon profitieren, indem sie einen für sie verständlichen Zugang zu komplizierten Texten, wie z.B. technische Handbücher oder Erklärungen auf Behördenwebseiten und Briefverkehr mit Behörden, bekommen. Der Vorteil: Behörden und Unternehmen müssen Ihre Textinhalte nicht manuell anpassen.

KI-unterstützte Spracherkennungssysteme sind ein wertvolles Instrument, das Inklusion fördert

KI-unterstützende Technologien sind in der Lage die Kommunikation von Gehörlosen und Hörenden zu verbessern und tragen dazu bei, dass Barrieren abgebaut werden und der Zugang zu Bildung, Information und Dienstleistungen für gehörlose erleichtert werden. Für Menschen mit Sehbehinderungen bietet die maschinelle Sprachverarbeitung die Möglichkeit, Bilder und Szenen in natürlicher Sprache zu beschreiben. Durch den Einsatz von visuellen Systemen können Sprachmodelle Bilder analysieren und eine genaue Beschreibung liefern, die es blinden Menschen ermöglicht, ihre Umgebung besser zu verstehen und sich sicherer zu bewegen.

Künstliche Intelligenz muss verantwortungsvoll genutzt werden

Künstliche Intelligenz soll Menschen nicht ersetzen, sondern sie unterstützen. Ein Mensch-zentriertes KI-Design kann die technologischen Lücken schließen und Brücken bauen, um Menschen mit Behinderungen zu unterstützen. Die Integration von großen Sprachmodellen und Domänenwissen eröffnet neue Möglichkeiten, die Zugänglichkeit und Inklusion zu verbessern. Unternehmen profitieren, weil sie ihre Dienstleistungen einer größeren und vielfältigeren Kundschaft zugänglich machen können.

Es ist inspirierend zu sehen, wie der Einsatz von Künstlicher Intelligenz Barrieren abbauen und die Lebensqualität für viele Menschen positiv beeinflussen kann. Indem KI verantwortungsvoll eingesetzt und mit spezifischem Wissen bereichert wird, kann es gelingen, eine integrative und fortschrittliche Gesellschaft aufzubauen, in der die Technologie den Menschen dient und das Leben aller bereichert.

Über diesen Autor

Nima Samsami, CGI

Nima Samsami

Executive Consultant​

Nima Samsami ist ein Experte in den Bereichen Sprachanalyse (NLP) und Generative KI (GenAI). Aufgrund seiner langjährigen Tätigkeit in Sprachanalyse (NLP) und KI verfügt er über weitreichende, praktische Erfahrungen in der Analyse von komplexen Prozessen sowie in der Strategiefindung und Umsetzung von passenden IT-Technologien und ...