Nima Samsami, CGI

Nima Samsami

Executive Consultant​

 

Kleine Sprachmodelle und Multi-Agenten-Systeme erhöhen den Mehrwert, den generative KI einem Unternehmen bringen kann. Vieles, was vor kurzem noch unmöglich schien, wird jetzt Realität. Nun lassen sich sogar Prozesse automatisieren, die bislang weder digitalisiert noch dokumentiert waren. Wer generative KI (GenAI) gewinnbringend nutzen möchte, sollte sich genau ansehen, welche Vorteile kleine Sprachmodelle gegenüber den großen besitzen, und wie sie sich mit Multi-Agenten-Systemen kombinieren lassen.

Inzwischen haben viele Unternehmen erste Erfahrungen mit generativer KI gesammelt. Sie haben beispielsweise Use Cases entwickelt, mit denen sie Fragen ihrer Kunden und Mitarbeitenden aus firmeneigenen Dokumenten beantworten können. Meist kommen hierbei große Sprachmodelle (Large Language Models, LLMs) wie ChatGPT zum Einsatz, die schnell verfügbar und leicht zu verwenden sind. Doch diese sind gar nicht darauf zugeschnitten, solche Spezialaufgaben zu übernehmen. Sie wurden für eine breite Masse an Aufgaben trainiert. Für spezifische Aufgaben gibt es keine frei verfügbaren Trainingsdaten. In anderen Worten: Große Sprachmodelle sind Generalisten. Darüber hinaus können sie sehr kostspielig sein.

Klein, schnell, spezialisiert: Die Vorteile der Small Language Models

Der Fokus richtet sich daher immer stärker auf die so genannten kleinen Sprachmodelle (Small Language Models, SLMs), die inzwischen sehr leistungsfähig sind und präzise arbeiten. Im Vergleich zu den großen Sprachmodellen benötigen sie viel weniger Rechenkapazität, sodass sie sich auf einem gewöhnlichen Laptop oder sogar auf einem Smartphone oder Tablet installieren lassen. Ihr geringerer Ressourcenbedarf macht sie zudem sehr nachhaltig. Das Training eines SLM nimmt nicht mehr als ein paar Stunden Zeit in Anspruch. Insgesamt sind sie hervorragend geeignet, um spezifische Aufgaben zu übernehmen – beispielsweise, um Fachfragen aus einer bestimmten medizinischen Disziplin zu beantworten.

Neben SLMs zählen auch Multi-Agenten-Systeme zu den Themen der Stunde. Besonders interessant wird es, wenn man beides miteinander kombiniert, doch dazu später mehr. Schauen wir uns erst näher an, wie Agenten arbeiten und warum sie revolutionär sind.

Wie Agenten die Kommunikationsbarriere zwischen Mensch und Maschine überwinden

Sprachmodelle werden heute so trainiert, dass sie als Automatisierungswerkzeuge fungieren können. Die strukturierte Ausgabe der Ergebnisse ermöglicht es ihnen, eigenständig weitere Software zu nutzen. Somit lassen sich Agenten bauen, die jeweils eine andere Aufgabe übernehmen. Sie sind in der Lage, Absichten aus Befehlen zu erschließen, die in natürlicher Sprache formuliert wurden, und sie können die notwendigen Parameter erkennen. Auf dieser Basis entscheiden sie selbstständig, welches Tool aus ihrem Werkzeugkasten das passende ist, und können dieses mit den richtigen Parametern aufrufen. Damit kommen wir zum ersten Mal in der Geschichte der Lösung des Mensch-Maschine-Kommunikationsproblems sehr nahe: Wir können in unserer Sprache mit Maschinen kommunizieren, die uns verstehen, komplexe Antworten geben und selbstständig Roboter bedienen können.

Die autonomen Agenten sind keine Trenderscheinung, sondern eine Revolution. Trotzdem sollten die Erwartungen an die Systeme realistisch bleiben. Sie können nicht selbst denken. Sie sind nicht einfühlsam, und man kann sich nicht auf sie verlassen wie auf einen menschlichen Experten. Ihre Ergebnisse sollten immer von Menschen überprüft werden.

Mit Multi-Agenten-Systemen zu rundum überzeugenden Ergebnissen

Immer häufiger werden heute Multi-Agenten-Systeme eingesetzt, die aus mehreren spezialisierten Agenten bestehen. Diese kommunizieren miteinander, verteilen und bearbeiten Aufgaben, reichen sie weiter, korrigieren gegenseitig die Ergebnisse und schicken sie so oft zurück, bis ein Ergebnis erzeugt wird, das in jeder Hinsicht passt. Unsere Kunden setzen solche Multi-Agenten-Systeme bereits ein, um etwa technische Dokumentationen schreiben oder Software entwickeln zu lassen.

Sehr vereinfacht kann ein kleines Multi-Agenten-System zum Beispiel wie folgt aussehen: 

  1. Ein Agent formuliert die Anforderungen an eine neue Software. 
  2. Ein weiterer Agent schreibt den Code. Dabei spiegelt er dem ersten Agenten, ob ihm alle notwendigen Informationen vorliegen und ob er sie versteht. 
  3. Ein dritter Agent schreibt den Test. 
  4. Die drei Agenten kommunizieren weitgehend eigenständig untereinander und korrigieren sich gegenseitig. Ein weiterer, übergeordneter Agent überprüft das Gesamtergebnis.

Kommen wir nun zurück zu den SLMs, die den Multi-Agenten-Ansatz geradezu perfekt ergänzen: SLMs ermöglichen es, für jeden Agenten ein eigenes spezialisiertes Sprachmodell zu nutzen und das gesamte Netzwerk ressourcenschonend zu betreiben. Statt eines einzigen großen Sprachmodells, eines einzigen großen „Gehirns“, arbeiten also viele spezialisierte „Gehirne“ zusammen. Es leuchtet ein, dass dies schnell zu besseren Ergebnissen führt, weil verschiedene Perspektiven berücksichtigt werden. Zudem lassen sich die SLMs besser kontrollieren und steuern als LLMs, deren Kommunikation schnell aus dem Ruder laufen kann.

Die Entwicklung von Multi-Agenten-Systemen muss dabei immer menschenzentriert sein. Erstens scheitern viele KI-Projekte nicht aus technologischen Gründen oder aufgrund mangelnder Daten, sondern weil sie im Unternehmen nicht richtig eingesetzt werden, da es den Projekten an Alignment und Akzeptanz der Mitarbeitenden und des Managements fehlt. Zweitens sind die Systeme nicht fehlerfrei. Es ist notwendig, dass ein Mensch die Ergebnisse überwacht und für ihre Freigabe verantwortlich ist. Die Agenten haben lediglich eine Assistenzfunktion und können Menschen nur die Vorarbeiten abnehmen.

Automatisierung von Prozessen, die nicht digital und nicht dokumentiert sind

Für Unternehmen, die Prozesse digitalisieren und automatisieren wollen, wird mit den neuen Entwicklungen alles einfacher. Bisher war es notwendig, digitale Prozesse detailliert zu definieren, um sie beispielsweise durch Robot Process Automation (RPA) zu automatisieren. Unternehmen, deren Prozesse noch nicht vollständig digitalisiert und definiert wurden, hatten diese Arbeit noch vor sich. Die Intelligenz der Sprachmodelle, ihre Fähigkeit, natürliche Sprache zu verstehen und zu interpretieren, und die Autonomie von Agenten lassen solche Unternehmen nun aufholen. Agenten können verschiedene Datenformate nutzen, unter anderem auch Kamera und Mikrofon, um auf noch nicht digitalisierte Prozessschritte zu reagieren. Zudem können sie Codes für die Steuerung von Hardware erstellen und somit auch physische Geräte steuern.

Zum Beispiel ist es durch Sprachbefehl möglich, eine Maschine anzuweisen, ein Loch in einer bestimmten Größe in ein Blech zu bohren. Die menschliche Intention, was getan werden muss, und die Parameter Radius und Material erschließt sich der Agent aus der Eingabe. Er sucht in seinem Werkzeugkasten, welche Geräte in der Lage sind, diese Parameter als Eingabe anzunehmen. Er wählt das passende Tool aus und erstellt ein Maschinenskript. Zusätzlich wählt er ein anderes Werkzeug aus, das in der Lage ist, diesen Code an die Maschine zu schicken, die ihn ausführen kann.

Auch wenn die Nutzung der Agenten am Ende leicht ist, erfordert ihre Erstellung spezialisiertes Wissen von Expertinnen und Experten, die nur selten im eigenen Unternehmen zu finden sind. Angesichts des rasanten Fortschreitens der Technologie ist es wenig erstaunlich, dass den meisten Unternehmen die Zeit und die richtigen Ressourcen fehlen, Schritt zu halten. Wenn Sie mehr über SLMs, Multi-Agenten-Systeme und die neuesten Entwicklungen im KI-Bereich erfahren möchten, sprechen Sie mich gerne an.

Über diesen Autor

Nima Samsami, CGI

Nima Samsami

Executive Consultant​

Nima Samsami ist ein Experte in den Bereichen Sprachanalyse (NLP) und Generative KI (GenAI). Aufgrund seiner langjährigen Tätigkeit in Sprachanalyse (NLP) und KI verfügt er über weitreichende, praktische Erfahrungen in der Analyse von komplexen Prozessen sowie in der Strategiefindung und Umsetzung von passenden IT-Technologien und ...