Les entreprises déploient rapidement de grands modèles de langage, mais leur mise à l’échelle fiable reste un défi majeur. Les évaluations traditionnelles sont souvent manuelles, fragmentées et trop lentes pour répondre aux exigences de production. Un grand fournisseur de télécommunications aux États-Unis a rencontré ce problème avec le déploiement de plus de 200 modèles sur les serveurs Triton, sans s’appuyer sur un cadre commun. Le résultat? Goulets d’étranglement, normes de qualité inégales et écarts entre les tests hors ligne et les performances réelles.

Pour y remédier, CGI a mis au point un cadre d’évaluation des grands modèles de langage pour opérations qui repose sur la plateforme d’intelligence des données Databricks et se sert de Mosaic AI et de MLflow. Notre solution s’appuie sur un grand modèle de langage pour en évaluer un autre (méthode « LLM-as-a-Judge ») et ainsi automatiser et normaliser les évaluations tout au long du cycle de vie du modèle, ce qui assure la cohérence, la qualité de même que la gouvernance à grande échelle.

Mais avant tout, le cadre prend en charge les modèles qui ont été entraînés et qui sont utilisés en dehors de l’environnement Databricks, y compris ceux hébergés sur des plateformes comme Light LLM et JFrog, au moyen de l’intégration d’URI du modèle MLflow ainsi que d’un suivi externe des artefacts.

Parmi les principales innovations, on peut citer :

  • Architecture d’évaluation à plusieurs niveaux – Tests de prédéploiement hors ligne, surveillance de la production en ligne et supervision humaine.
  • Boucles de rétroaction continue – Les perspectives issues de la production sont réutilisées dans l’évaluation hors ligne, ce qui améliore la précision du modèle et la calibration des juges au fil du temps.
  • Ensembles d’actifs pour déploiement – Mise en place d’environnements d’évaluation atomiques, versionnés et reproductibles pour les phases de test, de préproduction et de production.
  • Intégration du catalogue Unity – Gouvernance centralisée soutenue par une gamme complète de modèles, de données et d’artefacts, ce qui assure ainsi la traçabilité, la conformité ainsi qu’une collaboration sécurisée entre les équipes.

Cette approche permet à la fois de réduire les efforts manuels et d’étendre la couverture et l’exactitude. L’évaluation se transforme alors en un système autoévolutif et prêt à l’emploi. En unifiant l’évaluation du modèle sur Databricks, cet important fournisseur américain de télécommunications peut désormais déployer avec assurance la production de grands modèles de langage en se basant sur des normes cohérentes, une surveillance en temps réel et une gestion proactive des risques.

L’accélérateur de grands modèles de langage pour opérations de CGI témoigne du processus utilisé par Databricks pour favoriser une adoption fiable, évolutive et prête pour l’avenir de la part des entreprises clientes.