Le coût caché des extractions complètes de Salesforce
Avez-vous déjà tenté d’extraire des données Salesforce et de les garder à jour à partir d’une plateforme d’analyse? Si oui, vous êtes déjà familier avec l’enjeu que cela représente. Les données Salesforces évoluent constamment, les équipes des fonctions d’affaires comptent sur des tableaux de bord régulièrement actualisés et les ingénieurs paient le prix fort de l’extraction, c’est-à-dire d’interroger et d’extraire de grands volumes de données inchangées.
L’extraction intégrale de données est onéreuse, lente et inutile, surtout lorsque seule une petite partie des dossiers a changé.
Pour y remédier, il est préférable d’utiliser la capture des changements de données. En pratique, la plupart des équipes d’analyse cherchent avant tout à absorber les données modifiées depuis la dernière consultation, grâce à un curseur ou à un tatouage numérique.
Et c’est exactement grâce à cela que Lakeflow Connect de Databricks se distingue.
La solution Lakeflow Connect fournit une fonctionnalité de capture des changements de données prête à l’emploi, conçue spécialement pour le lac de données. Plus qu’un simple pipeline de copier-coller; l’ingestion incrémentale de données constitue une fonctionnalité de première classe. Elle détecte automatiquement les modifications de données grâce à des champs de type curseur ou des tatouages numériques dans Salesforce, sélectionne la meilleure option et permet une ingestion incrémentale et planifiée pour optimiser la mise à jour des analyses.
Lakeflow Connect fait office de méthode simplifiée de capture des changements de données en activant automatiquement le flux de changements de données de Delta dans tous les tableaux cibles. C’est la différence entre la collecte de données Salesforce et la capacité à créer des tables argent et or alimentées de manière incrémentale, et ce, sans avoir à relancer d’analyse complète.
Grâce au flux de changement de données, les équipes en aval peuvent accéder aux insertions, aux mises à jour et aux suppressions par ligne, sans avoir à réanalyser l’ensemble des tables. Les suppressions réversibles sont intégrées lors des prochaines synchronisations tandis que les suppressions permanentes, y compris les rares cas où les données sont définitivement supprimées de la corbeille, peuvent nécessiter un rafraîchissement complet. En ce qui concerne les champs de formule particulièrement complexes (qui ne déclenchent pas de mise à jour du curseur), Lakeflow bascule par défaut en mode capture ou propose une fonctionnalité incrémentale en version bêta pour éviter toute dérive des données qui passerait inaperçue.
Lakeflow devient alors bien plus qu’un simple connecteur. Ses pipelines d’ingestion délégués sont pris en charge par Lakeflow Spark Declarative Pipelines (anciennement Delta Live Tables), ce qui fournit aux ingénieurs une visibilité et un contrôle opérationnels réels, plutôt que la simple capacité de déplacer des données.
- Une interface utilisateur visuelle et opérationnelle des pipelines qui permet de suivre les exécutions, les graphes acycliques dirigés et l’état des ensembles de données directement dans Databricks
- Des contrôles intégrés de qualité des données, avec des indicateurs affichés dans l’interface utilisateur, afin que la qualité ne soit pas secondaire
- Une expérience dédiée et intégrée de la qualité des données qui facilite la définition, le suivi et l’application des seuils, sans recourir à des outils externes
5 grandes raisons qui motivent les parties prenantes à choisir Lakeflow Connect
Lorsqu’ils évaluent les fonctionnalités d’ingestion de Salesforce, les parties prenantes tendent à privilégier Lakeflow Connect pour cinq raisons clés :
- Mise en œuvre sans code
Permet l’ingestion de données Salesforce sans codage, ce qui évite de développer et de maintenir des intégrations complexes d’interface de programmation d’applications.
- Mises à niveau progressives et prêtes à l’emploi
Par défaut, l’ingestion incrémentale s’appuie sur un curseur, ce qui permet d’éviter de concevoir et de gérer manuellement la logique incrémentale.
- Réduction des répercussions sur les activités
Une exécution sans serveur évite d’avoir à gérer des grappes d’ingestion, à en mettre en place ou à résoudre des problèmes connexes.
- Architecture incrémentale de bout en bout
Grâce à l’activation automatique du flux de changements de données de Delta, les transformations en aval des tables argent et or passent en mode incrémental par défaut.
- Gouvernance intégrée du catalogue Unity
Le catalogue Unity gère l’ensemble des connexions et des pipelines pour favoriser instantanément un contrôle d’accès, un audit et une réutilisation entre les pipelines.
Facteurs expliquant les limites des outils d’extraction, de transformation et de chargement
La majorité des outils traditionnels d’extraction, de transformation et de chargement extraient bien les données Salesforce, mais s’arrêtent généralement à l’étape de copie. Le fardeau de la mise en œuvre de la capture des changements de données incombe tout de même aux équipes d’ingénierie.
Voici quelques exemples de ce que cela implique.
- Effectuer le suivi des tatouages numériques et des états
- Mettre en place des mécanismes de reprise et de récupération
- Mettre en œuvre des fonctionnalités de fusion, d’insertion et de suppression
De plus, des cas particuliers, comme les champs de formule ou le délai de suppression, peuvent donner l’impression que les pipelines fonctionnent correctement, alors que les données se désynchronisent sans être détectées.
Le verdict
Si votre objectif est de garder les données Salesforce à jour dans le lac de données sans développer une fonctionnalité de capture des changements de données et une logique à partir de zéro, Lakeflow Connect de Databricks est la solution à privilégier.
Elle ne se contente pas de déplacer les données : elle fait du changement un résultat de premier plan. Les données chargées de manière incrémentale s’affichent dans des tables Delta optimisées pour un traitement incrémental en aval grâce à la capture des changements de données de Delta, pendant que le catalogue Unity s’occupe de la gouvernance et du contrôle des accès à même la solution.
Lakeflow Connect est le choix tout naturel lorsque Databricks est votre destination et que vous cherchez le chemin le plus direct entre les changements Salesforce et les tables incrémentales d’un lac de données.
Les autres outils d’extraction, de transformation et de chargement déplacent les données. La conception incrémentale de Lakeflow Connect favorise l’évolutivité, la rapidité et la gouvernance.