Et si la solution de catalogue de donnée était l’outil manquant à l'équipe “data” de votre entreprise pour résoudre les problèmes posés par l’abondance, la qualité et la complexité des données de votre business.
Voici une petite histoire :
Deux data scientists rentrent dans une bibliothèque après une longue journée de travail.
Le DS#1 s’adresse à la libraire : “Pourriez-vous me donner des informations sur “The Elements of Statistical Learning : Data Mining, Inference, and Prediction” ?”
DS#2 à DS#1 : “Ils ne le trouveront jamais ... t’as vu le nombre de livres qu’ils ont”
Pendant ce temps, la libraire, qui se cache derrière son tableau, recherche le nom du livre sur son logiciel avant de répondre :
“ Trouvé ! Voilà la fiche récapitulative avec toutes les informations sur l’auteur, son contexte d’écriture, les différentes mentions du livre en ligne etc. Oh ! et il y a plusieurs commentaires qui expliquent qu’il est parfait pour préparer les entretiens de conseils chez BCG Gamma. “
A ce moment, DS#1 dit à DS#2 : “C’est vraiment pratique ce système, pourquoi est-ce qu'on a pas de solutions pour faire des recherches sur nos bases de données ? Un peu comme sur Google”
Et si c’était possible ? Avec un catalogue de données nouvelle génération, trouvez et partagez la donnée dont vous avez besoin avec les informations qui permettent de la comprendre (métadonnées, documentation, contexte, utilisateurs fréquents etc) pour en tirer le maximum en un instant.
Mais d’abord, qu’est-ce qu’un “data catalog” ?
Comme nous l’avons vu dans l’exemple ci-dessus, le catalogue de données est une solution technique qui permet de référencer l’ensemble des bases de données de l’entreprise. C’est un espace privilégié pour organiser, documenter et partager la donnée simplement. En quelques sorte, il s'agit de Google pour les données de votre entreprise.
Les "data catalogs" permettent aux équipes métier de faire une recherche sur les données de l'entreprise sans avoir de connaissances approfondies des sources de data, de la gouvernance, des API pour se connecter aux infrastructures de données.
Les catalogues historiques comme Alation, Collibra, Oracle ou Zeenea permettent de documenter la donnée de façon statique et proposent une bonne vue métier des analyses, outils et intégrations. Ils permettent la mise en place d'un bon data management, une bonne organisation des éléments et infrastructures.
En revanche, ils n'ont que très peu de fonctionnalités de collaboration entre les équipes techniques et métiers. Ils sont optimisés pour s'intégrer facilement aux bases de données on-premise.
Selon Gartner, un cabinet de recherche spécialisé :
"A data catalog creates and maintains an inventory of data assets through the discovery, description and organization of distributed datasets. The data catalog provides context to enable data stewards, data/business analysts, data engineers, data scientists and other line of business (LOB) data consumers to find and understand relevant datasets for the purpose of extracting business value."
Mais de façon plus spécifique, Gartner explique que :
"Modern machine-learning-augmented data catalogs automate various tedious tasks involved in data cataloging, including metadata discovery, ingestion, translation, enrichment and the creation of semantic relationships between metadata. These next-generation data catalogs can therefore propel enterprise metadata management projects by allowing business users to participate in understanding, enriching and using metadata to inform and further their data and analytics initiatives."
Les catalogues de données modernes vous permettent de gérer votre métadonnée (information sur la donnée) de telle sorte qu’il est facile de partager et accéder à des bases de données.
Les meilleurs fonctionnalités permettent de :
Pourquoi la nouvelle génération de data catalog est sur le cloud ?
Le cloud permet de faciliter les intégrations et l'utilisation du data catalog. On peut s'y brancher plus facilement et extraire les métadonnées du clients. Le cloud permet d'optimiser la gestion du service à distance sans avoir besoin de se déployer chez le client. C'est une stratégie de plus en plus présente chez les outils data. Certains pensent que cela impacte la sécurité des données et ressources hébergées par le service. Or le cloud est souvent bien plus protégé qu'un déploiement sur place à condition que le fournisseur soit digne de confiance et aie mis en place les mesures de sécurité en vigueur.
Pour accéder à la métadonnée (information sur la donnée), les nouveaux data catalogs proposent des services API. Cela permet d'accéder à l'information de façon programmatique. Il existe solutions concurrentes pour maintenir la documentation des ensembles de données par API comme Google Data Catalog, mais il ne permet pas une découverte aisée pour les utilisateurs métiers. Les solutions de data catalog efficace repose sur une stratégie d'utilisation simple qui permette un management et une utilisation des ensembles de données efficace avec un niveau d'intégration suffisant.
La gestion de sources de données (Snowflake, BigQuery, Tableau, Looker etc) est facilitée avec un cloud data catalog. Car l'infrastructure des services API du client est plus facilement accessible. La découverte des ressources, des informations et des métadonnées est alors immédiate une fois branchée via l'API cloud de l'entreprise. Ce système de gestion par API permet une integration en quelques clics.
La métadonnée sur les tables et les colonnes c'est une chose. Maintenant, que faire si on a des dashboards et outils de visualisation ?
On constate de que plus en plus de clients veulent faire des analyses et recherches sur les dashboards (Tableau, Looker, Metabase) et non pas uniquement sur la data warehouse. Ces produits et services techniques de visualisations sont populaires et démocratiques. Ils sont utilisés par les équipes métiers, dans de nombreuses organisations. Ils font partie d'une stratégie plus large de démocratisation de l'accès à la données par une découverte simplifiée, sécurisée, moins technique. L'analyse de données est alors aisée.
Castor est un outil et une solution simple, pas technique, qui permet aux utilisateurs de conduire des analyses sur la donnée en sécurité dans toute l'organisation en accédant à la définition de chaque produits du catalog. Les ensembles de données référencés par Castor permettent une découverte, utilisation, documentation et analyse de la donnée sur tout type d'infrastructure grâce aux nombreuses intégrations.
Dites adieu aux “data dictionary” sur Excel, incomplets, pas à jour, non collaboratifs et donc inutiles qui viennent polluer votre espace de travail et vos analyses ...