Qu’est-ce qu’un “data catalog” ?

Updated: Feb 5



Et si le data catalog était l’outil manquant à votre équipe “data” pour résoudre les problèmes posés par l’abondance et la complexité des données de votre business.


Voici une petite histoire :


Deux data scientists rentrent dans une bibliothèque après une longue journée de travail.


Le DS#1 s’adresse à la libraire : “Pourriez-vous me donner un exemplaire de “The Elements of Statistical Learning : Data Mining, Inference, and Prediction” ?”


DS#2 à DS#1 : “Ils ne le trouveront jamais ... t’as vu le nombre de livres qu’ils ont”


Pendant ce temps, la libraire tape le nom du livre sur son logiciel avant de répondre :

“ Trouvé ! Voilà la fiche récapitulative avec l’auteur, son contexte d’écriture, les différentes mentions du livre en ligne etc. Oh ! et il y a plusieurs commentaires qui expliquent qu’il est parfait pour préparer les entretiens de conseils chez BCG Gamma. “


A ce moment, DS#1 dit à DS#2 : “C’est vraiment pratique ce système, pourquoi ce n’est pas aussi facile avec nos bases de données ? ”


Et si c’était possible ? Avec un ”data catalog” nouvelle génération, trouvez et partagez la donnée dont vous avez besoin avec les clefs qui permettent de la comprendre (documentation, contexte, utilisateurs fréquents etc) pour en tirer le maximum en un instant.


Mais d’abord, qu’est-ce qu’un “data catalog” ?


Comme nous l’avons vu dans l’exemple ci-dessus, le “data catalog” permet de référencer l’ensemble des bases de données de l’entreprise. C’est un espace privilégié pour organiser, documenter et partager la donnée simplement.


Selon Gartner, un cabinet de recherche spécialisé :


"A data catalog creates and maintains an inventory of data assets through the discovery, description and organization of distributed datasets. The data catalog provides context to enable data stewards, data/business analysts, data engineers, data scientists and other line of business (LOB) data consumers to find and understand relevant datasets for the purpose of extracting business value."

Mais de façon plus spécifique, Gartner explique que :


"Modern machine-learning-augmented data catalogs automate various tedious tasks involved in data cataloging, including metadata discovery, ingestion, translation, enrichment and the creation of semantic relationships between metadata. These next-generation data catalogs can therefore propel enterprise metadata management projects by allowing business users to participate in understanding, enriching and using metadata to inform and further their data and analytics initiatives."

Les “data catalogs” modernes vous permettent de gérer votre métadonnée (information sur la donnée) de telle sorte qu’il est facile de partager et accéder à des bases de données. Les meilleurs permettent de :


  • Rassembler l’ensemble de vos bases de données et leur métadonnées (structure, qualité, définition, cas d’usage, date de création etc)


  • Chercher une information à travers l’ensemble des bases de données de l’entreprise (et permettre la recherche sur les métadonnées)


  • Accéder à la métadonnée en parallèle de la donnée sur vos outils préférés (Jupiter, Excel, csv, terminal etc)


  • Comprendre le “lineage” (arbre généalogique) de la donnée, i.e. d’où vient une base de données, ses tableaux et ses vues


  • Retrouver les utilisateurs fréquents, mais aussi les créateurs, pour faciliter la communication


  • Assurer la maintenance par de l’automatisation et un système de notification avancé en cas de modifications pour tenir les utilisateurs au courant des changements


  • Protéger la donnée grâce à un système de “versioning” qui permet à chaque équipe de remonter dans le temps et résoudre les problèmes liés aux croissances exponentielles et renouvellement de la masse salariale


  • Simplifier les tâches de gouvernance et de mise en conformité grâce à un “data mapping” en temps réel des données dans l’entreprise


Dites adieu aux “data dictionary” sur Excel, incomplets, pas à jour, non collaboratifs et donc inutiles qui viennent polluer votre espace de travail et vos analyses ...


castor_logo_1.png

Your data has never been so clear and friendly

  • Medium
  • LinkedIn
  • Twitter

© 2020 Castor. All registered.

LegalCareers