CastorDoc: Obtenez les outils de découverte de données des géants de la tech en un clic

CastorDoc: Obtenez les outils de découverte de données des géants de la tech en un clic

CastorDoc : obtenez les outils de découverte de données des géants de la tech en un clic

La croissance exponentielle des actifs de données

Les scale-ups sont des entreprises qui se développent bien plus rapidement que les entreprises moyennes grâce à business model scalable et des investissements importants (20 millions d’euros minimum).

Ces sociétés voient donc inévitablement une explosion de la quantité de données qu'elles recueillent et produisent. De ce fait, les ressources internes de données, comme les tables, les tableaux de bord, les rapports et les KPIs, se multiplient. Il devient alors nécessaire de renforcer les effectifs et d'acquérir de nouveaux outils pour exploiter au maximum le potentiel de ces données. Il n'est pas rare que ces scale-ups élargissent leur équipe de spécialistes en données chaque semaine.

D’une part, cette croissance exponentielle de données est une bonne nouvelle puisqu’elle témoigne d’un investissement  dans un écosystème basé sur les données. D’autre part, cette explosion attire un déluge de nouveaux problèmes : comment faire pour trouver les données et leur faire confiance?  Comment rassembler les connaissances des experts de données et les transmettre facilement aux nouveaux employés? Comment s’assurer que tout le monde soit sur la même longueur d’onde lors de l’analyse d’un KPI donné?

Les outils de découverte de données ne sont plus une option, mais une nécessité

Ayant des centaines de milliers d’actifs de données, les géants de la tech ont créé en interne leur propre outil afin de résoudre ce problème. Airbnb a ainsi créé DataPortal, Uber a mis en place Databook, Linkedin a développé DataHub, Spotify a conçu Lexicon et WeWork a lancé Marquez, etc.  Chacune de ces entreprises considère aujourd'hui ces outils de découverte de données comme absolument indispensables.

Cependant, ces outils sont coûteux à développer et à maintenir. Les scale-ups de taille plus modeste n’ont pas les ressources pour les construire. Cela ne veut pas dire pour autant qu’ils n’en ont pas besoin. En tant que data scientist, nous avons personnellement rencontré ce défi. C’est après avoir interviewé plus de 200 experts en données provenant de plus 100 entreprises que nous avons fondé CastorDoc. CastorDoc est un outil collaboratif de découverte automatisée de données. Il est conçu pour être utilisé par n’importe qui au sein de l’entreprise, et il est opérationnel en seulement 6 minutes. ~~~~ Les sections suivantes décrivent les fonctionnalités de notre outil.

CastorDoc, un outil collaboratif et plug-and-play de découverte de données

CastorDoc est un service de découverte de données qui s’est principalement inspiré des produits conçus par les géants de la tech pour résoudre leurs propres défis en matière de données. Nous avons travaillé sur la création d’une plateforme de documentation des données qui se veut  :

  • Une collaboration aussi fluide qu'avec Google Doc (commentaires, historique, modes d'édition/visualisation, gestion des droits d'accès)
  • Une intégration aussi complète que Notion (automatisation des bots, gestion des handles, partage de liens/documents)
  • Une simplicité d'utilisation comparable à une recherche Google (recherche puissante basée sur les définitions et les noms)
  • Une esthétique aussi attrayante qu'Airbnb (UX soignée et des fonctionnalités intuitives).

Ce que nous faisons chez CastorDoc ?

Recherche

La traçabilité est l'une des fonctionnalités les plus délicates de notre produit. En effet, au cours de nos plus de 200 entretiens, nous avons remarqué que les entreprises utilisent de nombreuses méthodes diverses pour traiter leur ETL (scripts pour créer des tables dans la data warehouse). Elles utilisent également de nombreux outils/cadres variés, ce qui ne facilite pas le développement d'une solution de traçabilité entièrement automatisée.

En conséquence, et parce que nous ciblons les petites entreprises, nous avons mis en place pour le moment une fonction de traçabilité manuelle (voir ci-dessus). À l'avenir, nous développerons des intégrations avec dbt ou d'autres fournisseurs de traçabilité comme Datakin pour l’extraire par programmation.

Nous travaillons actuellement sur l'intégration de Neo4j Bloom pour la visualisation de la traçabilité. Voici les premières captures d'écran de l'interface utilisateur (image ci-dessus). Cette interface permettra aux utilisateurs d'explorer les relations entre les tables et de sélectionner uniquement les ressources pertinentes pour leur analyse grâce à la puissante interface des visualisations graphiques.

Contexte et les métadonnées

Une fois que vous avez trouvé ce dont vous aviez besoin, il va falloir 1) Comprendre et 2) Faire confiance aux données en face de vous. C’est pour cela que nous avons construit une page semblable à Wikipédia pour chaque actif de donnée dans l’entreprise.

Informations organisées de manière programmée

  • Table et noms de colonne
  • Type de colonne
  • Dernières mises à jour
  • Propriétaire
  • Utilisateurs réguliers

Information organisée manuellement

  • Description
  • Marqueur
  • Code source de la table

Chat

La fonctionnalité chat est notre petite touche personnelle. Tous les data engineers ou les data scientists expérimentés reçoivent des dizaines de messages privés sur Slack chaque jour demandant la signification d’une colonne, l’objectif d’une table ou la requête pour joindre la table A avec la table B. C’est agaçant, cela prend du temps et ce n’est certainement pas la meilleure façon d’utiliser leur temps précieux.

Nous avons conçu une interface de chat qui résoudrait ce problème en créant une FAQ dynamique qui s'enrichit au fur et à mesure des questions posées. Chaque actif de données dispose de sa propre interface de chat où les utilisateurs peuvent échanger et poser questions lorsqu’elles rencontrent des difficultés. Les questions et réponses sont conservées et mises à disposition de tous  afin que les questions ne soient posées qu’une seule fois.

Traçabilité (à suivre)

La traçabilité est l'une des fonctionnalités les plus délicates de notre produit. En effet, au cours de nos plus de 200 entretiens, nous avons remarqué que les entreprises utilisent de nombreuses méthodes diverses pour traiter leur ETL (scripts pour créer des tables dans la data warehouse). Elles utilisent également de nombreux outils/cadres variés, ce qui ne facilite pas le développement d'une solution de traçabilité entièrement automatisée.

En conséquence, et parce que nous ciblons les petites entreprises, nous avons mis en place pour le moment une fonction de traçabilité manuelle (voir ci-dessus). À l'avenir, nous développerons des intégrations avec dbt ou d'autres fournisseurs de traçabilité comme Datakin pour l’extraire par programmation.

Nous travaillons actuellement sur l'intégration de Neo4j Bloom pour la visualisation de la traçabilité. Voici les premières captures d'écran de l'interface utilisateur (image ci-dessus). Cette interface permettra aux utilisateurs d'explorer les relations entre les tables et de sélectionner uniquement les ressources pertinentes pour leur analyse grâce à la puissante interface des visualisations graphiques.

Historique des versions

Comme nous croyons que la collaboration est essentielle à une stratégie de management réussie, nous avons dû mettre en place un historique des versions. Il suit actuellement toutes les modifications apportées à la plateforme.

Examples de cas d’usage :

  • Si un utilisateur pense que la définition d'une colonne n'est pas correcte, il peut consulter l'historique des versions pour demander à la personne ayant modifié la documentation pourquoi elle l'a écrite ainsi.
  • Si le propriétaire de la table réalise que quelqu'un a modifié les définitions de manière incorrecte, il peut en discuter avec lui et résoudre une mauvaise, et éventuellement coûteuse, utilisation des données.L’historique enregistre également les différentes modifications apportées aux schémas de table dans le passé (ajout/suppression de colonnes, etc.).

Qualité des données (réalisée manuellement)

Pour le moment, nous n'avons pas ajouté de fonctionnalités de qualité des données. Nous examinons la possibilité d'intégrer cette partie avec des spécialistes en data quality tels que Bigeye ou la notation de qualité des données personnalisée réalisée par l'entreprise.

Nous avons ajouté un curseur pour que les utilisateurs puissent sélectionner le niveau de confiance qu'ils peuvent accorder à cette ressource de données. Par exemple, en tant que data analyst, j'ai besoin de créer un ensemble de données temporaire à des fins de recherche en cours. Je ne veux pas que d'autres personnes utilisent ce que je fais tant que je n'ai pas terminé. J'attribuerai donc un score de qualité des données de 0 % à ma table. En revanche, je viens de terminer une grande table de données qui remplacera l'ancienne et qui ne sera plus mise à jour. J'attribuerai alors 100 % à la nouvelle table et baisserai le score de l'ancienne.

Indexation des dashboards (bientôt disponible)

Nous travaillons dur pour créer des connecteurs vers vos outils BI préférés. Comme la plupart des personnes travaillant avec des données que nous avons interrogées utilisaient Tableau et Looker, nous accordons la priorité à ces outils.

Nous prévoyons de référencer les tableaux de bord et les vues afin que l'on puisse documenter leur utilisation et désigner un responsable. En liant les dashboards aux tables utilisées pour les construire, il deviendra encore plus facile de comprendre les données et d'obtenir le contexte complet autour d'elles. Les data engineers pourront repérer quels dashboards pourraient être impactés par un changement de colonne ou une modification d'ETL.

Utilisation (bientôt disponible)

Avez-vous déjà regardé une table et vous êtes-vous demandé : comment les gens interrogent-ils généralement cette table ? Quelle colonne devrais-je utiliser comme timestampt : _TZ ou TIMESTAMP ? Quelles sont les tables fréquemment jointes ?

Eh bien, si la réponse est oui, vous apprécierez cette fonctionnalité. Nous prévoyons d'analyser et de référencer toutes les requêtes effectuées par les personnes travaillant avec les données au sein de l'entreprise pour :

  • Mettre en évidence les tables les plus populaires
  • Mettre en évidence les requêtes et les tables jointes les plus fréquentes
  • Notifier les utilisateurs les plus fréquents après un changement dans le schéma de la table
  • Cartographier les connaissances au sein de l'entreprise pour attribuer automatiquement des experts en actifs de données

Conclusion

Si vous souhaitez essayer CastorDoc, que ce soit par simple intérêt ou pour un véritable business case, nous serions plus qu'heureux de vous aider. Configuration en 6 minutes garantie. Veuillez nous contacter à l'adresse xavier.de-boisredon@hec.edu.

Lorsqu’il s’agit de trouver rapidement quelque chose, il existe deux approches à suivre: soit vous prenez le temps de bien organiser les choses (comme le font les bibliothèques) ou vous décidez d’indexer chacune de vos ressources (comme le fait Google). Le modèle de la bibliothèque fonctionne très bien avec un nombre limité de ressources. Mais il devient rapidement impossible à maintenir lorsque de nombreuses personnes interagissent avec un grand nombre de ressources. Le modèle Google dans ce cas-là marche parfaitement, mais son développement est coûteux.

Nous avons décidé de créer une recherche semblable à celle de Google afin d’aider n’importe qui au sein d’une entreprise, avec ou sans connaissances du fonctionnement des bases de données ou de SQL, à trouver et à comprendre les données.

Contexte et les métadonnées

Une fois que vous avez trouvé ce dont vous aviez besoin, il va falloir 1) Comprendre et 2) Faire confiance aux données en face de vous. C’est pour cela que nous avons construit une page semblable à Wikipédia pour chaque actif de donnée dans l’entreprise.

Informations organisées de manière programmée

  • Table et noms de colonne
  • Type de colonne
  • Dernières mises à jour
  • Propriétaire
  • Utilisateurs réguliers

Information organisée manuellement

  • Description
  • Marqueur
  • Code source de la table

Chat

La fonctionnalité chat est notre petite touche personnelle. Tous les data engineers ou les data scientists expérimentés reçoivent des dizaines de messages privés sur Slack chaque jour demandant la signification d’une colonne, l’objectif d’une table ou la requête pour joindre la table A avec la table B. C’est agaçant, cela prend du temps et ce n’est certainement pas la meilleure façon d’utiliser leur temps précieux.

Nous avons conçu une interface de chat qui résoudrait ce problème en créant une FAQ dynamique qui s'enrichit au fur et à mesure des questions posées. Chaque actif de données dispose de sa propre interface de chat où les utilisateurs  peuvent échanger et poser questions lorsqu’elles rencontrent des difficultés. Les questions et réponses sont conservées et mises à disposition de tous  afin que les questions ne soient posées qu’une seule fois.

Traçabilité (à suivre)

La traçabilité est l'une des fonctionnalités les plus délicates de notre produit. En effet, au cours de nos plus de 200 entretiens, nous avons remarqué que les entreprises utilisent de nombreuses méthodes diverses pour traiter leur ETL (scripts pour créer des tables dans la data warehouse). Elles utilisent également de nombreux outils/cadres variés, ce qui ne facilite pas le développement d'une solution de traçabilité entièrement automatisée.

En conséquence, et parce que nous ciblons les petites entreprises, nous avons mis en place pour le moment une fonction de traçabilité manuelle (voir ci-dessus). À l'avenir, nous développerons des intégrations avec dbt ou d'autres fournisseurs de traçabilité comme Datakin pour l’extraire par programmation.

Nous travaillons actuellement sur l'intégration de Neo4j Bloom pour la visualisation de la traçabilité. Voici les premières captures d'écran de l'interface utilisateur (image ci-dessus). Cette interface permettra aux utilisateurs d'explorer les relations entre les tables et de sélectionner uniquement les ressources pertinentes pour leur analyse grâce à la puissante interface des visualisations graphiques.

Historique des versions

Comme nous croyons que la collaboration est essentielle à une stratégie de management réussie, nous avons dû mettre en place un historique des versions. Il suit actuellement toutes les modifications apportées à la plateforme.

Examples de cas d’usage :

  • Si un utilisateur pense que la définition d'une colonne n'est pas correcte, il peut consulter l'historique des versions pour demander à la personne ayant modifié la documentation pourquoi elle l'a écrite ainsi.
  • Si le propriétaire de la table réalise que quelqu'un a modifié les définitions de manière incorrecte, il peut en discuter avec lui et résoudre une mauvaise, et éventuellement coûteuse, utilisation des données.L’historique enregistre également les différentes modifications apportées aux schémas de table dans le passé (ajout/suppression de colonnes, etc.).

Qualité des données (réalisée manuellement)

Pour le moment, nous n'avons pas ajouté de fonctionnalités de qualité des données. Nous examinons la possibilité d'intégrer cette partie avec des spécialistes en data quality tels que Bigeye ou la notation de qualité des données personnalisée réalisée par l'entreprise.

Nous avons ajouté un curseur pour que les utilisateurs puissent sélectionner le niveau de confiance qu'ils peuvent accorder à cette ressource de données. Par exemple, en tant que data analyst, j'ai besoin de créer un ensemble de données temporaire à des fins de recherche en cours. Je ne veux pas que d'autres personnes utilisent ce que je fais tant que je n'ai pas terminé. J'attribuerai donc un score de qualité des données de 0 % à ma table. En revanche, je viens de terminer une grande table de données qui remplacera l'ancienne et qui ne sera plus mise à jour. J'attribuerai alors 100 % à la nouvelle table et baisserai le score de l'ancienne.

Indexation des dashboards (bientôt disponible)

Nous travaillons dur pour créer des connecteurs vers vos outils BI préférés. Comme la plupart des personnes travaillant avec des données que nous avons interrogées utilisaient Tableau et Looker, nous accordons la priorité à ces outils.

Nous prévoyons de référencer les tableaux de bord et les vues afin que l'on puisse documenter leur utilisation et désigner un responsable. En liant les dashboards aux tables utilisées pour les construire, il deviendra encore plus facile de comprendre les données et d'obtenir le contexte complet autour d'elles. Les data engineers pourront repérer quels dashboards pourraient être impactés par un changement de colonne ou une modification d'ETL.

Utilisation (bientôt disponible)

Avez-vous déjà regardé une table et vous êtes-vous demandé : comment les gens interrogent-ils généralement cette table ? Quelle colonne devrais-je utiliser comme timestampt : _TZ ou TIMESTAMP ? Quelles sont les tables fréquemment jointes ?

Eh bien, si la réponse est oui, vous apprécierez cette fonctionnalité. Nous prévoyons d'analyser et de référencer toutes les requêtes effectuées par les personnes travaillant avec les données au sein de l'entreprise pour :

  • Mettre en évidence les tables les plus populaires
  • Mettre en évidence les requêtes et les tables jointes les plus fréquentes
  • Notifier les utilisateurs les plus fréquents après un changement dans le schéma de la table
  • Cartographier les connaissances au sein de l'entreprise pour attribuer automatiquement des experts en actifs de données

Conclusion

Si vous souhaitez essayer CastorDoc, que ce soit par simple intérêt ou pour un véritable business case, nous serions plus qu'heureux de vous aider. Configuration en 6 minutes garantie. Veuillez nous contacter à l'adresse xavier.de-boisredon@hec.edu.

S'inscrire à la Newsletter

À propos de nous

Nous écrivons sur tous les processus impliqués dans l'exploitation des actifs de données : de ladata stack moderne à la composition des équipes data, en passant par la gouvernance des données. Notre blog couvre les aspects techniques et moins techniques de la création de valeur tangible à partir des données.

Chez CastorDoc, nous développons un outil de documentation des données pour la génération Notion, Figma, Slack.

Ou, pour les adeptes de Fivetran, Looker, Snowflake et DBT, une solution axée sur les données. Nous avons conçu notre logiciel de catalogue pour qu'il soit facile à utiliser, plaisant et collaboratif.

Envie de le découvrir ? Contactez-nous et nous vous ferons une démonstration.

New Release
Share

Get in Touch to Learn More

See Why Users Love CastorDoc
Fantastic tool for data discovery and documentation

“[I like] The easy to use interface and the speed of finding the relevant assets that you're looking for in your database. I also really enjoy the score given to each table, [which] lets you prioritize the results of your queries by how often certain data is used.” - Michal P., Head of Data