Comment Lyft, Airbnb, Uber et Netflix réinventent le Data Management et la Data Discovery ?

Updated: Jul 22

Ce n’est plus un secret pour personne, les données occupent aujourd’hui l'entièreté de l’espace-temps business: les entreprises en collectent partout et tout-le-temps. Chaque clic, chaque livraison, chaque interaction est scrutée, enregistrée, et stockée pour être analysée et valorisée. Le potentiel de l’exploitation des données est immense et les plus grandes entreprises Tech n’ont pas hésité à massivement investir pour en récolter le maximum autour de leurs activités.


Paradoxalement, devant la quantité et la complexité de ces données, il devient souvent impossible de s’y retrouver. Comment appréhender les données collectées sur les 7 millions d’annonces postées sur Airbnb ou celles sur les 14 millions de courses réalisées par Uber chaque jour ?


Chaque jour, les équipes data se posent des questions basiques :

  • Quelles sont les données récoltées ?

  • Dans quel format sont-elles accessibles ?

  • Sont-elles exhaustives ou ont-elles déjà été filtrées sur certaines variables ?

  • A quelle fréquence sont elle mises-à-jour ?

Et leur réponse est indispensable à la fiabilité et la pertinence de leurs analyses. Lorsque l’on connaît l’importance de celles-ci dans les business models des Facebook, Uber, LinkedIn, Lyft, Airbnb et autres, cette métadonnée (données sur les données) est tout simplement fondamentale. Ces grandes entreprises Tech ont donc rapidement développé en interne des solutions de data catalog afin de référencer le plus efficacement possible tout ce contexte autour de leurs données. Ces outils sont devenus la source de vérité pour toutes leurs équipes et leur usage s’est démocratisé produisant de plus en plus de valeur.


A quoi ressemble ces data catalogs ?

Un data catalog est l’outil qui centralise la métadonnée d’une entreprise. Il permet de naviguer entre les tables de donnée et d’accéder aux informations essentielles à leur compréhension. La description de leurs colonnes, leur contexte de création (requête SQL, table mère, calculs effectués pour créer les colonnes …) ainsi que leurs responsables y sont répertoriés. Le tout est articulé dans une interface intuitive et optimisée.


Lyft - Amundsen:

Nommé en référence l’explorateur Norvégien Ronald Amundsen, les ingénieurs de Lyft ont construit cette plateforme autour d’un moteur de recherche qui permet de retrouver rapidement une table et ses métadonnées. L’idée est de pouvoir découvrir des nouvelles sources de données pour faciliter et améliorer le travail des data analysts, scientists et engineers.


Quelques fonctionnalités comme la qualité d’une table évaluée par un score, les utilisateurs les plus fréquents et la possibilité de voir quelques lignes de la donnée.


Amundsen a connu un énorme succès chez Lyft avec un taux de pénétration de plus de 80% chez les data analysts, plus de 70% chez les data scientists. Plus étonnant encore, ce taux est de 22% chez les product managers, ce qui démontre à quel point cet outil conduit à une démocratisation de la donnée dans cette entreprise. Les personnes sans bagage technique peuvent maintenant se renseigner et comprendre la donnée sans avoir à demander directement aux ingénieurs.


Airbnb - Data Portal

L’exemple d’Airbnb est très intéressant car cette entreprise a su développer une culture data extrêmement forte grâce à leur outil Data Portal. Ce Data Catalog permet aux plus de 3,500 employés d’accéder aux métadonnées de plus de 200k tables de données. Il a été désigné dans cet optique de démocratiser la data dans toutes les équipes d’Airbnb. Outre les caractéristiques classiques de recherche et de documentation de la donnée, Data Portal a aussi une composante très fortement sociale: il est possible de ‘suivre’ les influenceurs data de l’entreprise. Tel un réseau social, chaque employé a un profile qui répertorie les tables qu’il/elle utilise le plus, ses tables préférées (likées), les équipes auxquelles il/elle appartient… ces profils sont consultables par tous les autres utilisateurs de cette plateforme et contribuent à l’excellent taux d’utilisation de la part des employés.




DataHub de Linkedin

La version du Data Catalog made in LinkedIn s’appelle DataHub. Elle comporte globalement les mêmes fonctionnalités qu’Amundsen. Cependant, une fonctionnalité intéressante pour les utilisateurs les plus avancés est la recherche avec des opérateurs (OR, AND …) ou avec des regex.


En production depuis début 2019, cet outil est utilisé par plus de 1,500 employés chaque semaine. Il référence plus d’un million de jeux de données, 23 systèmes de stockage de données, 25k metrics, et surtout il est accessible par la totalité des employés de LinkedIn qui le complètent et l’améliorent tous les jours.


Netflix - Metacat

Le Data Catalog de Netflix, Metacat, a d’abord été développé pour pouvoir grandir tout en assurant la qualité de la donnée toujours plus volumineuse. La fiabilité des 60 petabytes (60 millions de milliards de bytes) de donnée stockés dans leur data warehouse est un élément indispensable au fonctionnement de leur produit. Netflix a donc développé en interne une suite d’outils (Metacat, Quinto, Jumpstarter et WAP) pour continuer d’assurer la fiabilité et la qualité de ces données tout en leur permettant de grandir à une vitesse ahurissante.

Ainsi, Metacat n’est pas une solution de démocratisation de la culture data mais plutôt un outils spécifique aux équipes data pour augmenter la pertinence et l’impact de leur projets.



castor_logo_1.png

Your data has never been so clear and friendly

  • Medium
  • LinkedIn
  • Twitter

© 2020 Castor. All registered.

LegalCareers