Google a lancé une version beta de sa solution Dataset Search en septembre 2018. Cette solution permet de rechercher des jeux de données. Deux ans plus tard, la version officielle est enfin disponible... avec plus de 25 millions d'ensemble des données disponibles !
Dataset Search, moteur de recherche de bases de données open source
Selon le magazine The Verge, Google a officiellement déployé la version officielle de Dataset Search. En effet, en à peine deux ans de test, la solution a séduit des centaines de milliers d’utilisateurs.
Il faut dire que grâce à Dataset Search, vous avez la possibilité de trouver de très nombreuses sources de données open source. Vous pourrez trouver ces données à différents formats, comme des fichiers .CSV par exemple. L’ensemble de ces données sont accessibles gratuitement, c’est là un grand avantage.
Cela dit, j’ai fait quelques essais, et toutes les données ne sont pas encore référencées. Reste à voir si ce catalogue est mis à jour régulièrement.
Promotion des meilleurs pratiques grâce à Dataset Search
D’autre part, l’ambition de Google avec Dataset Search est de créer un écosystème de partage de données afin d’inciter les éditeurs à suivre les bonnes pratiques, en matière de stockage de ces données et de publication.
En effet, l’aspect open source de Dataset Search impose aux fournisseurs de jeux de données de respecter des critères. Par exemple, ils doivent documenter leur données et donner une description complète du set de données. Il est également possible d’ajouter des mots clefs, des citations, différentes dates de mise à jour, le format de téléchargement, etc.
Promouvoir les meilleurs pratiques est un excellent moyen de démocratiser l’accès aux données. C’est pourquoi Dataset Search est très utilisé par les institutions (universités, gouvernements, laboratoires). Néanmoins, de nombreux métiers pourraient bénéficier d’un accès à toutes ces connaissances : journalistes, marketeurs, politiques, etc.
—
Photo by Christina @ wocintechchat.com on Unsplash