[ad_1]
Avec son nouvel outil de recherche Dataset Search, Google veut faciliter l’accès aux bases de données open source. Une démarche louable mais, pour l’instant, encore très incomplète.
Après Google News, Google Images ou Google Books, Google s’attaque au big data avec le lancement, mercredi 5 septembre, d’un nouveau moteur de recherche baptisé Dataset Search. Destiné en premier lieu aux scientifiques et aux datajournalistes, il indexe les bases de données open source issues de sites publics, d’universités ou d’organisations, comme la Nasa ou le site français data.gouv.fr. On peut ainsi y trouver le séquençage ADN d’une protéine, la collection des photos prises par le robot Mars Curiosity ou les relevés historiques de température de la surface de l’océan. Pour chaque résultat, Google Dataset Search affiche une description détaillée du jeu de données avec le producteur, la licence, le format et un résumé du contenu.
L’objectif de Google est de rendre les données scientifiques « aussi accessibles que les recettes de cuisine, les offres d’emplois… ». Dans un premier temps, Google va surtout répertorier les données sur l’environnement, les sciences sociales et celles issues des services publics. Cette démarche s’inscrit dans une volonté générale de Google de simplifier l’accès aux données scientifiques. En 2004, il avait ainsi lancé Google Scholar, un moteur de recherche inventoriant les publications scientifiques (articles, livres, thèses…).
Des résultats pour l’instant très limités
Mais, pour le moment, le moteur de recherche semble encore très incomplet. En tapant « réchauffement climatique », on obtient à peine une dizaine de résultats, avec, par exemple, les scénarios de température mondiale du gouvernement canadien ou les zones d’enneigement en Haute-Savoie (données publiées par la Direction départementale de Haute-Savoie). Le seul document mentionnant le Giec est un jeu de données… vide.
D’une part, la plupart des producteurs de données indexés sont américains. D’autre part, Dataset Search ne scanne pas le contenu des données comme pour une page Web classique ou un livre, mais s’appuie sur les métadonnées fournies par les producteurs. Pour être accessible, le jeu de données doit donc être indexé selon la méthode standardisée schema.org développée par les principaux moteurs de recherche (Google, Bing, Yahoo! et Yandex). Pour améliorer le référencement, Google encourage donc tous les producteurs de données à se plier à ce standard, ce qui ne devrait pas tarder tant la dominance de Google sur la recherche Internet, y compris scientifique, est forte.
Ce qu’il faut retenir
- Google lance Dataset Search, un moteur de recherche pour les bases de données scientifiques et publiques.
- Celui-ci indexe des contenus publics issus d’institutions, d’universités et d’organismes publics.
Cela vous intéressera aussi
[ad_2]
Yalayolo Magazine
Mars87 Innovative Digital And Social Media Marketing