Le projet FreeYourMetadata… avec OPen Refine
20/05/2013
Ce billet a également été publié dans l'Observatoire des technologies de l'IST - INRA
Signalé par la page Facebook de la communauté AIMS de la FAO, FreeyourMetadata.org est un projet du Multimedia Lab (ELIS — Ghent University / iMinds) et du MaSTIC (Université Libre de Bruxelles).
Ce projet montre des exemples, avec des jeux de données disponibles du Power Museum (Sidney, Australia) et avec l’outil Google Refine comment effectuer trois composantes essentielles du traitement des données.
- Le nettoyage : harmoniser et corriger les données
- La réconciliation : lier les données avec des vocabulaires existants
- La publication des données : rendre les données utilisables d’une manière durable
Pour chacune des trois actions, une procédure par étape (et des vidéos) explique comment utiliser Google Refine. Un jeu de données résultant de chaque étape est disponible.
Pour l’action 2, l’extension de Google Refine DERI RDF Extension for Google Refine* doit être installée. Les données initiales sont ici connectées automatiquement au vocabulaire contrôlé Library of Congress Subject Headings (LCSH). Le site explique aussi comment extraire des entités nommées(*) à partir de données non structurées en utilisant une extension développée par le projet OpenRefine extension.
Enfin, nous attendons avec impatience l’action 3 : Sustainable access.
Les responsables de ce projet donnent aussi des conférences sur ce sujet.. voir le site.
A voir absolument la vidéo d’introduction (en anglais) pour vous convaincre de l’intérêt de promouvoir les Linked data.
(*) La reconnaissance d’entité nommées (extract names entities) consiste à rechercher des objets textuels (c’est-à-dire un mot, ou un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d’organisations ou d’entreprises, noms de lieux, quantités, distances, valeurs, dates, etc. (source wikipédia).
* Le nouveau nom de Google Refine est Open Refine