Comment démarrer
Qu’entend-on par Linked data ou Données liées?
La principale différence entre le Web hypertexte et le Web sémantique c’est que le premier relie des pages ou des documents en langage html tandis que le second va au-delà du document concept et lie des données structurées. Dans ce contexte, le Web des données (données liées) est l’ensemble des pratiques optimales pour publier et connecter des données structurées sur le Web. Son principal objectif est de libérer les données des silos dans lesquels elles sont enfermées par des schémas de base de données exclusives, en appliquant quatre règles, définies par Tim Berners-Lee en 2006:
- utiliser des adresses URI (identificateurs uniformes de ressources) pour identifier les ressources uniquement;
- utiliser des adresses URI http afin qu’il soit possible d’accéder à l’information sur la ressource;
- fournir des informations sur les ressources en utilisant des formats standards comme XML/RDF;
- ajouter des liens à d’autres ressources, des URI, qui améliorent les liaisons entre les différentes ressources diffusées sur le Web.
Ces principes sont définis comme des règles, mais sont plutôt des recommandations ou des pratiques optimales pour le développement du Web sémantique. Il est possible de publier des données en n’appliquant que les trois premiers principes, mais sans le quatrième les données sont moins visibles et donc moins réutilisables.
Qu’entend-on par RDF?
RDF, ou encore Resource Description Framework, est un modèle de graphe utilisé pour décrire les métadonnées sur le Web qui a été développé par le W3C. Il repose sur l’idée de déclarer les ressources en appliquant l’expression sujet-prédicat-objet. Cette expression est connue sous le nom de triplet RDF. Un triplet RDF contient trois éléments, ayant chacun sa propre adresse URI:
- Le sujet, une URI, une personne ou un nœud, est l’entité à laquelle il est fait référence;
- Le prédicat est la propriété ou la relation que l’on veut établir à propos du sujet;
- L’objet est la valeur de la propriété ou une autre ressource qui établit la relation.
En utilisant des URI pour lier les données, le Web sémantique devient une sorte de vaste base de données qui permet aux personnes ou aux machines d’explorer l’information référencée et interconnectée. Le Web fondé sur les données ouvertes est une formidable avancée dans le domaine de la syndication de contenu, qui utilise des sources de données externes pour créer de nouveaux services.
Qu’entend-on par données ouvertes et liée?
Les données ouvertes et liées, en anglais Linked Open Data (LOD), sont des données liées diffusées sous licence générale ouverte permettant de les réutiliser gratuitement. En 2010, Tim Berners-Lee a défini un programme de classification 5 étoiles (5-star rating scheme) afin d’inciter les fournisseurs de données à fournir des données sous licences ouvertes. Le programme utilise des étoiles d’or pour évaluer la disponibilité des données liées en tant que données ouvertes et liées.
Comment faciliter l’établissement de liens entre les ressources?
Le simple fait de transformer des schémas de base de données en RDF ne suffit pas pour créer des données liées et il est probable que la note de ces données ne dépassera pas 4 étoiles dans la classification 5-star rating scheme. Des liens automatiques doivent pouvoir être créés entre les triplestores RDF sur le Web, sinon des silos RDF risquent de se créer. Le mieux pour faciliter la création automatique de liens entre les ensembles de données est d’utiliser des vocabulaires normalisés, notamment pour décrire les éléments de données/métadonnées et pour indiquer les valeurs.
Afin d’aider les fournisseurs de données à sélectionner les stratégies d’encodage appropriées pour la production de données activées LOD, l’équipe d’AIMS prévoit de formuler une série de recommandations qui englobent tout un éventail de types de ressources, notamment les stratégies d’encodage permettant de produire des données bibliographiques activées LOD et d’encoder des vocabulaires de valeur utilisés pour décrire les agents, les emplacements et les sujets dans les données bibliographiques.