Début 2017 le portail Biblissima donnera un accès unifié à 50 bases de données via une application web sémantique, dont un premier prototype a été réalisé au printemps 2015 autour de deux bases iconographiques “Initiale” et “Mandragore”. Il est aujourd’hui librement accessible à cette adresse : http://nossl.demo.logilab.fr/biblissima/.
L’information est structurée selon les caractéristiques complexes d’un objet physique de type manuscrit ou incunable, jusqu’au niveau de la page (description d’une enluminure). De plus, un livre fait partie d’une collection actuelle et a fait partie d’une ou de plusieurs collections anciennes. Ensuite il contient un ou plusieurs textes et plusieurs personnes sont intervenues lors de sa production. Pour créer un pont sémantique entre les différentes ressources à intégrer dans le portail Biblissima, nous avons aligné différentes entités présentes dans les bases d’origine (les intervenants, les établissements de conservation, les textes, les lieux d’origine et de conservation ainsi que des descripteurs géographiques reliés à des enluminures) vers des référentiels externes comme data.bnf.fr, VIAF et GeoNames. Grâce aux alignements des lieux, un thésaurus des noms géographiques est en développement et en partie intégré dans les pages sur les lieux. L’utilisation des principes du web sémantique permet d’enrichir les données des bases d’origine (intégration des coordonnées géographiques, hiérarchisation de noms géographiques dans le thésaurus, etc.)
Le RDF exposé via le prototype rend compte de la complexité des objets traités et réutilise les vocabulaires CIDOC CRM, FRBRoo et SKOS. La structure physique du livre se retrouve également dans l’affichage de l’objet numérisé via le visualiseur open source Mirador, développé à Stanford University Library. Selon le modèle de données Shared Canvas, un sc:canvas est un espace abstrait qui représente la page ou le feuillet numérisé, un sc:range correspond à la numérisation d’une unité intellectuelle de l’objet et une sc:sequence est l’ordre des images de la numérisation intégrale. Enfin, l’enluminure se trouve sur une zone spécifique du canvas . Biblissima a donc conçu une transformation des données, récupérées de Gallica et d’un entrepôt OAI de la BnF, qui assure l’affichage du folio numérisé correspondant à l’enluminure décrite dans le prototype, lien absent des bases d’origine. La démonstration montrera le prototype Biblissima à partir d’exemples et de visualisations tels que : accéder aux données fournies par le prototype via la liste “oeuvres”. On montrera par exemple toutes les enluminures issues du prototype illustrant la “ Psychomachie” de Prudence.
Depuis fin 2014, Colin Maudry convertit les métadonnées des jeux de données publiés sur data.gouv.fr en un graphe RDF. Il met également à disposition une API qui tire sa flexibilité de la puissance du graphe. La présentation exposera les avantages d'une API reposant sur un graphe et son potentiel pour la publication de données pivots (InfoGreffe, codes postaux, etc.).
Quelques liens :Auteurs : Elena Cabrio, Jordan Calvi, Fabien Gandon, Cédric Lopez, Farhad Nooralahzadeh, Thibault Parmentier, Frédérique Segond Laboratoire Commun SMILK, Inria, VISEO
Remerciements : ces travaux de R&D et transfert sont soutenus par l’ANR au travers du laboratoire commun SMILK ANR-13-LAB2-0001-01
Sparklis est une application Web de recherche sémantique qui fonctionne au-dessus de points d'accès SPARQL. Il n'est pas lié à un point d'accès particulier, mais peut fonctionner avec n'importe quel point d'accès public ou privé. Le principe de Sparklis est de permettre aux utilisateurs d'explorer et interroger les données en les guidant dans la construction de requêtes puissantes en langue naturelle (anglais ou français). Une requête SPARQL est construite en même temps mais elle est seulement affichée en bas de la page pour l'utilisateur curieux ou pour l'expert qui souhaite la réutiliser dans un autre outil. Les utilisateurs n'ont pas besoin de connaître le schéma de données ou le vocabulaire car ils le découvrent à la volée en naviguant. Ils n'ont rien à écrire, à part les valeurs de filtrage (ex., mots-clés, seuils), ce qui exclut toute erreur lexicale, syntaxique ou sémantique. Sparklis couvre un large sous-ensemble de SPARQL : motifs de graphes, OPTIONAL, UNION, NOT EXISTS, tri des résultats, agrégations, filtres principaux (mots clés, inégalités et intervalles, tag de langue et datatype). Enfin, il est conçu pour passer à l'échelle de gros jeux de données et fonctionne par exemple sur DBpedia (plusieurs milliards de triplets).
Sparklis est en ligne depuis avril 2014 et depuis, des centaines d'utilisateurs l'ont utilisé sur des centaines de points d'accès. Sparklis s'appuie sur les standards du W3C : SPARQL pour l'interrogation, HTML5/CSS3 et Javascript pour l'interface et l'interaction.
Une démonstration montrera aux participants comment Sparklis permet de répondre aux questions du challenge QALD sur DBpedia. Ces questions couvrent différents types de recherche : faits de base (Give me the homepage of Forbes), listes d'entités (Which rivers flow into a German lake?), comptages (How many languages are spoken in Colombia), optimums (Which of Tim Burton's films had the highest budget}). Il est aussi possible de répondre à des questions analytiques plus complexes telles que Give me the total runtime, from highest to lowest, of films per director and per country.