SemWeb.Pro 2015

Détail des présentations 2015

Tutoriel d'introduction au web sémantique

Avant d'assister au tutoriel, n'oubliez pas de lire ce billet en guise de prolégomènes.
Nicolas Chauvat (Logilab)

Retour MOOC Web Sémantique

Détails à venir…
Fabien Gandon (INRIA)

Présentation de la feuille de route “ Métadonnées culturelles et transition Web 3.0 ” du ministère de la Culture et de la Communication

La feuille de route stratégique “ Métadonnées culturelles et transition web 3.0”, finalisée en 2014, a permis d’identifier 9 axes stratégiques, ouverts par le web sémantique et les données liées, pour le ministère de la Culture et ses partenaires institutionnels. Ces 9 axes relèvent d’une politique numérique à moyen-long terme. À la suite cette première étape d’identification, des groupes de travail thématiques ont élaboré des propositions d’action transverses à initialiser à court-moyen terme – idéalement à partir de la toute fin 2015 ou en 2016. Ces propositions d’action sont en cours d’instruction. Elles concernent des domaines aussi divers que la formation des personnels, l’interopérabilité des vocabulaires métier ou la recherche et développement. Elles ont vocation à favoriser la consolidation, la synergie et le développement des technologies orientées web sémantique au service des institutions culturelles.
Bertrand Sajus (Ministère de la Culture)

Plateforme facilitant l'accès gratuit aux textes de théâtre français libres de droit

Le site Libre Théâtre propose une bibliothèque numérique des oeuvres théâtrales du domaine public en téléchargement gratuit. Valorisant des ressources désormais accessibles grâce à l’ouverture des données publiques et des politique open data, le site proposera, pour chaque œuvre, des ressources complémentaires, libres d’utilisation : affiches, décors, éditions, costumes, analyses d'oeuvres… Ce site, basé sur les principes du web sémantique et du Linked Open Data, facilitera la recherche de textes de théâtre en accès libre par différents critères, puis une navigation facile entre les différents corpus proposés. La présentation exposera l’ensemble du projet, les différents jeux de données qui sont et seront utilisés, ainsi que les difficultés rencontrées dans la mise en oeuvre de cette initiative (accès aux ressources, modèle économique, contraintes juridiques…).
Ruth Martinez (Association Librethéâtre)

Speed data dating

data.bnf.fr est un projet de la Bibliothèque Nationale de France (BnF) qui expose sur le web les données structurées produites par l’établissement et portant sur des œuvres, des auteurs, des thèmes, des dates ou encore des lieux. Accessible à tous, le service data.bnf.fr se compose d’un site web offrant un accès direct pour les internautes aux ressources de la BnF et d'un SPARQL endpoint, donnant la possibilité de requêter cette base de connaissances pour permettre une large réutilisation des données. De son côté, WikiData est une base de donnée libre, collaborative et multilingue éditée par Wikimédia. Le projet, initialement créé pour gérer les liens entre les différentes versions de langue de Wikipédia, a vite pris une dimension autonome, permettant de renseigner chaque élément avec des données structurées. Avec l'alignement sur des référentiels externes s'est notamment constitué un hub d'identifiants et avec le développement de cette large base de connaissances, a émergé l'enjeu de la traçabilité des données présentes sur Wikidata. Comme le service data.bnf.fr expose des données d’autorité, structurées et réutilisables, et que le projet Wikidata a pour ambition de fournir des données de qualité, les deux projets se complètent heureusement et une démarche contributive s’est mise en place pour ajouter à Wikidata alignements, données et références à partir de data.bnf.fr. En retour, avec les liens mis en place, la BnF bénéfice d’un nouvel accès à ses ressources documentaires, tout en remplissant sa mission de diffusion de données patrimoniales.
Raphaëlle Lapôtre (BnF), Benoît Deshayes

Une nouvelle bibliothèque des bibliothèques du Moyen Âge et de la Renaissance basée sur le web sémantique

Début 2017 le portail Biblissima donnera un accès unifié à 50 bases de données via une application web sémantique, dont un premier prototype a été réalisé au printemps 2015 autour de deux bases iconographiques “​Initiale” et “​Mandragore”. Il est aujourd’hui librement accessible à cette adresse : ​http://nossl.demo.logilab.fr/biblissima/​.

L’information est structurée selon les caractéristiques complexes d’un objet physique de type manuscrit ou incunable, jusqu’au niveau de la page (description d’une enluminure). De plus, un livre fait partie d’une collection actuelle et a fait partie d’une ou de plusieurs collections anciennes. Ensuite il contient un ou plusieurs textes et plusieurs personnes sont intervenues lors de sa production. Pour créer un pont sémantique entre les différentes ressources à intégrer dans le portail Biblissima, nous avons aligné différentes entités présentes dans les bases d’origine (les intervenants, les établissements de conservation, les textes, les lieux d’origine et de conservation ainsi que des descripteurs géographiques reliés à des enluminures) vers des référentiels externes comme data.bnf.fr, VIAF et GeoNames. Grâce aux alignements des lieux, un thésaurus des noms géographiques est en développement et en partie intégré dans les pages sur les lieux. L’utilisation des principes du web sémantique permet d’enrichir les données des bases d’origine (intégration des coordonnées géographiques, hiérarchisation de noms géographiques dans le thésaurus, etc.)

Le RDF exposé via le prototype rend compte de la complexité des objets traités et réutilise les vocabulaires CIDOC CRM, FRBRoo et SKOS. La structure physique du livre se retrouve également dans l’affichage de l’objet numérisé via le visualiseur open source ​ Mirador​, développé à Stanford University Library. Selon le modèle de données ​Shared Canvas​, un sc:canvas ​est un espace abstrait qui représente la page ou le feuillet numérisé, un ​sc:range ​correspond à la numérisation d’une unité intellectuelle de l’objet et une ​ sc:sequence est l’ordre des images de la numérisation intégrale. Enfin, l’enluminure se trouve sur une zone spécifique du ​canvas ​. Biblissima a donc conçu une transformation des données, récupérées de Gallica et d’un entrepôt OAI de la BnF, qui assure l’affichage du folio numérisé correspondant à l’enluminure décrite dans le prototype, lien absent des bases d’origine. La démonstration montrera le prototype Biblissima à partir d’exemples et de visualisations tels que : accéder aux données fournies par le prototype via la liste “oeuvres”. On montrera par exemple toutes les enluminures issues du prototype illustrant la “​ Psychomachie​” de Prudence.

Stefanie Gehrke (Biblissima)

The Next 10 Years of Success - reloaded

Détails à venir…
Phil Archer (W3C)

Gestion de serveurs avec une plateforme sémantique

Comment un expert en infrastructure informatique peut-il analyser une infrastructure vaste et complexe dans un délai court lors d’un incident de production ? Corrium est la plateforme sémantique conçue pour pallier cette problématique. Corrium s’appuie sur une ontologie, HoNaHo, pour formaliser les connaissances des experts en infrastructure informatique. Les données clients sont, ensuite, traitées selon le modèle HoNaHo pour construire un référentiel, ce qui permet à l’expert en infrastructure d’analyser son parc IT et de prendre des décisions. L’ontologie HoNaHo est développée par nos ontologistes en collaboration avec des experts en infrastructure informatique. A noter que la cohérence des connaissances des experts est vérifiée grâce au mécanisme nommé « Check Consistency ». Grâce à Corrium nous gérons l’infrastructure de plusieurs clients dans la métropole lilloise. Pour chaque client, nous collectons ses données d’infrastructure qui peuvent provenir de sources hétérogènes (différents outils d’inventaires). Les données sont, ensuite, injectées dans Corrium, puis réconciliées et consolidées grâce à notre mécanisme de fusion. A la suite de cette étape, un référentiel d’infrastructure IT est construit, il contient la liste exhaustive des assets IT reliés entre eux, ce qui permet de diminuer la complexité du parc. La cohérence de l’information (cohérence entre les connaissances de l’expert et les informations) peut être vérifié grâce un deuxième « Check Consistency ». Corrium contient KStore, la solution logicielle d’intelligence, pour améliorer la qualité des données clients. KStore est constitué de plusieurs briques dont KStore-Engine, le moteur d’inférences basé sur des règles sémantiques (OWL, JenaRule et SPARQL). En se basant sur les règles écrites par les experts en infrastructure, KStore-Engine raisonne et infère sur le référentiel précédemment construit pour l’enrichir. A ce stade, Corrium a construit un point de vérité sur l’état du parc IT du client, et a déduit de nouvelles informations grâce au web sémantique. Ainsi, lors d’un incident de production, le référentiel IT permet à l’expert en infrastructure informatique d’analyser son parc IT et de prendre des décisions dans un délai court. Actuellement Corrium est utilisé pour un autre usage, préparer un audit de licences Microsoft. Une ontologie dédiée au sujet est développée et un pack de règles d’inférences SPARQL est créé pour gérer les coûts de licence. Ajouté à cela, d’autres usages sont en étude, tel que la gestion et le suivi de la migration d’une infrastructure IT.
Frédéric Hay (Straton IT)

Doremus, extension de l’ontologie FRBRoo pour la description des œuvres et événements musicaux

Le projet Doremus est un projet de recherche financé par l’ANR auquel participe la BnF, Radio France, la Philharmonie de Paris, le Lirmm (Université de Montpellier), Geriico (Université de Lille III), Eurecom, Meaning Engines et Ourouk. La musique est partout, jouée, enregistrée, diffusée, écoutée, vendue, offerte, louée. Les fichiers de musique enregistrée sont partout, stockés, streamés, échangés, vendus. Mais rien n’est plus difficile aujourd’hui que de trouver sur le web l’histoire d’une œuvre musicale, son compositeur, son origine culturelle, ses paroliers, ses influences, ses reprises, ses interprétations… Pourtant ces connaissances existent et sont décrites finement dans les systèmes d’information de quelques institutions culturelles et média dans le monde. Le premier objectif du projet DOREMUS est de permettre aux institutions culturelles, aux éditeurs et distributeurs, ainsi qu’aux communautés de passionnés de disposer de modèles de connaissances communs (ontologies), de référentiels partagés et multilingues ainsi que de méthodes pour publier, partager, connecter, contextualiser, enrichir les catalogues d’œuvres et d’événements musicaux dans le web des données (Linked Open Data). Le projet s’appuie sur l’expertise de catalogage des œuvres musicales de Radio France, de la BnF, de la Cité de la musique, du projet collaboratif Discotheka de la société Meaning Engines et sur un corpus de modèles préexistants, en particulier FRBRoo. Les extensions et spécialisations d’ontologies et les vocabulaires qui résulteront du projet devront permettre de décrire les œuvres et événements musicaux, de la musique traditionnelle à la musique classique, leurs relations avec les créateurs, leur environnement culturel, les événements liés à leur création, leurs interprétations, leur fonction sociale, les instruments, les genres musicaux… tout en s’inscrivant dans la continuité des catalogues d’œuvres existants. La description des œuvres musicales ne prend de sens que si elle est mise à disposition des publics comme élément d’éducation et de culture, utilisée comme outils facilitant la programmation d’émissions et d’événements musicaux, permettant de suggérer de nouvelles interprétations ou servant de source d’inspiration pour d’autres œuvres, c’est les sujets des deux autres parties du projet qui ne seront pas abordés dans cette présentation. La présentation replacera le projet dans son contexte, en termes de standards utilisés, d’existant à la BnF, Radio France et Philharmonie de Paris, détaillera le projet et son avancement. Nous porterons un soin particulier à expliquer le rôle et les relations d’ontologies descriptives des œuvres intellectuelles telles que CIDOC-CRM, FRBR, FRBRoo, PRESSoo.
Pierre Choffé

ELI/ ECLI : des identifiants pour le croisement des sources ouvertes du droit

Le projet ELI, consiste à créer un identificateur européen et des métadonnées standardisés pour la législation des Etats membres par le biais du web sémantique et de rendre disponible ces données dans le Linked Open Data via l’annotation sémantique des pages des Journaux Officiels. ELI est entré dans la phase de réalisation technique pour différents Journaux Officiels, notamment la France (DILA), l’Union Européenne, le Royaume Uni, le Luxembourg. Cette infrastructure de connaissance sur les ressources législatives des différents états de l’Union Européenne ouvre de nombreuses perspectives de réutilisation et de création de services innovants.
Jean Delahousse

Évolution d’un système de publication de données techniques automobiles, modélisées en RDF

Début 2010, pour répondre à une directive européenne, Renault mettait en oper sa première application basée sur les techniques du semantic web : un système de publication des documents et données de sa documentation technique après-vente, en charge d’alimenter un site web à destination des réparateurs indépendants. Aujourd'hui, on veut faire évoluer la solution, pour prendre en compte de nouvelles sources de données, et élargir son audience. La solution initiale peut-elle évoluer facilement ? est-elle scalable et supportera-t-elle un important surcroit de charge ? Certains parlent d’un échec du Semantic Web : les choix techniques faits se sont-ils révélés pertinents ? Que ferait-on différemment aujourd'hui ? Cinq années ont passé : de nouvelles techniques sont apparues (JSON-LD, par exemple), d'autres ont mûri (Solr), JSON et javascript sont devenus incontournables. Ce qui faisait défaut est-il maintenant disponible ? Par exemple, comment intégrer les formulaires (ou les templates d’URI) dans une API basée sur les Linked Data ? (alors que le web repose à la fois sur les liens hypertextes et les formulaires, les linked data ne connaissent que les liens) Après avoir expliqué la particularité de la recherche documentaire dans le contexte automobile (qui fait nécessairement sortir du cadre du modèle relationnel - et donc de SPARQL - pour l’évaluation de la pertinence d’un document en fonction du véhicule auquel on s’intéresse), nous reviendrons brièvement sur ce qui avait fait le succès de la solution initiale - en particulier, les capacités d’agrégation de RDF, qui avaient permis de réconcilier facilement des données de sources variées. Nous dirons ce que nous avons abandonné - pour faire bref, disons que SPARQL n’est plus aussi central dans la solution, ou du moins qu’il n’en est plus le seul cœur. Mais surtout, nous verrons comment il a été possible de modifier assez profondément l'architecture initiale en intégrant des techniques nouvelles et en s’inspirant d’idées récentes (“Hypermedia driven web APIs”, Hydra, JSON-LD, web components, etc). Nous verrons aussi quelques limites ou promesses pas complètement tenues par les techniques en œuvre. Nous ferons la démonstration d’un prototype d’IHM en javascript construite sur la solution, montrant une recherche documentaire complexe, entièrement guidée par les données, avec un minimum de couplage entre serveur et client.
François-Paul Servant (Renault)

L'Open Data français à l'heure du Linked Data

Depuis fin 2014, Colin Maudry convertit les métadonnées des jeux de données publiés sur data.gouv.fr en un graphe RDF. Il met également à disposition une API qui tire sa flexibilité de la puissance du graphe. La présentation exposera les avantages d'une API reposant sur un graphe et son potentiel pour la publication de données pivots (InfoGreffe, codes postaux, etc.).

Quelques liens :
Colin Maudry

Plugin SMILK : données liées et traitement de la langue pour plus d'intelligence dans la navigation sur le Web

Pour nourrir leur stratégie marketing et leur veille concurrentielle, les entreprises doivent surveiller le Web et donner un sens à cette grande quantité d'informations. Cette information est éparpillée et nécessite beaucoup de temps pour analyser les différentes sources et compiler les connaissances recueillies de manière intelligente. SMILK est un laboratoire commun entre l'Institut de recherche Inria et la société VISEO pour étudier le couplage fort d'algorithmes et de modèles linguistiques au niveau sémantique, l'extraction et le liage de connaissances issues des ressources du Web et la combinaison de différentes techniques de raisonnement (inférences logiques, des approximations et similitude, etc.). Dans ce contexte, nous allons présenter un prototype permettant d'enrichir les connaissances des utilisateurs naviguant sur le Web à l'aide de résultats issus du Traitement Automatique du Langage Naturel, du Web de Données et des réseaux sociaux. Notre présentation se concentrera sur la démonstration d'un plugin de navigateur facile à installer et à utiliser, qui permet d’enrichir l’expérience utilisateur avec quatre fonctions : - la démo commence par montrer comment il est possible d'identifier dans une page les entités pertinentes selon les intérêts de l'utilisateur et comment structurer les données connexes à l'aide d'une analyse linguistique dédiée ; - la deuxième partie de la démo montre comment nous lions les entités reconnues dans le texte ; - la troisième étape de la démo traite du liage d’entités pour connecter les données figurant dans le texte avec les données obtenues à partir de bases de connaissances du Web ; - enfin, dans une dernière étape la démo montre l’intégration de connaissances issues des médias sociaux pour fournir aux utilisateurs des opinions et les idées clés liées au sujet exploré. Le prototype que nous présenterons intègre entièrement les quatre fonctions précédemment définies et, dans le cadre de cette démonstration, est appliqué au domaine des cosmétiques.

Auteurs : Elena Cabrio, Jordan Calvi, Fabien Gandon, Cédric Lopez, Farhad Nooralahzadeh, Thibault Parmentier, Frédérique Segond Laboratoire Commun SMILK, Inria, VISEO

Remerciements : ces travaux de R&D et transfert sont soutenus par l’ANR au travers du laboratoire commun SMILK ANR-13-LAB2-0001-01

Farhad Nooralahzadeh

Interroger efficacement des bases de données relationnelles avec SPARQL et Ontop

L’élaboration manuelle de nouvelles requêtes SQL à l’adresse de bases de données relationnelles ayant des schémas complexes est un processus lent et coûteux qui se révèle être critique pour de nombreuses industries. Ce processus nécessite de combiner deux types d’expertise : celle du domaine concerné (exprimer une question pertinente de façon précise) et celle de la base de données (localiser les informations recherchées dans la base de données). L’approche OBDA (Ontology-Based Data Access) vise à automatiser une partie de ce processus en (i) permettant aux utilisateurs d’exprimer les requêtes à partir d’un modèle conceptuel de leur domaine indépendant du schéma relationnel et (ii) en traduisant automatiquement ces requêtes dans le langage supporté par la base de données (SQL). Dans cette présentation, nous nous intéresserons au système OBDA développé à l’Université Libre de Bozen-Bolzano (Italie) dénommé Ontop. Ce projet, débuté en 2010, repose sur plusieurs standards du Web sémantique : (i) OWL 2 QL pour la modélisation des concepts du domaine, (ii) SPARQL pour la formulation des requêtes utilisateurs et (iii) R2RML pour l’exposition du contenu de la base de données sous forme de graphe RDF virtuel. Ce logiciel est disponible sous licence libre. Le principal enjeu pour un système OBDA est de générer des requêtes SQL optimisées pouvant être exécutées efficacement par le moteur de base de données. Ontop propose de nombreuses optimisations sémantiques et structurelles lui permettant d’obtenir une performance suffisamment élevée pour permettre l’exécution de requêtes complexes sur des bases de données de grande taille en un temps acceptable. Ce système intègre également des capacités d’inférence à faible coût ne nécessitant aucune matérialisation des données. Nous présenterons ensuite son intégration dans la plateforme développée dans le cadre du projet européen Optique et sur son utilisation par les géologues d’un de nos partenaires industriels, Statoil. À cette occasion, nous reviendrons sur les principaux défis introduits par ce cas d’usage industriel. L’équipe participant au développement d’Ontop au sein de l’Université Libre de Bozen-Bolzano est actuellement composée de Martin Rezk, Guohui Xiao, Sarah Komla Ebri, Elem Güzel, David Lanti, Elena Botoeva et Benjamin Cogrel. Elle est coordonnée par Diego Calvanese.
Quelques liens :
Benjamin Cogrel

Sparklis : exploration et interrogation de points d'accès SPARQL par interaction et en langue naturelle

Sparklis est une application Web de recherche sémantique qui fonctionne au-dessus de points d'accès SPARQL. Il n'est pas lié à un point d'accès particulier, mais peut fonctionner avec n'importe quel point d'accès public ou privé. Le principe de Sparklis est de permettre aux utilisateurs d'explorer et interroger les données en les guidant dans la construction de requêtes puissantes en langue naturelle (anglais ou français). Une requête SPARQL est construite en même temps mais elle est seulement affichée en bas de la page pour l'utilisateur curieux ou pour l'expert qui souhaite la réutiliser dans un autre outil. Les utilisateurs n'ont pas besoin de connaître le schéma de données ou le vocabulaire car ils le découvrent à la volée en naviguant. Ils n'ont rien à écrire, à part les valeurs de filtrage (ex., mots-clés, seuils), ce qui exclut toute erreur lexicale, syntaxique ou sémantique. Sparklis couvre un large sous-ensemble de SPARQL : motifs de graphes, OPTIONAL, UNION, NOT EXISTS, tri des résultats, agrégations, filtres principaux (mots clés, inégalités et intervalles, tag de langue et datatype). Enfin, il est conçu pour passer à l'échelle de gros jeux de données et fonctionne par exemple sur DBpedia (plusieurs milliards de triplets).

Sparklis est en ligne depuis avril 2014 et depuis, des centaines d'utilisateurs l'ont utilisé sur des centaines de points d'accès. Sparklis s'appuie sur les standards du W3C : SPARQL pour l'interrogation, HTML5/CSS3 et Javascript pour l'interface et l'interaction.

Une démonstration montrera aux participants comment Sparklis permet de répondre aux questions du challenge QALD sur DBpedia. Ces questions couvrent différents types de recherche : faits de base (Give me the homepage of Forbes), listes d'entités (Which rivers flow into a German lake?), comptages (How many languages are spoken in Colombia), optimums (Which of Tim Burton's films had the highest budget}). Il est aussi possible de répondre à des questions analytiques plus complexes telles que Give me the total runtime, from highest to lowest, of films per director and per country.

Sébastien Ferré