SemWeb.Pro 2018

Journée de présentations et de rencontres
dédiées au web sémantique dans le monde professionnel

Mardi 6 novembre 2018, à Paris

Le Web sémantique n'est plus aujourd'hui cantonné au monde de la recherche ou aux démonstrateurs et vient insuffler une véritable dynamique au monde de la gestion de données, big ou non ! Cette édition de SemWeb.Pro sera l'occasion de voir des applications concrètes du web sémantique dans différents secteurs d'activités : industrie, médical, culture, et bien d'autres encore.

Accessible à tout public !

Retrouvez les éditions précédentes : 2011, 2012, 2014, 2015, 2016 et 2017.

Programme

Le ministère s'est doté d'une stratégie pour la transition sémantique des métadonnées culturelles pour accompagner les services et établissements publics du ministère. Cette stratégie est actualisée pour couvrir de nouveaux aspects et accompagner de nouveaux projets.

Recourir aux outils et standards du Web Sémantique est-il pertinent pour valoriser la dimension spatiale de ses données ? Quelles sources et quels modèles existent aujourd’hui pour enrichir des données cartographiques ? Et surtout pour quels usages ? Cette présentation revient sur les questions liées à la conception de Navigae, une plateforme de valorisation du patrimoine géographique réalisée avec le Centre IST Regards de l’UMR Passages et s'intéresse ainsi à la place du Web Sémantique dans le domaine de la géographie.

L'Agence Bibliographique de l'Enseignement Supérieur a pour mission principale d'organiser le recensement de toutes les ressources documentaires acquises par les bibliothèques universitaires. De plus en plus d'éditeurs partagent leurs métadonnées, qu'elles concernent les livres, les chapitres ou les articles. Nous nous efforçons de les collecter et de les intégrer dans notre système d'information bibliographique, pour les rendre interrogeables par les utilisateurs du Sudoc et récupérables par chaque bibliothèque de notre réseau pour alimenter son propre catalogue. Au passage, nous essayons d'améliorer la qualité de ces métadonnées, en les rendant plus cohérentes et plus riches. Leur qualité est encore améliorée par le travail des 3 000 catalogueurs du réseau Sudoc.

Ce workflow d'intégration et d'enrichissement des métadonnées des éditeurs scientifiques tourne autour d'une base de données RDF. Les technologies du web sémantique répondent parfaitement à nos besoins : intégrer des métadonnées hétérogènes ; exprimer de l'information en employant des vocabulaires standards différents, voire en forgeant en dernier recours de nouvelles propriétés et classes, sans se laisser enfermer dans un schéma de base de données figé ; enrichir les métadonnées centrales par la sédimentation de données complémentaires de toutes sortes disponibles sur le web.

Mais ce nouveau workflow doit vivre dans un environnement donné, à savoir le système d'information existant et le capital des ressources humaines aujourd'hui disponibles à l'ABES. La base RDF doit coexister et collaborer avec des programmes et des données qui correspondent à des choix et des compétences techniques qui sont les ... moyens du bord. A force de tâtonnements et de compromis pragmatiques, nous avons travaillé à intégrer ce workflow sémantique dans notre environnement. Le résultat est opérationnel, mais il servira également de leçon pour concevoir le prochain SI de l'ABES, qu'il repose en son cœur sur RDF ou pas.

L’ISSN est un identifiant pérenne pour les « ressources continues » : cette notion couvre aussi bien les revues ou la presse que les sites web ou bases de données du domaine scientifique. L’unicité, la fiabilité et la pérennité de l’ISSN s’appuient sur un système dédié : les numéros sont attribués par quatre-vingt-dix Centre Nationaux, pour leurs pays respectifs, et sont associés à un ensemble de métadonnées regroupées dans la notice ISSN. Les notices sont versées dans le Registre de l’ISSN, base de données maintenue par le Centre International de l’ISSN, qui décrit à ce jour deux millions de ressources, imprimées ou en ligne. Les ISSN sont utilisés par l’ensemble des acteurs de la chaîne de distribution des ressources continues : éditeurs, services d’abonnement et de distribution, bibliothèques, outils de découverte, chercheurs et lecteurs.

Jusqu’à présent, il était nécessaire de s’abonner pour pouvoir consulter le Registre. Cela limitait la capacité de l’ISSN à s’insérer dans l’écosystème d’identifiants du web de données. C’est pourquoi le Centre International a décidé de développer un nouveau Portail, ouvert en janvier 2018. Il poursuit deux objectifs : D’une part, il fournit à tous un accès libre à certaines informations des notices, celles qui sont essentielles pour l’identification des ressources (ISSN, titre, pays d’édition, etc.). D’autre part, il offre aux abonnés du Portail des informations enrichies (par récupération d’informations de bases partenaires), ainsi que de nouveaux services de recherche, de découverte et de téléchargement. Le Portail est conçu aussi bien pour les utilisateurs humains que les machines, en offrant des possibilités de négociation de contenu (dans sa version libre) ainsi que différentes API (pour sa version abonnés), permettant la récupération des informations bibliographiques en RDF. A cette fin, le Centre International a développé un modèle de données dédié, qui s’appuie à la fois sur des ontologies largement employées (Schema.org et Dublin Core) pour les éléments les plus simples, et des ontologies expertes (notamment Bibframe) pour les éléments spécifiques aux ressources continues. Il est également conforme aux grands modèles bibliographiques soutenus par l’IFLA (comme le « Library Reference Model »).

Cette intervention représenterait l’occasion de présenter le Portail, son modèle de données et ses services, et de discuter avec les participants de cas concrets d’utilisation des informations qu’il fournit, afin d’améliorer la description des ressources continues dans le web de données.

Très rares sont les artistes géniaux qui produisent leurs oeuvres isolés dans leur tour d’ivoire. La réalité est que la production artistique est presque toujours le fruit d’une longue recherche, d’essais, d’erreurs, de hasards, mais surtout d’une collaboration. Dans la plupart des cas, la documentation afférente à ce travail amont est soit perdue, soit foisonnante mais déstructurée.

La fondation Lafayette Anticipations, dédiée à l’art contemporain est également un centre de production et en tant que telle, elle souhaitait se doter d’un outil lui permettant de garder et de structurer toutes les traces de tout ce qui se passait en atelier, en coulisses, avant l’exposition de l’oeuvre et même au-delà. Cet outil devait lui permettre de constituer sa propre mémoire de production, mais aussi permettre au public d’en apprendre plus sur l’histoire des oeuvres qu’il venait visiter.

En collaboration étroite avec la fondation Lafayette Anticipations depuis plus de deux ans maintenant, Mnémotix a réalisé un écosystème logiciel sémantique composée de plusieurs briques :

  • Weever : un carnet de production numérique permettant de documenter les processus collectifs qui conduisent à la production des œuvres d’art. À la fois logiciel de gestion électronique de documents, de suivi de projet et carnet d’adresse, cette application est construite sur la base d'une ontologie articulant trois sous-modèles distincts mais reliés entre eux : un modèle événementiel pour l’activité “projet”, un modèle documentaire pour la description des ressources de la Fondation, et enfin un modèle de type réseau social basé sur FOAF.
  • Koncept : un outil de gestion collaborative de référentiels SKOS. Le référentiel est utilisé pour annoter les documents qui sont versés dans l’archive, soit de manière semi-automatique, soit manuelle. Un système de reconnaissance automatique des concepts à été développé afin de faciliter au maximum le travail de documentation.
  • Synaptix : un framework permettant l’intégration de différents modules de traitement dans une architecture réactive.

Lors de notre présentation, nous proposons de présenter ces outils et les moyens techniques mis en oeuvre pour le déploiement et l’industrialisation de cette solution. Nous présenterons également les modèles, la manière dont SKOS à été intégré dans un environnement métier où personne (ou presque) n’a de formation en matière de documentation. Nous ferons également un retour d’expérience et une présentation des projets à venir et notamment les prochains déploiements de l’outil dans d’autres environnements métier.

Le Big Data est partout. Du besoin de gestion de volumes de données toujours plus grand est né celui de l’exploitation de l’information de valeur, conduisant à l’émergence de la* Data Science et de leur Data Scientists*. Ainsi, après le stockage des données en grand volume vient logiquement le défi technologique du raffinage de la « *Donnée-Pétrole* » (Collecte, Interprétation, Transformation, Présentation). Cette prise de conscience du besoin de l’interprétation automatisée de la donnée, adressé aujourd’hui essentiellement par traitement heuristique,* ne remet pas en cause une approche en silo, sectorisant la donnée par domaine métier.* Ce qui est en réalité paradoxal lorsque le besoin est de confronter des données hétérogènes entre elles.

C’est pourquoi Perfect Memory a bâti un* middleware mettant en œuvre la modélisation sémantique des données, produites notamment par des outils d'analyse statistiques*, contribuant à la construction d’une base de connaissance exploitable et flexible.

La présentation illustrera *dans le cadre d’un cas d'usage métier, comment les outils mis en oeuvre par Perfect Memory permettent :*

- Aux outils de traitements statistiques de considérer les modèles sémantiques comme contexte d’analyse

- Aux bases de connaissance de consolider le fruit de traitements statistiques

La plateforme Perfect Memory est utilisée aujourd'hui par plusieurs grands acteurs des médias, comme France Télévisions, RTL Belgique et Radio France, mais aussi dans d'autres verticaux comme la gestion muséale, la presse numérique ou encore le retail.

Vidéo d'exemple d'utilisation de la plateforme Perfect Memory

Semantic Web researchers at the École des Mines de Saint-Étienne, FR, are interested in making the Semantic Web formalisms and technologies more accessible to the companies and the web of things. This presentation will overview three of our recent contributions that all target this goal.

1) MINES Saint-Étienne leads a Specialist Task Force (STF) financed by the European Telecommunications Standards Institute (ETSI), with the goal to consolidate the Smart Anything REFerence (SAREF) standard ontology and its community of industrial users, based on the experience of the the EUREKA ITEA 12004 SEAS project (3 years, 15 M€, 35 partners). The SEAS ontology is modular and versioned, and is built on top of core reference ontology patterns that can be instantiated to create the SEAS ontology itself with a homogeneous and predictable structure for the modelling and the description of any kind of engineering-related data/information/systems. Ontology patterns are like design patterns in object oriented programming. They describe structural, logical, or naming, best practices that one can consider when building an ontology. https://ci.mines-stetienne.fr/seas/

2) SPARQL-Generate is an extension of SPARQL 1.1 for querying not only RDF datasets but also documents in arbitrary formats. It offers a simple template-based option to generate RDF Graphs from documents, and presents the following advantages: a) anyone familiar with SPARQL can easily learn SPARQL-Generate; b) SPARQL-Generate leverages the expressivity of SPARQL 1.1: Aggregates, Solution Sequences and Modifiers, SPARQL functions and their extension mechanism; c) it integrates seamlessly with existing standards for consuming Semantic Web data, such as SPARQL or Semantic Web programming frameworks. One can use its Apache 2.0 implementation to generate RDF from web documents in XML, JSON, CSV, HTML, CBOR, and plain text with regular expressions. https://ci.mines-stetienne.fr/sparql-generate/

3) The Linked Datatypes initative (LINDT) aims at enabling lightweight descriptions of useful knowledge on the Web of Data, using simple RDF literals empowered by RDF Datatypes. The flagship Datatype is cdt:ucum that can be used to describe measurements with any unit defined in The Unified Code for Units of Measure: a code system intended to include all units of measures being contemporarily used in international science, engineering, and business. Different from using existing vocabularies for quantities and units of measures (schema.org, QUDT, OM, ...), SPARQL queries can leverage the native SPARQL operators (=, <, etc.) to compare UCUM literals, and arithmetic functions (+, -, *, /) to manipulate quantity value literals. https://ci.mines-stetienne.fr/lindt/

Dans cette présentation, je présenterai deux technologies, WebAssembly et le langage de programmation Rust, qui vont probablement changer significativement la manière de concevoir des applications Web – et donc des applications Web sémantique…

WebAssembly est un langage exécutable binaire bas niveau, interprété par une machine virtuelle, ayant notamment vocation à être intégrée aux navigateurs. Il devient donc possible de créer des applications Web 1) écrites dans n’importe quel langage pour lequel un compilateur WebAssembly est disponible, et 2) s’exécutant avec des performances comparables à celles du code natif. On pense bien sûr aux débuts de Java et aux *applets*, qui ont perdu la bataille face à la flexibilité de Javascript. Mais WebAssembly est mieux intégré au navigateur que ne l’était Java, notamment pour interagir avec le code Javascript, qu’il a plus vocation à compléter qu’à remplacer. WebAssembly est en cours de standardisation par le W3C, mais déjà implémenté dans Chrome, Edge, Firefox et Safari.

Actuellement, les seuls langages bénéficiant d’un compilateur WebAssembly sont C, C++... et le nouveau venu Rust. Ce langage, développé par Mozilla depuis 2010, et qui a franchi le cap de la version 1.0 en 2015, est aujourd’hui une alternative sérieuse à C ou C++. Basé sur un paradigme original pour la gestion de la mémoire, il offre des garanties fortes sur la sécurité des programmes (absence d’erreurs de segmentations, *thread safety*), sans sacrifier les performances. Tout ceci, donc, avec la possibilité de compiler des applications natives *et* des applications WebAssembly.

Je donnerai une vue d’ensemble de ces technologies, et une rapide démonstration des outils qui permettent de les mettre en œuvre. Enfin, je présenterai un projet open-source que j'ai initié, qui consiste à développer une boite à outil Web Sémantique en Rust, utilisable dans des applications natives et des applications Web.

Nous présentons la maquette d'un moteur de recherche pour les ressources d'un LinkedData. Cet outil léger permet à moindre coût de profiter d'un Knowledge Graph au dessus de vos données sémantiques. Cet outil couple un indexeur des propriétés standards du Web Sémantiques (labels, types, sameAs) et un outil visuel de gestion de requêtes sémantiques (modélisation sémantique des requêtes, compilation en SPARQL et template HTML, stockage dans le cloud). Sans connaissance technique avancée, il est ainsi possible de rechercher des ressources d'un LinkedData à partir de ses propriétés textuelles, de les associer à un pool de requêtes pertinentes pour le type de ces ressources, et d'en afficher les résultats sous forme graphique (HTML avec liens vers les ressources connexes). L'objectif de cet outil est de simplifier la mise en place d'un moteur de recherche façon Knowledge Graph, et ainsi de pouvoir se concentrer sur la sémantique des données exploitées, la définition rapide de snippets graphiques et les liens potentiels entre les ressources des datasets indexés. Nous présenterons des exemples basés sur le LinkingOpenData (DBPedia, Doremus, LinkedGeoData, ...). AInsi qu'un scénario complet allant de la sémantisation du fichier CSV de la base Sirène (entreprises et établissements administratifs français) à son intégration dans le Knowledge Graph public accessible sur le site search.datao.net.
http://datao.net http://search.datao.net

Le premier âge du Web s'est limité à un Web des documents liés, décrits en HTML et affichés par un navigateur hypertexte. Avec l'avènement du Web des données, ce sont des données liées qui sont échangées entre le client et le serveur. Ces données sont encodées avec de multiples vocabulaires métiers, sans être encapsulées dans des documents et des descriptions textuelles.

Il nous a donc semblé nécessaire de nous interroger sur ce que pourrait être un navigateur pour le Web des données, qui ne se limiterait pas à l'affichage de documents et permettrait à son utilisateur de parcourir le gigantesque graphe global des données liées en choisissant à chaque noeud la visualisation la plus adaptée à la tâche en cours.

Dans ce but, nous avons réincarné sous une forme moderne les idées développées dans le cadre de l'interface utilisateur du logiciel CubicWeb. Le résultat est un ensemble de composants libres écrits en JavaScript, qui peuvent être assemblés puis installés comme une extension des principaux navigateurs (Web Extension pour Firefox et Chrome).

Les données incluses dans des pages HTML (RDFa, JSON-LD), ainsi que celles issues des API (REST, HAL, Hydra, JSONSchema, etc.) peuvent être affichées avec la vue choisie par l'utilisateur parmi celles qui correspondent au vocabulaire utilisé pour les encoder.

Ce projet est utilisé en interne à Logilab. Il aura été annoncé et mis en ligne sur une forge publique d'ici novembre.

Projet lauréat de la première tranche du Programme d’investissement d’avenir, DATATOURISME est une plateforme :

  1. d’alignement, d’agrégation et de normalisation, des données touristiques françaises. (volet PRODUCTEUR)
  2. de requête et d’abonnement à des flux de données de formats variés en vue de leur utilisation par des services tiers. (volet DIFFUSEUR)

Porté par la DGE ainsi que par Tourisme et territoires, le projet à mobilisé tous les savoirs faire de CONJECTO qui fut chargé des développements de la plateforme. Opérationnelle depuis fin 2017, celle-ci accueille (au 14/06/2018) 43 producteurs, 1612 flux diffuseurs actualisés régulièrement pour un total de 218 083 POI représentant 11 336 366 triplets. La volumétrie attendue sur l’ensemble des données est de 400 000 POI.

La présentation mettra l’accent sur la description de plusieurs composants innovants par rapport à l’état de l’art lors du début des développements.

  • Une interface d’alignement XML > RDF ergonomique et ontology driven
  • Un processus robuste d’alignement, normalisation, validation et publication des ressources RDF
  • Une API d’abstraction de requête SPARQL basée sur le langage GraphQL

Nous mettrons également en lumière un certain nombre de freins rencontrés sur ce projet, ainsi que les solutions utilisées pour contourner ceux-ci.

  • Sérialisation vers différents formats (RDF/SPARQL Result) en stream, au travers d’un stockage key-value
  • Optimisation des requêtes SPARQL sur BLAZEGRAPH
Le site du projet : http://www.datatourisme.fr/ La plateforme : https://www.datatourisme.gouv.fr/ (inscription diffuseur possible)

City Moove est une plateforme sémantique permettant de collecter et d'agréger différent type d’information culturelle et touristique. Elle est composée de collecteurs qui traitent des formats de données hétérogènes tels que des flux RSS, des exports XML ou CSV, des réponses à des APIs en JSON, etc. Le modèle de données au coeur de la plate-forme repose sur et étend Schema.org. L’information ainsi agrégée constitue un graphe de connaissances représenté en RDF. La plateforme moissonne en continu des flux d’informations donnés, par exemple, à une fréquence quotidienne permettant ainsi une mise à jour de la base de connaissances. La plateforme dispose d’un module de dédoublonnage, indispensable dès lors que différentes sources décrivant potentiellement les mêmes objets, sont agrégées. Le moteur de dédoublonnage repose sur STEM (https://github.com/enricopal/STEM), un algorithme supervisé permettant d’améliorer à la fois la précision et le rappel concernant l’interconnexion de données RDF calculée à partir de logiciels tels que DUKE ou SILK. La plateforme dispose également d’un module permettant de prédire la catégorie des événements. Au final, la plateforme a été utilisé pour différentes zones géographiques : l’île de St Barthelemy, la région de la côte d’azur, et un certain nombres de grandes villes telles que Milan, Amsterdam ou Londres.

Nous illustrerons le fonctionnement de la plateforme en utilisant la base de connaissances créées couvrant la région de la Côte d’Azur, soit plus de 250 communes s’étalant entre Monaco et St Tropez. Les flux collectés proviennent d’offices de tourisme (Nice, Cannes, Antibes, Mandelieu, Grasse), du comité régional de tourisme, de salles semi-privées (le palais des festivals), de l’open data (Open Agenda, Data Tourisme), de bases de données professionnelles (APIDAE), ou du web (Facebook, Google, Foursquare, Yelp, Eventful, Evensi, Meetup). La base de connaissances contient plus de 335k points d’intérêts, 100k revues et plus de 30k événements collectés depuis 2 ans. Nous montrerons comment ce graphe de connaissances touristiques peut être aussi complété ou corrigé grâce à un outil de contrôle éditorial attaché au système de gestion de contenu WordPress. Des applications clientes peuvent alors consommer les données, soit en interrogeant directement un point d’entrée SPARQL, soit en utilisant l’API City-Moove. Nous montrerons différentes interfaces graphiques Web de type moteur de recherche exploratoire ou des applications mobiles restituant des parties du graphe de connaissances.

Nous avons enfin développé Minotour, un assistant conversationnel intelligent se nourrissant de la base de connaissances. Minotour combine plusieurs moteurs de compréhension du langage naturel (NLU) et repose sur une architecture modulaire construite au dessus de Botkit. Il permet de répondre à toute sorte de question d’ordre touristiques concernant les événements et activités à faire, les lieux à visiter, l’offre d’hébergement ou de restauration disponible, tout en ajoutant des informations contextuelles telles que les prévisions météorologiques ou l’offre de transport public. Minotour est disponible sur de nombreuses applications de messagerie tels que Facebook Messenger, Skype, Telegram ou Slack, ou sur des enceintes connectées (Google Home, Amazon Alexa).

Les progrès récents dans le domaine de la vision par ordinateur ont permis bon nombre d'applications utiles telles que la détection des visages, la recherche d'image par le contenu, l'annotation automatique des images et le véhicule autonome. Les graphes de connaissances encodent les connaissances communes humaines dans un format formellement structuré. Ils alimentent les applications comme la recherche sémantique, la recherche exploratoire, le calcul de la similarité entre les documents et les systèmes de questions-réponses. Plusieurs travaux de recherche récents ont montré des points de convergence intéressants entre ces deux domaines : l'amélioration de la qualité de la détection des objets avec les graphes de connaissances externes, la description des scènes avec des triplets, la complétion des graphes de connaissances avec des caractéristiques visuelles et la recherche visuo-sémantique, pour n'en citer que quelques-uns.

Nous explorons la synergie entre le Web sémantique et les outils de vision par ordinateur dans le contexte des systèmes de personnalisation qui n'a pas été suffisamment étudié jusqu'à présent. Aujourd'hui, un grand nombre de données multimédia sont disponibles sur le Web et sont produites continuellement. Sur le Web Social, les utilisateurs publient et partagent des images et des vidéos sur de différents réseaux sociaux comme Facebook, Twitter, Instagram et Flickr. Sur les sites du e-commerce, les images jouent un rôle important dans la découverte des produits et la prise de décision. Les sites Web modernes doivent être dotés de dispositifs capables de comprendre les préférences de leurs utilisateurs à travers leurs interactions avec les données multimédia et d'adapter les services en conséquence pour fournir une meilleure expérience utilisateur.

Nous présentons deux nouvelles applications dans le e-tourisme. La première application crée, à partir d'une image, un profil utilisateur contenant plusieurs entités DBpedia qui représente les préférences d'un utilisateur qui apprécie l'image. La deuxième application utilise la première application pour améliorer les systèmes de recommandation. Dans une bannière de recommandation, on ordonne les images associées au produit recommandé et affiche l'image qui correspond le mieux aux préférences de l'utilisateur dans le but d'augmenter son affinité envers le produit. Les papiers décrivant ces applications sont publiés aux congrès ESWC 2018 et SEMANTICS 2018. La présentation abordera les motivations, les détails techniques, les expériences académiques et les éventuels impacts sur l'industrie touristique. Elle sera accompagnée d'une démonstration.

Vous pouvez télécharger une vidéo de démonstration d'une durée de 40 secondes à ce lien: https://drive.google.com/file/d/1OmMd5lIIte2K9yratnDmpYc5Htg3g2Uy/view?usp=sharing

Les systèmes informatiques d’éducation en ligne (e-Education) représentent une catégorie importante des systèmes d’information bénéficiant des standards du Web pour leurs implémentation, déploiement et intégration. Notre travail propose une approche basée sur les technologies du Web Sémantique pour implémenter les fonctionnalités et l’interopérabilité pour le système d’e-Education en production, de l’entreprise Educlever. Nous proposons une implémentation des fonctionnalités de ce système e-Education basée sur des ontologies decrivant les connaissances gérées par ce système. Nous montrons également comment cette représentation des connaissances en plus d’aider à l’implémentation des fonctionnalités permet l’intégration des ressources externes à Educlever, assure le respect des standards de l’éducation en ligne et de l’éducation nationale[1], et enfin assure l’interopérabilité avec d’autres systèmes.

Nous avons évalué quantitativement et qualitativement nos propositions sur des données réelles d’Educlever à partir de cas d’utilisation réels. Nous présentons une évaluation complète des différentes solutions basées sur les technologies du Web Sémantique proposées, en termes de qualité de service et de temps de réponse dans un environnement de production. Dans ce contexte industriel, nos évaluations montrent que les solutions proposées basées sur les technologies du Web Sémantique permettent de satisfaire les besoins industriels aussi bien en termes de fonctionnalités qu’en terme de performance et ceci en comparaison à la solution existante en production.

Enfin, la représentation ontologique des connaissances offre comme perspectives l’implémentation de fonctionnalités avancées telles que la recommandation de ressources pédagogiques adaptées au profil et contexte des apprenants (adaptive learning).

Ce travail est réalisé dans le cadre du laboratoire d’innovation (ILab) EDUMICS entre Inria et Educlever3. Il a fait l'objet de publications, dont "Oscar Rodriguez Rocha, Catherine Faron-Zucker, Géraud Fokou Pelap, A Formalization of the French Elementary School Curricula, Knowledge Engineering and Knowledge Management - EKAW 2016 Satellite, Events, Bologna, Italy, Revised Selected Papers, 82–94, Springer, 2017."

A partir du mois de juillet, les Etats-membres de l’Union Européenne sont invités à créer des tables de correspondance (“mapping efforts”) entre leurs classifications nationales de métiers/compétences et ESCO (le système européen de correspondance entre les compétences, les certifications et les métiers). Pour les assister dans cette tâche, la Commission Européenne a décidé de mettre à la disposition des États Membres une application web leur permettant de faciliter et d’accélérer le processus de création des “mapping efforts”.

Le but sous-jacent de cet alignement est d’améliorer la compréhension entre Etats membres des compétences et métiers existants dans chaque Etat. Par ce fait, la volonté de la Commission Européenne aspire à favoriser le marché de l’emploi et de l’éducation en Europe.

En effet, une fois l’ensemble des classifications nationales de métiers et de compétences reliées à la classification européenne ESCO ; un recruteur du Pôle Emploi (en France) sera en mesure de voir si l’ouvrier letton qui postule à un emploi a les compétences requises. A cet exemple peut venir s’ajouter la dimension de l’Education ; un étudiant français souhaitant travailler dans un métier particulier en Italie pourra identifier les compétences qu’il doit acquérir au cours de ces études pour obtenir un emploi en relation avec ce métier en Italie.

La plateforme de mapping est une application web qui permet de faire correspondre i.e. aligner sémantiquement deux schémas de concepts/taxonomies différents, précédemment modélisés en SKOS (skosifiés)1. À travers ce logiciel, les experts nationaux responsables de la création des “mapping efforts” peuvent sélectionner un concept (métier ou compétence) dans la classification source (e.g. ESCO) et la faire correspondre à un, ou plusieurs, concepts équivalents de la classification cible (e.g. ROME).

ESCO est disponible dans toutes les langues de l’Union Européenne, facilitant la comparaison des concepts provenant d’ESCO et ceux provenant d’une classification nationale.

Les utilisateurs du logiciel peuvent créer des correspondances en recherchant manuellement le(s) concept(s) à faire correspondre (“mapper”) entre la classification source et la classification cible mais peuvent également, après avoir sélectionnée le concept à faire correspondre, accéder à des suggestions de correspondance proposées par le logiciel lui-même.

Cette fonctionnalité utilise ElasticSearch, qui compare : Le label du concept de la taxonomie source avec l’entièreté des concepts de la taxonomie ciblée, Le code ISCO2 de la classification cible (si présent) avec le code ISCO lié au concept ESCO. Un facteur exhaustif a été inséré dans l'algorithme pour donner plus d’importance aux résultats comportant des correspondances exactes entre les mots composant les labels des concepts des classifications source et cible.

L’application propose à l’utilisateur/rice un choix décroissant des meilleurs résultats parmi lesquels il/elle sélectionne les plus pertinents à “mapper”.

Figure 1 - Suggestions de correspondance entre une compétence ESCO et la classification autrichienne des compétences Un fois ceux-ci sélectionnés, la relation entre les concepts des deux taxonomies doit être spécifiée selon les propriétés de mapping SKOS : closeMatch, narrowMatch, broadMatch, exactMatch.

Figure 2 - Création de correspondances entre ESCO et la classification Slovène des métiers Lorsqu’une correspondance est créée et validée, celle-ci est sauvegardée dans une base de données RDF3. La plateforme permet d’importer des schémas de concepts préalablement “skosifiés” au format CSV, de créer des tables de correspondance entre ces taxonomies et d’exporter ces tables au format CSV ainsi que RDF/SKOS. La plateforme permet également d’importer des tables de correspondance (mapping efforts) précédemment créées (hors de la plateforme).

La plateforme de mapping sera premièrement utilisée par les États Membres dans le cas exemplifié, mais elle ne se limite pas à celui-ci. Ainsi, la plateforme peut également être utilisée par des acteurs privés souhaitant établir des relations entre différents référentiels de données.

Une brève démonstration de la Mapping platform est disponible à l'adresse suivante : http://ior.ad/y6t

The subject of the presentation is a method that on one hand enables exchange of Systems Engineering information between involved parties in projects and on the other hand can be used for building configuration management tools, supporting Systems Engineering processes.

This method is based on the usage of an ontology, described by an information models covering the information needs of the ISO 15288 system life cycle processes. These models are the base of a Dutch standard for the exchange of Systems Engineering data and is based on ISO 15926, a well-known life cycle data integration standard from the process industry. This presentation also shows implementation aspects of an ontology based on RDF(S) (Resource Description Framework) as defined by the World Wide Web Consortium.

The presentation contains a life demonstration of a Systems Engineering tool based on RDF(S) and the presented Systems Engineering ontology. This tool is fully operational in a complex infrastructure project in de Netherlands and supports the requirement management and verification process and the design process of hardware and control software based on a system breakdown structure.

Attached two of my earlier papers and a presentation with some details of the System Engineering tool developed upon RDF(S) and the Systems Engineering ontology

Requirements management is a primary challenge for the industrial enterprise. Development and operation of a capital asset involves tens of thousands of requirements, spanning multiple engineering domains. Requirements are issued by a variety of sources, including public authorities, standards bodies, operators, contractors and suppliers. With manual work processes and unsatisfactory coordination across stake-holders, requirements are a major source of cost. In this talk, we will describe how an ontology-based approach to digitalisation of requirements has been developed for the Norwegian Oil & Gas industry. We outline the methodology, and demonstrate a working prototype for developing, testing, and implementing digital standards. We also make a bold claim: that the standards of the future will be provided as ontologies.

In response to a well documented need for more cost effective requirements management in Oil & Gas, a joint industry project (JIP) has been established for the Norwegian Continental Shelf, to revise, restructure and digitalise the NORSOK Z-standards for Technical Information. Initiated by Standards Norway and DNV GL, and in close collaboration with the academic community and the Sirius research centre in Oslo, the JIP has found broad industry support. O&G authorities, the main operators, and the main engineering, procurement, and construction (EPC) contractors have signed up for a two-year common effort.

An efficient representation of requirements must be at the same time generic and sensitive to the characteristics of special subjects, whether in technical domains or in the management of asset information. This means that we need a common, multidisplinary vocabulary, uniform representation of requirements as rules, and a precise way to validate consistency and correctness of a set of requirements.

Ontologies in OWL DL fit the description for going from documents to databases. The distinguished feature is automated reasoning with description logic semantics. A modular ontology provides a multi-disciplinary vocabulary of class definitions, suitable for automated consistency checking against an asset described in that vocabulary. In the Norwegian O&G space we already have large-scale systems in production, applying reasoning over ontologies to support EPC projects.

Extending this basis to requirements, we need to manage normative modalities - requirements, as norms, are not always satisfied. We need algorithms to mangage defeasible constraints and agreed deviations from specifications. For this, a methodology has been developed, drawing on ISO/IEC 81346 for lifecycle perspectives and on the INCOSE Guide for Writing Requirements. A generic ontology for representing requirements has been created. OWL DL reasoning lets the computer derive which requirements apply to a type of equipment, or which requirements apply to a selected component; and in cases of deviation, the reasoner mechanism can identify where requirements are violated, and why.

A prototype implementation to support this methodology has been built, and will be demonstrated during the presentation at SemWeb.Pro. This includes a modular ontology, an expert friendly Excel format for building ontolgies from straightforward templates, and end-user services for stating, verifying, and testing a body of requirements. We obtain a tool for creating digital standards that are suitable for for use with existing software application and databases, as well as for information exchange.

- Methodology and implementation for the NORSOK Z-TI standards - please note that a live demo can be made if suitable for the conference presentation format, but a video or on-line links are not yet available. - NORSOK Requirements JIP, 2018-2020 - Aker Solutions PUSH project - DNV GL - Sirius Centre for Scalable Data Access in the Oil and Gas Domain - Reasonable Ontology Templates (OTTR)

Les principes FAIR [1] ont établi l'importance d'utiliser des vocabulaires ou des ontologies pour décrire les données et faciliter l'interopérabilité et la réutilisation. Comme toutes autres données, les ontologies, vocabulaires, thésaurus et terminologies doivent eux-mêmes être FAIR. Cependant, il est fastidieux pour les experts du domaine d'identifier les ontologies dont ils ont besoin et de gérer leur hétérogénéité, et leur chevauchement. Bien qu'il y ait de multiples façons de rendre les ontologies FAIR, on s'accordera à dire que développer des portails ouverts d'ontologies en fait certainement partie. Les fonctionnalités des portails d'ontologies vont d'une simple liste avec plus ou moins de descriptions de métadonnées (e.g., OBO Foundry, WebProtégé, FAIRsharing, BARTOC), à des plateformes qui indexent le contenu et offrent des services avancés : navigation, recherche, visualisation, métriques, annotation, recommandation, etc. (e.g., LOV, OntoBee, CISMeF HeTOP, EBI OLS, NCBO BioPortal, MMI ORR, OntoHub). Elles sont parfois thématiques, et le domaine biomédical a initié plusieurs d’entre elles [2].

BioPortal [3], le portail d'ontologies de référence en biomédecine, construit par le US National Center for Biomedical Ontology s'appuie sur une technologie ouverte, indépendante du domaine, régulièrement réutilisée. Par exemples, par l’ESIP Portal, MMI ORR, BiblioPortal ou lorsqu’il faut traiter des données en interne (e.g., hôpitaux).

Il existe plusieurs défis pour les portails d’ontologies [4] : métadonnées et sélection, multilinguisme, alignement, fournir des nouveaux services génériques, les annotations et données liées, l’interopérabilité et le passage à l’échelle. Au LIRMM, nous essayons de relever certains de ces défis dans le cadre des projets SIFR BioPortal (http://bioportal.lirmm.fr) [5] et AgroPortal (http://agroportal.lirmm.fr) [6] en réutilisant, la technologie du NCBO au service des applications biomédicales (en français) et à l'agronomie et ses domaines connexes -agriculture, science des plantes, nutrition et biodiversité.

En partenariat avec l’Université de Stanford, nous développons et maintenons ces deux portails d’ontologies et de services à base d’ontologies qui nous permettent d’attaquer des problèmes de recherche complexes tels que le traitement de la langue, l’alignement d’ontologies, l’annotation sémantique, l’ingénierie ontologique, tout en étant pilotés par des scénarios d’applications concrets dont les impacts en santé et agronomie sont mesurables. Ces projets sont particulièrement fédérateurs pour plusieurs institutions de recherche (INRA, IRSTEA, CIRAD, IRD, CGIAR) et ont un impact national et international reconnu.

Aujourd’hui, le besoin pour des plateformes équivalentes se fait ressentir dans différents domaines e.g., l’écologie, les sciences sociales, les géosciences. En outre, avec l’adoption du Web sémantique dans le monde professionnel et l’impact de standards de ressources sémantiques plus souples etaccessibles comme SKOS, les utilisateurs intéressés ne sont plus seulement les scientifiques mais inclus tous les acteurs de la donnée en général.

Dans toutes les infrastructures de recherche, la question de la pérennisation se pose. Quels sont les valorisations qui permettent de garder un modèle ouvert et catalyseur de découvertes scientifiques ? Comment encourager le partage des données suivant les principes FAIR tout en pérennisant et consolidant les outils impliqués ? Quels sont les enjeux pour la France ? - qui initie des projets d’étude comme VisaTM [7] ou nous nous intéressons à la production de services de text et data mining pour les scientifiques en France. Quid des enjeux de l’adoption de SNOMED-CT par la France dans la santé ? Comment répondre au besoin de sémantique dans le futur paysage Européen de la science ouverte (EOSC - European Open Science Cloud) ?

[1] M. D. Wilkinson, M. Dumontier, et al. 2016. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3. [2] M. D’Aquin and N. F Noy. 2012. Where to Publish and Find Ontologies? A Survey of Ontology Libraries. Web semantics, 11(August):96–111. [3] N. F Noy, N.H Shah, et al.. 2009. BioPortal: ontologies and integrated data resources at the click of a mouse. In B Smith, editor, Nucleic Acids Research, volume 37, pages 170–173. [4] C. Jonquet. 2017. Challenges for ontology repositories and applications to biomedicine and agronomy. Keynote SIMBig 2017, Lima, Peru. [5] C. Jonquet, A. Annane, et al. 2016. SIFR BioPortal : Un portail ouvert et générique d’ontologies et de terminologies biomédicales françaises au service de l’annotation sémantique. 16th Journées Francophones d’Informatique Médicale, JFIM’16, Geneva, Switzerland. [6] C. Jonquet, A. Toulet, et al. 2018. AgroPortal: A vocabulary and ontology repository for agronomy. Computers and Electronics in Agriculture, 144, pp.126-143. [7] F. Kettani, S. Schneider, et al. 2018. Projet VisaTM : l’interconnexion OpenMinTeD – AgroPortal – ISTEX, un exemple de service de Text et Data Mining pour les scientifiques français. 29emes journées francophones d'Ingénierie des Connaissances (IC’18). Session poster. Nancy, France.

Comment passer le temps en attendant le prochain SemWeb.Pro ?

Nous vous suggérons d'assister aux soirées du groupe Paris Web of Data.

Informations générales

Comité de programme

Cette année, le comité de programme est constitué de

Informations pratiques

SemWebPro mardi 6 novembre 2018 de 8h45 à 17h45

Contact: contact@semweb.pro / @semwebpro / #semwebpro

FIAP Jean Monnet

30 rue Cabanis
75014 Paris
Afficher sur OpenStreetMaps

Salle Bruxelles

La salle Bruxelles au FIAP Jean Monnet