Détails des présentations

The Next 10 Years of Success

présentateur:Phil Archer - W3C
twitter:@philarcher1
hashtags:

Phil Archer nous parlera des dernières nouvelles du groupe Data Activity au W3C.

Présentation : http://www.w3.org/2014/Talks/1105_phila_semwebpro/

Du web sémantique à tous les étages ?

Présentateur

présentateur:Yann Nicolas / Michael Jeulin

biographie

Yann Nicolas est bibliothécaire à l'Agence Bibliographique de l'Enseignement Supérieur depuis 2003. Responsable du département Études et Projets. En participant au développement des différents catalogues bibliographiques gérés par l'ABES (Sudoc, IdRef, Calames, theses.fr), je me suis intéressé à tous les moyens de favoriser l'interopérabilité. Fatalement, en chemin, j'ai croisé les technologies du web sémantique, vers 2005-2006. Elles sont désormais au cœur de notre arsenal et de notre stratégie.

Michael Jeulin est bibliothécaire, en poste à l'ABES depuis 2012 (Département des services aux réseaux). Mes activités concernent principalement l'exposition des catalogues de l'ABES en RDF - en particulier le Sudoc - et le traitement de métadonnées d'éditeurs.

L'ABES a pour métier la gestion des métadonnées bibliographiques de l'enseignement supérieur français. Soit elle les récupère auprès de fournisseurs (autres catalogues, éditeurs), soit elle coordonne leur production par le réseau des bibliothèques universitaires.

Depuis 2008 et surtout 2010, l'ABES mise sur le web sémantique. Comme d'autres, elle a d'abord décidé de partager et de lier ses métadonnées sur le web de données. Cela concerne tous ses catalogues : le catalogue général Sudoc, le catalogue des archives et des manuscrits Calames, le catalogue theses.fr et sa base-référentiel de personnes, collectivités, concepts... IdRef. Ce travail d'ouverture est toujours en cours, car le principal format natif à traduire en RDF, appelé MARC, est très riche, et même touffu. Pour l'instant, l'exposition en RDF se fait à la volée, à partir d'une base XML qui stocke du MARC en XML. Passer à un triplestore semble tentant, mais on résiste... tout en cherchant une solution pour devenir interrogeable en SPARQL.

A partir de 2013, l'ABES a commencé à utiliser RDF comme pivot pour agréger et traiter des métadonnées fournies par des des tiers sous des formes très variées. Il s'agit donc de commencer à travailler en RDF, et plus seulement de l'utiliser en sortie.

Aujourd'hui, on commence à réfléchir à l'avenir des outils de production de métadonnées du réseau Sudoc. Là encore, faut-il aller vers du RDF natif ? Tout en retraçant ce cheminement qui touche tous les aspects de nos expertises et applications métier, nous tenterons d'expliciter les contraintes et les principes directeurs qui déterminent nos actions et nos interrogations.

Réaliser une application Web sémantique grâce à l’outil VIVO - Cas pratique de LOP Inra

présentateur:Esther Dzalé Yeumo Kaboré / edzale@versailles.inra.fr
hashtags:#vivo #ontology, #semanticweb

biographie

Après une formation d'ingénieure en informatique, Esther Dzalé a ensuite travaillé à l'IRISA de 2002 à 2005 en tant qu'administrateur système d'informatique au sein de la plateforme bio-informatique Genouest. Elle travaile depuis à la direction de l'Information Scientifique et Technique de l'Inra depuis 2005 et est chef de projet informatique.

Le but de cette présentation est de faire découvrir les plateformes Vitro et VIVO développées par l’université de Cornell. Vitro est une plate-forme d’édition, de navigation, de recherche et de publication de données en RDF. Son interface permet de modifier à la fois l’ontologie et les instances, et peut être customisé (pour la présentation ou la recherche). VIVO quant à lui est une adaptation particulière de Vitro pour les acteurs de la recherche scientifique.

À l’Inra, nous avons utilisé VIVO pour proposer une version sémantique des publications scientifiques de l’Inra contenues dans l’archive institutionnelle Prodinra. Le résultat offre des fonctions de recherche/découverte/visualisation des acteurs de la recherche (personnes, structures), de leurs activités et productions, ainsi que des événements auxquels ils participent. Le projet a consisté en une migration des données de ProdInra vers VIVO, un chargement des données dans VIVO, une customisation de l’ontologie utilisée par VIVO ainsi que des templates d’affichage des données.

Présentation de Bano - http://openstreetmap.fr/bano

présentateur:Christian Quest / cquest@openstreetmap.fr
twitter:@cq94
hashtags:#osm #openstreetmap #data #opendata #adresses #bano

biographie

Christian est un autodidacte tombé dans l'information au début des années 80. Les ordinateurs puis les logiciels, les bases de données et maintenant les données souvent géographiques l'ont amené à participer au projet OpenStreetMap. Il a rejoint dernièrement l'équipe Etalab (data.gouv.fr) pour y coordonner le projet BANO (Base d'Adresses Nationale Ouverte).

Bano est une base d'adresses composite à partir des meilleures sources disponibles (et libres).

L'objectif est de proposer une couverture la plus étendue possible, la plus homogène possible.

Bien sûr à son démarrage BANO ne sera pas exhaustive, ni parfaite (quelles données sont parfaites ?) et fonctionnera dans l'esprit "release early, release often" cher au monde de l'open-source.

Il s'agit donc d'un projet ouvert et collaboratif ou toutes les bonnes volontés sont les bienvenues pour apporter des données, des outils, du code, des ressources matérielles, de la matière grise !

Présentation des dernières nouveautés de datao

présentateur:Olivier Rossel
twitter:@datao
hashtags:#sparql #dataset #query #java

biographie

à venir

Présentation des dernières nouveautés du navigateur de données datao.

Visibilité et web de données

présentateur:Sébastien Peyrard / Agnès Simon
twitter:@SebPeyrard
hashtags:#bnf #bibliotheques #schemaorg #seo

biographie

Sébastien Peyrard est conservateur à la BnF, au département de l'Information bibliographique et numérique, depuis 2008.

De 2008 à 2013, il a travaillé sur le magasin numérique de la BnF, SPAR (système de préservation et d'archivage réparti) pour lequel il était en charge du modèle de données. Depuis 2014, il est responsable des traitements automatisés pour les données des catalogues de la BnF. À ce titre, il participe notamment à l'évolution du service http://data.bnf.fr et à son articulation avec les catalogues de l'établissement. Il est le référent métier pour les identifiants pérennes (ARK).

Agnès Simon est conservateur à la Bibliothèque nationale de France, au département de l'Information bibliographique et numérique, depuis 2011. Elle est responsable du projet http://data.bnf.fr, qui expose les données de la BnF sur le web de données.

C’est le paradoxe des bibliothèques : l’intérêt des internautes pour leurs ressources numérisées ne cesse d’augmenter, comme en témoigne l’accroissement de la fréquentation de la bibliothèque numérique Gallica ; cependant, ces ressources, ainsi que les contenus de nos catalogues, ne sont pas ou peu accessibles depuis les moteurs de recherche du web. Aussi nos missions de médiation et de diffusion culturelle doivent-elles aujourd’hui être repensées sous l’angle du marketing du web : comment faciliter l’accès à nos ressources, toucher de nouveaux publics, favoriser les découvertes heureuses sur le web ?

La visibilité des ressources de la Bibliothèque nationale sur le web est devenue une question stratégique, en particulier à travers le service http://data.bnf.fr, qui repose sur les standards du web sémantique. Trois ans après son ouverture, le site http://data.bnf.fr compte plus de 130 000 visiteurs uniques par mois, dont 80% viennent des moteurs de recherche du web, et 60% rebondissent vers les catalogues et autres bases de la BnF. Un exemple d’utilisation : un internaute cherchant« Satires, Nicolas Boileau » sur le web, trouve la page http://data.bnf.fr/12050177/nicolas_boileau_les_satires/, laquelle fournit un point d’accès unique et fiable aux nombreuses déclinaisons de cette œuvre dans les collections de la BnF, numérisées ou non, adapté aux moteurs de recherche et au parcours des internautes.

À la lumière de cette expérience, nous nous interrogeons sur les rapports entre web sémantique et visibilité dans les résultats de recherche des moteurs de recherche. Au-delà de l’exposition des données en RDF ou de l’intégration de schema.org, dont nous mesurons mal l’impact effectif sur le référencement du site, trois facteurs nous paraissent essentiels: la valeur ajoutée intrinsèque des contenus, l’organisation de la masse et l’inscription dans un réseau. http://data.bnf.fr crée en effet des pages web avec du contenu et des informations à forte compétitivité par sa qualité ou sa rareté, dans le contexte d’une offre culturelle pléthorique sur le web. Deuxièmement, il organise la masse d’informations publiées par la BnF (près de 20 millions de notices de catalogues et de référentiels d’auteurs, œuvres, thèmes, ou lieux, 3 millions de documents numérisés), en s’appuyant sur des traitements automatiques d’alignement et de regroupement des informations. Enfin, l’inscription de ces ressources dans un réseau global, en s’appuyant sur des alignements à des jeux de données extérieurs, permet de développer les liens sortants et, dans une certaine mesure, de favoriser les liens entrants.

Web Sémantique et Linked Open Data : des usages aux données, comment tirer profit des données ouvertes dans un mashup web

présentateur:Julien Homo / Antidot
twitter:@julien_homo
hashtags:#datasets #linkeddata #semanticpedia #culture

biographie

à venir

Cette conférence présentera les bonnes pratiques pour la conception et la réalisation d'une application web tirant profit de plusieurs sources de données ouvertes : comment choisir les jeux de données ? Comment les articuler ou les agréger ?

Cette présentation s'appuiera sur un exemple concret : l'application « Musées de France », primée en avril 2014 par le ministère de la Culture dans le cadre du concours Semanticpedia.

The Read-Write Secure Linked Data Web

présentateur:Henry Story
twitter:@bblfish
hashtags:#ldp #accesscontrol #webid #sparql #identification

biographie

Apache - LDP & Social Web WG du W3C

In order to enable a space of co-operation between distributed organisation in an agile manner read only Linked Data is not enough. One also needs:

  • to write data to remote systems in a RESTful manner
  • to allow an actor to bind himself to a remote action
  • global identification - so that an actor can know who said what and what action he commited himself to
  • distributed access control
  • ...

Henry Story will show how the LDP Protocol (in last call) enables one to build this, how it ties into WebID and Web Access Control, and how it differentiates itself and complements technologies such as SPARQL.

Modèle d’Information du Bâtiment et Web Sémantique

présentateur:Christophe Nicolle / Université de Bourgogne
hashtags:#bigdata #triplestore #BTP #OWL #academique

biographie

Christophe Nicolle est Professeur des Universités (spécialité informatique) à l’Université de Bourgogne. Il dirige l’équipe de recherche Checksem (laboratoire LE2I – UMR CNRS 6306) spécialisée dans le domaine de l’intelligence sémantique. Il mène de nombreux projets de recherche en partenariat avec des industriels dans divers domaines tels que le mobile-learning, le web- marketing, le tourisme, la cytométrie, le bâtiment, la cybercriminalité... Dans chaque projet il propose une approche sémantique basée sur des ontologies décidables pour développer des outils d’analyse qualitative des données et résoudre les problèmes d’interopérabilité.

Dans le secteur du bâtiment, il a participé à la création de la société Active3D en 2001. Active3D propose une plate-forme web collaborative basée sur des ontologies pour la gestion des installations du bâtiment. La société Active3D est leader national dans la gestion technique de patrimoine immobilier sur les marchés publics et emploie une vingtaine de personnes.

Le cycle de vie d’un bâtiment se décompose en deux grandes phases : la construction et la maintenance. Chaque phase fait intervenir différents corps de métiers (architecte, bureau d’études, plombiers...), avec, pour chacun, différents vocabulaires, processus et logiciels. Le plan papier, conçu par l’architecte, est la seule référence acceptée par tous. Charge à l’architecte de conduire cette hétérogénéité d’acteurs, de logiciels et de données jusqu’à l’étape de livraison. Ensuite, c’est au gestionnaire de patrimoine de coordonner les actions de maintenance et de réhabilitation.

Pour faciliter l’automatisation de l’interopérabilité entre ces acteurs, un standard de modélisation des données du bâtiment a été proposé en 1999 par l’association BuildingSmart. Ce format : Industry Foundation Classes (IFC 2X3 dans sa version actuelle) permet de représenter l’intégralité des objets qui composent le bâtiment sous la forme d’une maquette numérique 3D. Cette maquette est utilisée par l’ensemble des logiciels dédiés aux professions du bâtiment. Au-delà des objets du bâtiment, de nombreuses professions utilisent les informations de cette maquette, tels les assureurs, les notaires, les comptables, les impôts... L’ensemble des connaissances associées aux bâtiments fait l’objet de nombreux travaux de recherche sur le thème du BIM (Building Information Modelling).

Pour répondre à l’ensemble des besoins liés à cette modélisation et cette gestion du BIM, nous avons développé une plateforme basée sur des ontologies OWL DL stockées dans un triplestore. Le peuplement est réalisé par un module sémantique développé à partir de l’ETL Talend Open Studio. Des requêtes SPARQL sont utilisées pour extraire des données de cet environnement (par exemple des vues 3D de la maquette pour fournir uniquement les données pertinentes à chaque corps de métier). Des règles SWRL sont construites visuellement et stockées dans le triplestore pour créer de nouveaux concepts et les peupler par inférence (par exemple le concept "mur de façade" qui n’existe pas dans la norme IFC) ou encore pour calculer des parcours de déplacement dans le bâtiment pour des simulations multiagents.

Cet ensemble stocke actuellement 70 millions de m2 de patrimoine immobilier sous la forme de triplets RDF avec 20 millions d’objets connectés qui ont leur propre autonomie grâce à la sémantique. Des milliers d’utilisateurs travaillent quotidiennement sur cette plateforme. Cette solution a remporté en 2003 la médaille d’or de l’innovation au salon international du bâtiment (Batimat 2003) et elle est lauréate du Concours Mondial de l’Innovation dans la catégorie BigData en 2014.

présentation du portail sémantique de la FEVIS

présentateur:Pierre Choffé / Fevis
twitter:@pierrechoffe
hashtags:#alignement #retourdexperience #musique

biographie

à venir

Présentation du projet de portail de la FEVIS (Fédération des Ensembles Vocaux et Instrumentaux Spécialisés) qui viste à promouvoir le patrimoine des ensembles adhérents à la fédération.

La présentation exposera l'intérêt du web sémantique pour un tel projet, les différents jeux de données utilisés pour relier les données patrimoniales (data.bnf.fr, dbpedia, portail de la musique contemporaine, etc.), ainsi que les difficultés rencontrer pour la réutilisation des ontologies existantes.

Applications pour les mashups sémantiques côté client

présentateur:Lionel Médini / Université de Lyon I
twitter:@lmedini
hashtags:#restful #javascript #mashup #academique #optimisation

biographie

Pierre-Antoine Champin, Amélie Cordier, Lionel Médini (présentateur) et Michaël Mrissa sont quatre enseignants-chercheurs du Laboratoire d'InfoRmatique en Image et Système d'information (LIRIS) de Lyon. Ils travaillent sur des domaines connexes comme l'Intelligence Artificielle, le Web Sémantique, les services Web ou les mashups de données. Ils sont tous les quatre également intéressés par les technologies du Web et fondateurs d'un groupe de travail autour cette thématique au LIRIS.

La tendance dans les technologies Web est de déporter de plus en plus de calculs côté client. Cela permet aux fournisseurs de services d'alléger les serveurs et de réduire la bande passante lors des échanges de données, et accessoirement aux utilisateurs de mieux maîtriser leurs données. Dans cette présentation, nous proposons d'appliquer également cette tendance aux technologies du Web sémantique.

Les principaux verrous quant à l'implémentation côté client de technologies habituellement localisées côté serveur sont d'une part la lourdeur des calculs (qui tend à être contrebalancée par l'amélioration des performances des clients) et la connaissance partielle des données, limitée aux données publiques et à celles du client. Nous aborderons des stratégies existantes pour surmonter ou contourner ces difficultés.

Forts de plusieurs expériences dans les domaines du Web, des services et du Web sémantique, nous avons spécifié et sommes en train de développer un framework fondé sur RDF-REST [SALAD 2013] permettant de réaliser des mashups de ressources sémantiques [SALAD 2014]. Ce framework est entièrement programmé en JS et respecte les standards du Web et les principes des architectures RESTful. Nous présenterons les grands principes de ce framework, ainsi que les aspects techniques et les outils sur lesquels s'appuie son implémentation.

Les applications de ce framework vont du mashup de données à la découverte de services REST en passant par le Web des objets. Nous donnerons notamment l'exemple d'une application de gestion de conférence existante et en cours d'évolution pour intégrer ce framework.

Datalift, une plateforme Linked Data, Retour d'expériences

présentateur:Gabriel KEPEKLIAN / Association Datalift
twitter:@g_kn
hashtags:#Datalift #LinkedData #LOD #Atos #data

biographie

L’association DataLift a pour but de favoriser le développement du web des données, par la recherche, l’innovation et toute activité permettant de promouvoir ses usages comme ses technologies. Elle prend son origine dans les travaux des partenaires du projet de recherche Datalift ANR-10-CORD-009 dont elle veut poursuivre les objectifs ainsi que pérenniser et valoriser les résultats.

La production, la consommation et l'échange de données s'intensifient et le besoin d'interopérabilité n'a jamais été aussi prégnant. Mais a-t-on encore le temps de développer des interfaces ou de mettre au point une langue commune entre acteurs ? A-t-on encore besoin de telles interfaces qui ne serviront peut-être qu’une fois ? Ou bien la solution n’est pas plutôt dans une data interopérable ? Le linked data n'est plus un Eldorado incertain, il est devenu une réalité aux dimensions vastes et en expansion mais encore méconnue.

Datalift est une plateforme tout-en-un productrice de linked data qui apporte une solution concrète et aisée. Les données à traiter sont captées dans leurs structures d'origine (fichiers, bases de données, requêtes, données géographiques, etc.). A l'aide de vocabulaires (thesaurus, ontologies), elles sont transformées pour faciliter leurs liaisons. Les fusions obtenues enrichissent mutuellement les sources en même temps qu’elles forment un ensemble de données liées (linked data) exploitables de multiples façons : requêtes, data visualisation, extractions, exports dans de nombreux formats. Ces opérations peuvent être réalisées sans programmation sur un socle open source de façon interactive, elles peuvent aussi être automatisées. La richesse fonctionnelle et technologique de Datalift fait que ses utilisateurs vont des simples utilisateurs aux datascientistes, mais aussi au dialogue machine to machine.

Le développement de la plateforme et son utilisation permettent aujourd'hui de dresser un premier regard rétrospectif que nous nous proposons de présenter en trois temps. Nous commencerons notre exposé par la démonstration d’une interconnexion de jeux de données hétérogènes rendue possible par un alignement d’ontologies. Cette démo visibilisera le caractère « tout-en-un » d’une plateforme qui s’installe en un clic. Nous poursuivrons par un survol de l’architecture de la plateforme. Nous terminerons par un triple retour d’expérience : méthodologique, architectural et usages.

SKOS Play : publier et visualiser des thesaurus SKOS

présentateur:Thomas Francart / thomas.francart@sparna.fr
hashtags:#SKOS, #thesaurus, #PDF, #dataviz

biographie

Thomas Francart, créateur de SKOS Play, est consultant sur les technologies du web de données, les systèmes de gestion d'ontologie et d'organisation de connaissances et leur intégration avec les outils d'analyse linguistique, les moteurs de recherche, et les bases de données sémantiques.

Dans un contexte où les professionnels de l'information et de la documentation s'approprient les technologies du web de données, de plus en plus de systèmes d'organisation de connaissances sont publiés en SKOS sur le web. Ces thesaurus, taxonomies ou classifications permettent 1- un accès plus efficace à l'information 2- une interopérabilité entre catalogues grâce aux liens d'alignement inter-classification et 3- un début de structuration d'un domaine de connaissance.

Avoir les données de ces thesaurus, c'est bien, pouvoir faire quelque chose de ces données, c'est encore mieux ! c'est ce que permet l'application SKOS Play [1] en générant, à partir de données en SKOS, des documents de qualité professionnelle contenant l'index alphabétique des concepts, l'arborescence hiérarchique, les tableaux de traductions entre langues ou encore les index permutés KWIC. SKOS Play permet également de générer des visualisations innovantes des thesaurus à partir de la bibliothèque d3.js [2].

Conçu comme un outil simple d'utilisation, open-source, et à la disposition de la communauté, SKOS Play permet de valoriser et d'encourager la publication de systèmes d'organisation de connaissances en SKOS. Il est utilisé par plusieurs portails de publication de données, notamment celui du Ministère de la Culture [3], heritagedata au Royaume-Uni [4], ou encore le thesaurus Reegle [5] en Autriche.

On détaillera dans la présentation les visualisations possibles (et futures !) de l'application, les challenges posés par le traitement de données SKOS, et ce qui fait la spécificité des technologies du web de données dans ce contexte.

[1] SKOS Play : http://labs.sparna.fr/skos-play

[2] d3js : http://d3js.org/

[3] Ginco Diffusion : http://data.culture.fr/thesaurus

[4] heritagedata : http://www.heritagedata.org/blog/vocabularies-provided/

[5] Reegle thesaurus : http://www.reegle.info/glossary

Naturopédia : Publication multi-supports et animation communautaire augmentés par la sémantique

présentateur:Nicolas Delaforge pour Mnémotix
twitter:@ndelaforge
hashtags:#edition #multi-supports #ebooks #thesaurus #scenari

biographie

Mnémotix est une jeune société, créée en janvier 2013, spécialisée dans l’ingénierie documentaire et des connaissances. Originaire de l’INRIA de Sophia Antipolis, cette société coopérative à intérêt collectif (SCIC), s’est donné pour mission de démocratiser le Web sémantique pour les entreprises, jusqu’ici réservé à une certaine élite industrielle. L’équipe Mnémotix s’est forgée une solide expérience auprès des meilleures équipes de recherche françaises du domaine et souhaite proposer une alternative crédible et compétitive aux poids lourds du domaine.

Grâce à une stratégie de mutualisation de moyens avec ses partenaires industriels et académiques, couplée à un socle technologique essentiellement open-source, Mnémotix a mis au point une chaîne d’extraction et de structuration des connaissances, permettant d’accomplir des tâches de collecte, d’analyse, de cartographie et de visualisation de données métiers et/ou communautaires. Ce service, basé sur un “middleware sémantique” modulaire et personnalisable, est destiné à se connecter, à fédérer et à enrichir les applications d’entreprise (intra- ou extra-net) existantes afin de leur conférer de nouvelles capacités d’analyse, d'organisation des connaissances, pour une meilleure gestion des compétences et des communautés.

Ce projet consiste à réaliser une plate-forme technologique communautaire permettant la valorisation et l’exploitation d’un fonds documentaire construit autour d’un domaine d’expertise. Dans le cadre du projet Naturopédia, le corpus valorisé est dédié à la naturopathie et à l’agro-écologie. Il est composé d’une cinquantaine d’ouvrages soit théoriques soit techniques, ainsi que d’une large documentation annexe. L’objectif de ce projet est de s’appuyer sur ce corpus d’une richesse rare, pour fédérer une communauté de pratique aujourd’hui mal outillée, de favoriser la diffusion de ce savoir et le partage d’expérience entre les acteurs du domaine, professionnels ou amateurs. L’objectif des équipes rassemblées dans le projet Naturopedia est de mettre à disposition des pouvoirs publics, des multiples ONG du secteur, des entreprises de l’Economie Sociale et Solidaire, des technologies de diffusion innovantes, de nouveaux services de collecte et propagation de la connaissance, leur permettant d’amplifier leurs actions et d’œuvrer pour le bien public.

L’originalité de ce projet réside dans l’intégration de différentes approches, théoriques et techniques, issues de l’ingénierie documentaire (séparation fond-forme, publication multi-supports,...) et de l’ingénierie des connaissances (annotation sémantique des contenus par ontologie de domaine) pour la création d’une chaîne éditoriale hybride et innovante. Pour cela, Mnémotix, en partenariat avec Kelis, la société en charge du développement de la chaine éditoriale libre SCENARI, prendra à sa charge le processus d’annotation semi-automatique du corpus Naturopédia, ainsi que l’exploitation de ces annotations dans le processus de génération multi-supports SCENARI.

La souplesse des modèles documentaires conçus pour le projet, la granularité de la structuration des contenus ainsi que la pertinence des annotations sémantiques devront permettre à terme de publier à la volée des compilations de type “livre de recettes” destinés soit aux professionnels du domaine soit au grand public, sous la forme de modules pédagogiques compatibles SCORM, d’ebooks ou d’applications mobiles.

Dans le cadre de notre intervention, nous présenterons tout d’abord l’architecture globale du projet, telle qu’elle a été conçue. Nous détaillerons ensuite la phase de sémantisation et de transformation du corpus documentaire. Nous aborderons également les verrous technologiques que nous avons identifiés ainsi que les stratégies envisagées pour les lever, notamment dans l’intégration des technologies Mnémotix au sein de l'environnement d'édition open-source SCENARI. Enfin, nous parlerons des contraintes liées aux formats d’export : applications mobiles, livres électroniques ou bien formations en ligne et leur intégration avec la plate-forme collaborative destinée à fédérer les communautés Naturopathie et agro-écologie.

Système de recommandation sémantique de news économiques pour la veille économique

présentateur:Christophe Cruz / Université de Bourgogne
hashtags:#veille #annotation #datamining #recommandation

biographie

Christophe CRUZ est maître de conférences HDR au laboratoire Le2i UMR CMRS 6309 de l'Univeristé de Bourgogne. Depuis plus de 10 ans, son cœur de métier est fortement lié aux technologies du Web Sémantique. Au cours de nombreux projets académiques et industriels, il a appliqué et étendu ces technologies dans le domaine de l'archéologie, de la métrologie, de la business intelligence, de la géomatique, du BIM. Actuellement, il est responsable d'une ANR-DFG en collaboration avec le Collège de France et l'Université Libre de Berlin, et d'un contrat de collaboration avec la société Actualis spécialisé dans la veille économique. Il est responsable du transfert de technologie du laboratoire Le2i et correspondant Institut Carnot ARTS.

De nos jours dans les secteurs commerciaux et financiers, la veille électronique d’articles économiques est cruciale. Maintenir une veille efficace implique de cibler les articles à consulter, car la charge d’information est importante. Pour répondre à cette problématique, nous proposons un système novateur de recommandation d’articles, car il s’appuie sur l’intégration d’une description sémantique des items et des profils basés sur une modélisation ontologique des connaissances. Notre approche s’établit sur l’adéquation de la recommandation aux besoins des utilisateurs. Pour cela, nous avons mené une enquête auprès des clients-lecteurs pour définir les critères qui pourraient permettre la personnalisation du contenu de la revue. Les résultats de l’enquête ainsi que la connaissance des experts du domaine ont permis de mettre en avant les trois critères principaux suivants : les Thèmes (principaux évènements économiques traités dans l’article), les secteurs économiques dont traitent l’article, et les Localisations. Les développements réalisés dans le cadre de ce projet se composent des trois axes suivants.

Le premier axe se caractérise par le développement d’une architecture sémantique pour l’annotation, l’indexation de documents, le profilage des clients, et finalement la recommandation de revues économiques.

Le deuxième axe résident dans l’ontologie de domaine réalisée en coopération avec les documentalistes de la société Actualis. Cette ontologie constitue la connaissance métier permettant l’annotation et l’indexation des articles économiques.

Le dernier axe se compose du moteur de recommandation exploitant la connaissance métier afin de calculer une similarité asymétrique entre chaque article économique indexé et chaque profil utilisateur. Suites au retour d’expériences fournies par le prototype développé l’année précédente, nous avons pu mettre en production un outil fonctionnel commercialisé depuis début février. Les technologies employées dans l’architecture technique de la solution en production se composent de triplestores pour stocker les connaissances, les documents, les profils, et interaction utilisateurs, etc. Le modèle de données sémantiques se traduit par l’usage des langages RDF et OWL-DL. Les contraintes logiques de ce second sont exploitées à son maximum dans le processus de classification hiérarchique multiétiquette et automatique des documents dans un modèle prédictif ontologique.

Spécialisation du moteur sémantique Cognit’Ive dans différents contextes utilisateurs

présentateur:Olivier Picot
hashtags:#Object'Ive #Cognit'Ive #agrégation #extraction #enrichissement #entité #tendance #classification # textmining #datamining #datavisualisation

biographie

Olivier Picot est le fondateur d’Object’Ive, société de conseil en TIC. Il est en charge de la stratégie et de la veille technologique au sein de l’entreprise. Il dispose d’une expérience de plus de 20 ans en tant que consultant dans le monde de l’informatique d’entreprise qui fait de lui un professionnel reconnu.

Passionné de technologies, il est titulaire d’un Master en Intelligence Artificielle de l’Université Paris VI Pierre et Marie Curie et certifié Sun Programmer et Sun Web Component Developer. Il intervient régulièrement lors de conférences, notamment sur le web sémantique, à l’UMPC Paris VI auprès du Master II en Intelligence Artificielle ainsi qu’à l’UPEC Paris XII.

Cette communication a pour objectif de présenter le moteur sémantique d’agrégation de contenus Cognit’Ive, développé par le Lab Object’Ive, et sa spécialisation dans le cadre de trois use-cases différents.

La solution Cognit’Ive consiste en une plateforme permettant d’agréger et d’enrichir sémantiquement des contenus provenant de sources diverses et de formats différents. Le moteur sémantique de Cognit’Ive inclut à la fois les dernières technologies du web sémantique ainsi que des technologies issues du data/text mining et de la datavisualisation. Cognit’Ive a été spécialisé dans le cadre de plusieurs use-cases dont :

  • SemanticMail :

    Ce projet consiste en la spécialisation de Cognit’Ive pour l’enrichissement sémantique des boites mails des collaborateurs EDF. Il a été présenté au concours Innovation EDF 2013. Le Jury a décidé de la réalisation d’un pilote auprès d’une centaine d’utilisateurs avant un déploiement à plus grande échelle dans le courant de l’année 2014. Les principales fonctionnalités implémentées sont les suivantes : classification automatique des mails (supervisée et non supervisée), extraction d’entités métiers, proposition d’informations associées (mails similaires, recommandations de contenus connexes issus de sources externes), recherche intelligente par facettes dans la boite mail et navigation enrichie (regroupements par thèmes, interface web, vue des mails selon une time-line dynamique)

  • Projet CRM :

    Ce projet a pour objectif l’intégration dans Cognit’Ive des compte-rendus commerciaux issus du CRM de la société afin de procéder à leur enrichissement sémantique en vue de faire émerger automatiquement de nouvelles informations : identification des opportunités business, tendances du marché, tendances des rendez-vous commerciaux effectués, degré de satisfaction client, planning des prochaines actions commerciales, informations complémentaires sur les Business Units d’un client...

  • Projet Access Request

    La finalité de cette spécialisation de Cognit’Ive est d’analyser et enrichir les requêtes techniques (incidents et demandes d’accès) des équipes du support IT afin d’identifier les sujets importants et récurrents pour mieux les anticiper. Les informations extraites portent ici notamment sur : l’identification des serveurs, applications, base de données, références de fiches Jira concernés par les demandes ; la localisation du demandeur ; l’unité organisationnelle émettant la demande ; l’analyse de la fréquence des demandes par type de sujet...