Abstract
Les principes FAIR [1] ont établi l'importance d'utiliser des vocabulaires ou des ontologies pour décrire les données et faciliter l'interopérabilité et la réutilisation. Comme toutes autres données, les ontologies, vocabulaires, thésaurus et terminologies doivent eux-mêmes être FAIR. Cependant, il est fastidieux pour les experts du domaine d'identifier les ontologies dont ils ont besoin et de gérer leur hétérogénéité, et leur chevauchement. Bien qu'il y ait de multiples façons de rendre les ontologies FAIR, on s'accordera à dire que développer des portails ouverts d'ontologies en fait certainement partie. Les fonctionnalités des portails d'ontologies vont d'une simple liste avec plus ou moins de descriptions de métadonnées (e.g., OBO Foundry, WebProtégé, FAIRsharing, BARTOC), à des plateformes qui indexent le contenu et offrent des services avancés : navigation, recherche, visualisation, métriques, annotation, recommandation, etc. (e.g., LOV, OntoBee, CISMeF HeTOP, EBI OLS, NCBO BioPortal, MMI ORR, OntoHub). Elles sont parfois thématiques, et le domaine biomédical a initié plusieurs d’entre elles [2].
BioPortal [3], le portail d'ontologies de référence en biomédecine, construit par le US National Center for Biomedical Ontology s'appuie sur une technologie ouverte, indépendante du domaine, régulièrement réutilisée. Par exemples, par l’ESIP Portal, MMI ORR, BiblioPortal ou lorsqu’il faut traiter des données en interne (e.g., hôpitaux).
Il existe plusieurs défis pour les portails d’ontologies [4] : métadonnées et sélection, multilinguisme, alignement, fournir des nouveaux services génériques, les annotations et données liées, l’interopérabilité et le passage à l’échelle. Au LIRMM, nous essayons de relever certains de ces défis dans le cadre des projets SIFR BioPortal (http://bioportal.lirmm.fr) [5] et AgroPortal (http://agroportal.lirmm.fr) [6] en réutilisant, la technologie du NCBO au service des applications biomédicales (en français) et à l'agronomie et ses domaines connexes -agriculture, science des plantes, nutrition et biodiversité.
En partenariat avec l’Université de Stanford, nous développons et maintenons ces deux portails d’ontologies et de services à base d’ontologies qui nous permettent d’attaquer des problèmes de recherche complexes tels que le traitement de la langue, l’alignement d’ontologies, l’annotation sémantique, l’ingénierie ontologique, tout en étant pilotés par des scénarios d’applications concrets dont les impacts en santé et agronomie sont mesurables. Ces projets sont particulièrement fédérateurs pour plusieurs institutions de recherche (INRA, IRSTEA, CIRAD, IRD, CGIAR) et ont un impact national et international reconnu.
Aujourd’hui, le besoin pour des plateformes équivalentes se fait ressentir dans différents domaines e.g., l’écologie, les sciences sociales, les géosciences. En outre, avec l’adoption du Web sémantique dans le monde professionnel et l’impact de standards de ressources sémantiques plus souples etaccessibles comme SKOS, les utilisateurs intéressés ne sont plus seulement les scientifiques mais inclus tous les acteurs de la donnée en général.
Dans toutes les infrastructures de recherche, la question de la pérennisation se pose. Quels sont les valorisations qui permettent de garder un modèle ouvert et catalyseur de découvertes scientifiques ? Comment encourager le partage des données suivant les principes FAIR tout en pérennisant et consolidant les outils impliqués ? Quels sont les enjeux pour la France ? - qui initie des projets d’étude comme VisaTM [7] ou nous nous intéressons à la production de services de text et data mining pour les scientifiques en France. Quid des enjeux de l’adoption de SNOMED-CT par la France dans la santé ? Comment répondre au besoin de sémantique dans le futur paysage Européen de la science ouverte (EOSC - European Open Science Cloud) ?