Abstract
La valorisation des données tabulaires est un enjeu stratégique pour les
organisations car leurs connaissances sont en grande partie intégrées dans ces
structures (csv, excel, ods, gsheet). L'entreprise Orange ne fait pas exception
à cet état de fait. Avec plus de 140 000 employés à travers le monde et un
portfolio de clients et de domaines variés, Orange produit quotidiennement une
quantité phénoménale de données tabulaires hétérogènes. Ces tables servent à la
fois de vecteur et de support de stockage des connaissances. Elles sont
profondément intégrées au sein de nombreux services administratifs (RH,
finances, etc.), techniques (logs produits par les infrastructures de réseau,
etc.) et commerciaux (catalogues de produits multimédias, etc.). Par conséquent,
leur interprétation automatique ouvre la voie à une meilleure efficacité
opérationnelle et à des services innovants tirant partie de la sémantique des
données.
L'utilisation de techniques d'interprétation automatique de tables (Semantic
Table Interpretation, STI) permet d'adresser efficacement ce challenge. Ces
techniques ont pour objectif de rendre la sémantique des données plus explicite
en établissant des correspondances entre les éléments de la tables (les colonnes
et les cellules) et des entités décrites dans des graphes de connaissances
(encyclopédiques comme Wikidata/DBPedia ou d'entreprise). Les annotations
sémantiques produites par les techniques de STI peuvent être valorisées dans
plusieurs domaines d'applications : l'enrichissement de graphes de
connaissances, la correction et l'augmentation des données brutes, les moteurs
de questions réponses, la recherche et la gouvernance de jeux de données ou
encore plus généralement la gestion des connaissances. En particulier, nous
proposons d'établir une boucle vertueuse dans laquelle le graphe de
connaissances est tout d'abord utilisé pour interpréter sémantiquement les
données tabulaires puis enrichi grâce aux annotations qui en résultent.
Cette présentation introduit DAGOBAH, une approche de STI développée par la
recherche d'Orange en collaboration avec EURECOM. DAGOBAH permet de réaliser des
tâches allant du pré-traitement des tables (extraction d'en-têtes, détection de
l'orientation, etc.) jusqu'à l'identification de propriétés sémantiques entre
les colonnes en passant par la désambiguïsation des mentions contenues dans les
cellules et le typage des colonnes.
Pour améliorer la pertinence des outils DAGOBAH et favoriser l'adoption des
technologies de STI au sein de l'entreprise, notre équipe de recherche utilise
deux leviers qui seront l'objet de la deuxième partie de cette présentation :
- La participation, depuis trois années (avec un 1er prix en 2021), au challenge
SemTab (intégré à la conférence ISWC), une compétition scientifique
internationale de référence pour les techniques de STI.
- Une approche Test&Learn matérialisée par la mise à disposition au sein de
l'entreprise d'une API et d'une interface graphique pour l'annotation de
données tabulaires dont une démonstration sera proposée en fin d'intervention.
Références
- Présentation effectuée dans le cadre de l'Industry Track ISWC2021 https://www.youtube.com/watch?v=LS76NLa_xbw&t=153s
- Présentation effectuée dans le cadre du challenge SemTab2021 ISWC2021
https://www.youtube.com/watch?v=y1MTfK3XDTM&t=1s Cette vidéo comprend notamment
une démo de l'interface graphique de DAGOBAH (5'55)
Auteurs/Autrices
Yoan Chabot est chercheur au sein de l'entité Orange Innovation/DATA-AI d'Orange
depuis Novembre 2014. Il a obtenu un double doctorat Université de
Bourgogne/University College Dublin en 2014 suite à des travaux s'intéressant
à l'application des techniques d'ingénierie des connaissances au domaine
de la criminalistique informatique. Au sein d'Orange, il dirige des projets
de recherche visant à utiliser des graphes de connaissances dans des domaines
variés (data management, cybersécurité).
Pierre Monnin est chercheur au sein de l'entité Orange Innovation/DATA-AI
d'Orange depuis Septembre 2020. Il a obtenu son doctorat à l'Université de
Lorraine en 2020 pendant lequel il a travaillé sur l'extraction et la
comparaison de connaissances dans le domaine biomédical de la pharmacogénomique
dans le cadre du projet ANR PractiKPharma. Ses travaux à Orange portent sur
l'extraction de connaissances à partir de données tabulaires et l'intégration de
données incertaines dans des graphes de connaissances. Il a été general co-chair
d'ALGOS 2020 et sera Proceedings & Metadata co-chair d'ISWC 2022.
Thomas Labbé est chercheur au sein de l'entité Orange Innovation/IT&Services
depuis 2013, ainsi qu'au laboratoire d'Intelligence Artificielle de l'IRT b<>com
depuis 2020. Diplômé de l'ENSEA et de l'Université Polytechnique de Valencia, il
contribue à différents domaines de recherche avant de se spécialiser dans
l'exploitation des données textuelles. Après avoir élaboré des algorithmes de
recommandation basés sur des taxonomies et des graphes de connaissances, il
travaille aujourd'hui sur l'extraction d'information à partir de données non
structurées et semi-structurées sur des domaines ouverts ou plus spécialisés
comme la génétique.