Le pôle Modélisation des connaissances en génomique propose une présentation de Guillaume Laisney et Olivier Filangi sur "Quand les graphes deviennent trop grands : FORVM, annotation sémantique et quotient multi-graphe à grande échelle" le vendredi 6 mars 2026 à 10h.
Plus d'informations sur https://pepi-ibis.inrae.fr/pole-modelisation.
Résumé Comment explorer et exploiter des graphes de connaissances massifs sans se heurter au passage à l’échelle ? Nous répondons à ce défi par une e-infrastructure dédiée, conçue pour automatiser la production de graphes de connaissances en contexte distribué. Elle permet d’implémenter la méthode FORVM afin de traiter des millions de résumés d’articles, d’associer des concepts ontologiques et, ce faisant, de soutenir la revue bibliographique et la veille scientifique. Cette infrastructure produit aujourd’hui régulièrement des instances thématiques, telles que FORVM ChemDisease (≈ 9 milliards de triplets), fondées sur des ontologies biomédicales, ainsi que des graphes expérimentaux, tels que FORVM Plants. Pour ce dernier, nous exploitons des modèles de similarité sémantique issus de modèles de langue (embeddings) afin d’annoter à grande échelle les millions de résumés disponibles sur la plateforme. Dans ce cadre, je présenterai la Metabolomics Semantic Stack, une pile sémantique orientée “Big Data” reposant sur une architecture distribuée orientée données, conçue pour rendre les étapes de production reproductibles et opérationnelles. Je détaillerai plus particulièrement, dans le cadre du projet MetaboLinkAI, une implémentation distribuée de quotient multi-graphe inspirée de RDFQuotient (Inria), fournissant un résumé structurel et un alignement par entités partagées entre graphes RDF, ouvrant la voie à des requêtes multi-sources (requêtes transversales et requêtes fédérées sur plusieurs endpoints).