Pôle Modélisation des connaissances en génomique | PEPI Ingénierie Bio Informatique et Statistique pour les données haut-débit (IBIS)

Objectif

Ce pôle met en relation les bioinformaticiens maintenant des systèmes d'information qui intégrent des jeux de données omiques, la description des échantillons concernés et les métadonnées qui y sont associées. Il a pour objectif de discuter ou de proposer des modèles de données pratiques, standards, efficaces pour collecter, décrire et comparer ces données. C'est aussi l'occasion d'échanger sur les technologies de bases de données (relationnel, noSQL, RDF, graphes, etc...) et des outils pour les alimenter, les interroger et les interfacer.

Présentation du pôle

Le pôle a été créé au 1er janvier 2025, et est piloté par Matéo Boudet (IGEPP, Rennes), Sandra Dérozier (MaIAGE, Jouy-en-Josas) et Fabrice Legeai (IGEPP, Rennes). Pour les membres du groupe, nous proposons des sessions en visioconférence de 2h tous les 2 ou 3 mois, incluant un exposé (présentations de modèles ou de schéma de base de données, discussion autour des problématiques liées à la gestion des données "omiques", besoins et conseils, retours d’expériences, tests et comparatifs de technologies, retour sur des formations, utilisation d'infrastructure, ...). Une journée thématique pourra être organisée tous les 2 ans.

Contact

Si vous souhaitez vous inscrire ou obtenir des informations complémentaires, envoyez un message à pepi-bioinfostats-integration-visualisation@inrae.fr.

Webinaires

6 mars 2026

Quand les graphes deviennent trop grands : FORVM, annotation sémantique et quotient multi-graphe à grande échelle par Guillaume Laisney (INRAE TOXALIM) et Olivier Filangi (INRAE IGEPP). Comment explorer et exploiter des graphes de connaissances massifs sans se heurter au passage à l’échelle ? Nous répondons à ce défi par une e-infrastructure dédiée, conçue pour automatiser la production de graphes de connaissances en contexte distribué. Elle permet d’implémenter la méthode FORVM afin de traiter des millions de résumés d’articles, d’associer des concepts ontologiques et, ce faisant, de soutenir la revue bibliographique et la veille scientifique. Cette infrastructure produit aujourd’hui régulièrement des instances thématiques, telles que FORVM ChemDisease (≈ 9 milliards de triplets), fondées sur des ontologies biomédicales, ainsi que des graphes expérimentaux, tels que FORVM Plants. Pour ce dernier, nous exploitons des modèles de similarité sémantique issus de modèles de langue (embeddings) afin d’annoter à grande échelle les millions de résumés disponibles sur la plateforme. Dans ce cadre, je présenterai la Metabolomics Semantic Stack, une pile sémantique orientée “Big Data” reposant sur une architecture distribuée orientée données, conçue pour rendre les étapes de production reproductibles et opérationnelles. Je détaillerai plus particulièrement, dans le cadre du projet MetaboLinkAI, une implémentation distribuée de quotient multi-graphe inspirée de RDFQuotient (Inria), fournissant un résumé structurel et un alignement par entités partagées entre graphes RDF, ouvrant la voie à des requêtes multi-sources (requêtes transversales et requêtes fédérées sur plusieurs endpoints).

[Vidéo de la présentation] [Support de présentation]

28 novembre 2025

La plateforme d'analyse ABRomics par Julie Lao (Institut Français de Bioinformatique). L’antibiorésistance constitue l’une des menaces croissantes pour la santé publique mondiale, ayant causé directement 1,27 millions de décès en 2019 et contribué à 4,95 millions de morts supplémentaires (Antimicrobial Resistance Collaborators , 2022). Dans ce contexte, le projet ABRomics (https://www.abromics.fr/) démarré en 2021, est porté par l’Institut Français de Bioinformatique (IFB) et l’Institut Pasteur. Il vise à mettre en place un dépôt de données microbiologique multi-omiques et à développer des outils bioinformatiques standardisés pour l’analyse des résistances aux antibiotiques, un enjeu majeur dans la lutte contre l’antibiorésistance. Dans ce cadre, la plateforme d’analyse ABRomics (https://analysis.abromics.fr/) a été conçue pour collecter, organiser et rendre accessibles des données génomiques bactériennes, ainsi que leurs métadonnées. Ces données jouent un rôle crucial dans la recherche et la surveillance des résistances, tant sur le plan clinique qu’épidémiologique.

[Vidéo de la présentation] [Support de présentation]

9 septembre 2025

OrthoLegKB: A Knowledge Graph Framework for Advancing Translational Plant Research par Ha-Trang Phung (UMR Agroécologie INRAE Dijon). OrthoLegKB est une base de connaissances fondée sur Neo4j, conçue pour intégrer et interroger de manière cohérente des données génomiques, de QTL, de variants et transcriptomiques issues des différentes espèces de légumineuses. Des pipelines spécifiques permettent de calculer les relations d’homologie, de définir les blocs de synténie et de reformater l’ensemble des jeux de données hétérogènes. Les utilisateurs disposent ainsi d’un cadre pour croiser efficacement informations génétiques, variants et profils d’expression afin d’explorer les liens conservés entre génotype et phénotype. Les données sont interrogeables via le langage Cypher pour extraire des résultats pertinents en vue d’analyses approfondies.

[Vidéo de la présentation]