Programme Journées du PEPI IBIS 2025

Programme 

Mercredi 15 octobre

13h - 13h30 : accueil

13h30 - 14h : présentation des journées et du PEPI IBIS

14h - 15h45 : session Annotation et Analyses

  • L’annotation des génomes à l’heure du séquençage long-read. - T. Derrien, CNRS, IGDR

  • Les réseaux de neurones profonds améliorent-ils l'annotation fonctionnelle protéique des ⍺-cyanobactéries ? - J. Silva Bernardes, Université Sorbonne, ECOMAP

  • Caractérisation d'inversions dans des génomes de papillons alpins - F. Legeai, INRAE, IGEPP

  • Plant-PLMview pour détecter et visualiser les éléments cis-régulateurs dans les génomes de plantes - V. Brunaud, INRAE, IPS2

15h45 - 16h15 : pause café

16h15 - 17h40 : session Modélisation de données / graphe de connaissances

  • Enjeux autour de l'intégration, de l'analyse, de la mise à jour et de la reproductibilité pour les données en sciences de la vie - O. Dameron, IRISA/INRIA, DyLiSS

  • Holographe - un schéma pour décrire les holobiontes en agroécologie - M. Lahaye, INRAE, IGEPP

  • Se concentrer sur ce qu'on cherche plutôt que sur comment l'obtenir : des modules pour cacher la complexité des requêtes SPARQL - Y. Tirlet, IRISA, DyLiSS

Jeudi 16 octobre

9h - 9h15 : accueil (sans café)

9h15 - 10h40 : session Génomique comparative

  • De la génomique comparative à la recherche translationnelle entre espèces pour le breeding - J. Salse, INRAE, GDEC

  • Panorama : un outil de manipulation et visualisation de pangénome - F. Graziani, INRAE, MIAT

  • GBOT : explorer, comparer et partager les génomes en toute simplicité - F. Samson, INRAE, LaMMe

10h40 - 11h10 : pause café

11h10 - 12h15 : session Intelligence Artificielle & Intégration de données

  • Réseaux de neurones pour graphe pour la prédiction de phénotype à partir de données transcriptomiques - C. Brouard, INRAE, MIAT

  • AgroLD et approches utilisant les LLMs pour le liage de graphes de connaissance - B. Happi, IRD

12h15 - 13h30 : pause déjeuner

13h30 - 14h55 : session Métagénomique

  • Introduction à l'analyse statistique de données de diversité : illustration sur le projet DeepImpact - M. Mariadassou, INRAE, MaIAGE

  • Identification de souches bactériennes dans un microbiote intestinal : comparaison d'outils et applications - L. Angevin, IRISA/INRAE

  • Mapler, un pipeline d'évaluation et d'assemblage métagénomique - N. Maurice, INRIA/IRISA, Genscale

14h55 - 15h55 : session Divers

  • R4multidata: an user and developer community of multidimensional data analysis tools with R software - A. Imbert, INRAE, UMRH & E. Latrille, INRAE, LBE

  • Système d'Information GENOmique Multi-Espèce (SIGENO_ME), S. Durand, INRAE, CTIG

  • Galaxy & Écologie - Y. Le Bras, MNHN, CESCO

  • Scaling Sequence Bioinformatics with Logan-search - P. Peterlongo, INRIA/IRISA, Genscale

16h : Clôture des journées


Conférences

L’annotation des génomes à l’heure du séquençage long-read. - T. Derrien, CNRS, IGDR

Le séquençage long fragment ouvre de nouvelles perspectives dans l'analyse du transcriptome en permettant l'observation directe de molécules d'ARN complètes, surmontant ainsi certaines limites de l'assemblage à lecture courte. Dans cette présentation, je décrirai les travaux récents de notre groupe qui combinent les technologies de long-read avec de nouveaux outils informatiques pour annoter les différents acteurs du transcriptome. Je présenterai ANNEXA, une méthode que nous avons développée pour l'annotation contextuelle et spécifique des ARN non codants longs (lncRNA), et je présenterai aussi  nos résultats sur la découverte d'ARN circulaires (circRNA) à l'aide de données RNASeq à lecture longue. Ces approches illustrent le potentiel des technologies longue lecture pour affiner l’annotation du transcriptome non codant, étape essentielle à l’exploration fonctionnelle de ces éléments.

Les réseaux de neurones profonds améliorent-ils l'annotation fonctionnelle protéique des ⍺-cyanobactéries ? - J. Silva Bernardes, Université Sorbonne, ECOMAP

L’annotation fonctionnelle est essentielle pour comprendre l’écologie, la physiologie et l’évolution de ces organismes. Les principales méthodes computationnelles sont basées sur les comparaisons des séquences d'intérêt à des séquences déjà annotées, pour identifier/transférer les fonctions connues.

Chaque année de nombreux outils reposant sur des réseaux de neurones profonds sont proposés pour améliorer les annotations fonctionnelles. Notre objectif était de comparer un de ces nouveaux outils (PLMsearch) et les annotations d’InterPro sur un ensemble de séquences peu/pas annoté des génomes de α-cyanobactéries.

Caractérisation d'inversions dans des génomes de papillons alpins - F. Legeai, INRAE, IGEPP

Les inversions jouent un rôle majeur dans l'évolution des génomes, l'adaptation et la spéciation, car elles limitent les recombinaisons chez les individus hétérozygotes pour ces loci. Ces inversions peuvent maintenir des combinaisons alléliques avantageuses (supergene). Mais, quand la divergence entre les génomes est importante, elles sont difficiles à caractériser à partir de lectures courtes et longues. Dans cet exposé, j’évoquerai comment, à l’aide de plusieurs méthodes de génomique comparée et de génomique des populations, nous avons identifié et caractérisé 12 grandes inversions chromosomiques dans un complexe composé de 4 espèces de papillons alpins Coenonympha, incluant 2 génomes parentaux et deux hybrides. Parmi celles-ci, 5 coïncident avec des barrières aux flux de gènes entre les espèces.

Plant-PLMview pour détecter et visualiser les éléments cis-régulateurs dans les génomes de plantes - V. Brunaud, INRAE, IPS2

Plant-PLMview (https://plmview.ips2.universite-paris-saclay.fr/) est un site web permettant d'explorer la régulation des gènes sur 20 génomes végétaux. Son originalité réside dans l'extraction des régions proximales des gènes pour chaque espèce et la detection des éléments cis-régulatrices enrichis à proximité des gènes aussi bien cote 5' et 3' des gènes via la méthode PLMdetect (PLM pour Preferentially Located Motifs). Le site web permet d’interroger simultanément plusieurs espèces (ex avec des gènes homologues) et d’obtenir une visualisation de la cartographie des PLM facilitant l’analyse et l'identification de motifs co-présents dans plusieurs régions proximales de gènes.

Enjeux autour de l'intégration, de l'analyse, de la mise à jour et de la reproductibilité pour les données en sciences de la vie - O. Dameron, IRISA/INRIA, DyLiSS

Biology transitioned into an information science three decades ago. However, it stands out among other experimental sciences due to both the quantity and the complexity of the data it relies on. Accommodating this situation presents new challenges and raises open questions from the data engineering perspective. The first concern is the integration of data, knowledge, or both, beyond the FAIR principles. Successful integration often results in more and larger datasets, which in turn impact the analyses. Moreover, as data change, evolve, and are updated, it is necessary to keep pace and repeat the integration and analysis processes. Eventually, from a broader perspective, we must consider the reproducibility of the data we produce, the analyses we perform, and the conclusions we draw.

Holographe - un schéma pour décrire les holobiontes en agroécologie - M. Lahaye, INRAE, IGEPP

De nombreux projets en agroécologie ont pour but l’identification et la caractérisation de communautés d’organismes vivants associées à des plantes cultivées (holobiontes), tout en liant cette information à des données phénotypiques et environnementales. Pour intégrer ces données et permettre le stockage, l’interrogation, l’analyse et l’accessibilité pour la réalisation de méta-analyses ou la reproductibilité, un graph RDF généraliste décrivant l’hôte, les données environnementales et les microbiotes a été développé. Un de nos objectifs dans le développement de ce modèle était de réutiliser un maximum d’ontologies, que ce soient des termes spécifiques provenant d’ontologies telles que ENVO, AGRO, etc... ou des ontologies complètes : SOSA pour décrire les observation ou I-ADOPT pour les variables. Je vous présenterai donc en détail ce modèle de données et toutes les ontologies utilisées pour décrire les différents termes et types de données. Nous verrons ensuite comment extraire de l’information à partir de ce graph avec quelques exemples de requêtes plus ou moins complexes.

Se concentrer sur ce qu'on cherche plutôt que sur comment l'obtenir : des modules pour cacher la complexité des requêtes SPARQL - Y. Tirlet, IRISA, DyLiSS

Beaucoup de bases de données en biologie sont aujourd'hui accessibles grâce aux technologies du web sémantique : RDF pour la représentation des données, OWL pour la représentation des connaissances et SPARQL pour les interroger de façon unifiée. Cela permet notamment (i) de composer des requêtes expressives sur des données hétérogènes, adossées à une base de connaissances, (ii) de relier les informations de plusieurs bases de connaissances, (iii) de composer des requêtes expressives s'étalant sur plusieurs bases. Dès le premier point une difficulté majeure est la complexité du schéma d'une base, qui résulte à la fois de la richesse intrinsèque du domaine et des contraintes techniques de modélisation et de mise en oeuvre. Cette difficulté va en augmentant pour les deux points suivants. Cela constitue donc un frein à l'adoption de ces ressources par les experts des sciences de la vie. On ne peut sans doute pas faire grand chose face à la complexité du domaine (mais justement les experts des sciences de la vie sont confortables avec, ils savent ce qu'ils veulent faire). Par contre, il n'y a aucune raison de leur imposer les contraintes techniques qui portent sur comment le faire. Notre contribution consiste à fournir une vue fonctionnelle sur les schémas des bases de connaissances. Cette vue est constituée de modules qui correspondent chacun à une notion qui a du sens pour les experts, et pour laquelle on associe une portion du schéma de la base. Les modules peuvent être assemblés, et cela permet de composer automatiquement les fragments de SPARQL correspondants. Cela permet ainsi aux experts de créer des requêtes complexes en se concentrant sur ce qu'ils cherchent et en les libérant de comment l'obtenir. Nous présentons le principe des modules SPARQL et l'appliquons au schéma Holographe, qui permet de décrire les holobiontes en agroécologie.

De la génomique comparative à la recherche translationnelle entre espèces pour le breeding - J. Salse, INRAE, GDEC

La génomique comparée constitue un outil important permettant l’identification de gènes contrôlant des fonctions communes et traits communs entre espèces. Appliquée à la comparaison de la diversité génétique populationnelle entre espèces, la génomique comparative permet désormais d’identifier des variant omiques partagés entre espèces impliqués dans des caractères agronomiques d’intérêt. Ainsi, la génomique comparative permet de mener des travaux de recherche translationnelle appliquée entre espèces cultivées, visant à exploiter efficacement les résultats de recherche obtenus chez une espèce à l’ensemble des espèces pour lesquelles ces résultats sont d’intérêt pour l’amélioration variétale.

Panorama : un outil de manipulation et visualisation de pangénome - F. Graziani, INRAE, MIAT

In the emerging field of pangenomics, few tools allow direct manipulation and visualization of large-scale variation graphs. Most existing solutions are either designed for De Bruijn graphs or do not support direct interaction with full pangenome graphs. Panorama was developed as an integrated tool capable of manipulating, visualizing, and annotating large variation graphs. Beyond the visualization of annotated pangenome regions, the tool is specifically designed to support the identification of biologically relevant regions — in particular, regions that may underlie a shared phenotype among a group of individuals, or genomic elements common to a given population. We demonstrate this functionality through a well-documented example: the white-headed phenotype observed in specific cattle breeds.

GBOT : explorer, comparer et partager les génomes en toute simplicité - F. Samson, INRAE, LaMMe

GBOT (http://stat.genopole.cnrs.fr/server/GBOT) est une plateforme bio-informatique modulaire dédiée à l’exploration comparative des génomes. Initialement conçue comme un génome browser, GBOT intègre aujourd'hui un nouveau module permettant de visualiser et comparer de larges régions génomiques. Grâce à son architecture robuste (PostgreSQL, Flask, Python, JavaScript) et ses outils graphiques interactifs, GBOT facilite l’analyse des duplications, de la synténie et des polymorphismes, tout en offrant des fonctions d’annotation structurale. Connectée à Discord via un bot personnalisé, GBOT rend la navigation dans ses données intuitive, collaborative et accessible à la communauté scientifique. 

Réseaux de neurones pour graphe pour la prédiction de phénotype à partir de données transcriptomiques - C. Brouard, INRAE, MIAT

Le développement récent des méthodes d’apprentissage profond a permis d’améliorer les performances dans diverses tâches d’apprentissage et de répondre à de nombreux problèmes en Bioinformatique. Dans cette présentation, je parlerai de l’utilisation des réseaux de neurones pour graphe pour le problème de prédiction de phénotype à partir de données d’expression de gènes. Plusieurs travaux ont présenté cette approche comme permettant d’améliorer la prédiction de phénotype du fait de sa capacité à intégrer des informations sur un réseau de gènes, en plus des données d’expression. Comme cela n’avait pas été fait précédemment, nous avons réalisé un benchmark reproductible pour analyser à la fois le bénéfice et le coût de ce type d’approche par rapport à des méthodes d’apprentissage plus standard et moins coûteuses sur plusieurs jeux de données.

AgroLD et approches utilisant les LLMs pour le liage de graphes de connaissance - B. Happi, IRD

The AgroLD Knowledge Graph (KG) is a semantic framework designed to integrate and explore data relevant to plant sciences, particularly focused on plant genomics. AgroLD is built incrementally spanning vast aspects of plant molecular interactions. The current phase covers information on genes, proteins, predictions of homologous genes, metabolic pathways, plant trait associations, and genetic studies. In this presentation, we present an overview of the KG and its current challenges. A particular focus will be given to the problem of entity alignment (or entity linking), which remains a critical bottleneck in building reliable and reusable knowledge graphs. Harmonizing iidentifiers across heterogeneous databases, disambiguating biological entities with multiple synonyms, and ensuring consistent linkage to external ontologies are essential yet complex tasks. Recent advances in AI, and in particular large language models (LLMs), offer promising avenues to support automated disambiguation, improve semantic alignment, and ultimately enhance the interoperability of AgroLD with other plant science resources.

Introduction à l'analyse statistique de données de diversité : illustration sur le projet DeepImpact - M. Mariadassou, INRAE, MaIAGE

This presentation provides an overview of statistical methods used to analyze microbiome diversity data illustrated on the DeepImpact project data. DeepImpact is an interdisciplinary project aiming to identify and characterize the microbial communities modulating health of rapeseed (Brassica napus) in order to assemble and validate plant health promoting bacterial consortia.

The presentation will start with alpha diversity to measure the taxonomic diversity within individual samples being moving on to beta diversity to assess compositional differences between samples. We'll illustrate how beta diversity can feed into ordination techniques such as PCoA and NMDS to visualize community-level patterns and into PERMANOVA to identify structuring factors.

Finally, we'll touch upon differential abundance analysis methods to identify taxa that vary significantly between groups, such as DESeq2 or ANCOM-BC and network reconstruction techniques for abundance data to identify microbial guilds. 

Identification de souches bactériennes dans un microbiote intestinal : comparaison d'outils et applications - L. Angevin, IRISA/INRAE

Plusieurs études ont démontré que certaines espèces bactériennes, telles que E. coli, peuvent présenter à la fois des souches bénéfiques et pathogènes. Afin de comprendre la diversité fonctionnelle d'un microbiote, il est donc nécessaire d'identifier les bactéries jusqu'au niveau de la souche.

Souvent cité comme référence, l'outil Kraken2 [1] utilise des k-mers, ce qui permet de gagner un temps considérable dans l'attribution taxonomique des lectures. L’outil Sylph [2], développé plus récemment, est basé sur l’identité moyenne nucléotidique (ANI) avec des k-mers. Il a démontré une précision supérieure à Kraken2, notamment pour les espèces de faible abondance. Cependant, la précision de ces deux outils est limitée au niveau du genre ou de l'espèce.

De nouveaux outils émergent pour l’identification taxonomique au niveau de la souche. ORI [3], basé sur des modèles de graines espacées, permet d’identifier un ensemble minimal de souches expliquant un ensemble de long-reads. Il est à utiliser après un outil d’identification jusqu’à l’espèce, afin d’avoir un premier tri. MADRe [4] est un pipeline de classification métagénomique pour les long-reads, permettant de descendre directement au niveau de la souche.

J’ai évalué les performances de ces différents outils sur la communauté mock de ZymoBIOMICS GUT (18 souches bactériennes, dont 5 souches d’E. coli, 2 levures et 1 archée). Je présenterais également les premiers résultats d’une étude du microbiote intestinal de porcelets nourris au lait maternel ou aux préparations pour nourrissons, dont la première étape est l’identification précise des bactéries qui composent ces différents microbiotes.

Mapler, un pipeline d'évaluation et d'assemblage métagénomique - N. Maurice, INRIA/IRISA, Genscale

L'assemblage métagénomique vise à reconstruire un maximum de génomes de la plus haute qualité possible, à partir de données de séquençage issues d'écosystèmes microbiens. Malgré les progrès technologiques tels que les lectures longues Hi-Fi, le processus reste difficile dans les échantillons environnementaux complexes, tels que les sols agricoles, contenant des milliers d'espèces bactériennes différentes. Mapler est un pipeline d'assemblage et d'évaluation de métagénomes se concentrant sur l'évaluation de la qualité des assemblages issus de ces lectures longues Hi-Fi, et de ces écosystèmes complexes. Il intègre plusieurs mesures de pointe, ainsi que de nouvelles mesures évaluant la diversité que l'assemblage n'arrive pas à capturer (une proportion significative dans les écosystèmes taxonomiquement riches tels que le sol). Mapler facilite la comparaison des stratégies d'assemblage et aide à identifier les goulots d'étranglement méthodologiques qui entravent la reconstruction du génome.

R4multidata: an user and developer community of multidimensional data analysis tools with R software - A. Imbert, INRAE, UMRH

Les méthodes multidimensionnelles sont essentielles pour l’analyse des données complexes (omiques, spectrales, etc). De nombreux packages R existent, mais ont des philosophies différentes. Cela conduit les utilisateurs à s’interroger sur leurs différences en termes de fonctionnalités, de maintenance, de reproductibilité et de résultats. La communauté R4multidata vise à créer un environnement standardisé et collaboratif pour tester et comparer, avec des données réelles et simulées, des fonctions de ces packages en termes d’approche et d’application. En cas de différences algorithmiques, les limites associées sont étudiées. La finalité est de fournir des éléments nécessaires au choix raisonné d’outils. Dans un premier temps, les packages RGCCA et mixOmics sont comparés. Nous étudions plus particulièrement les fonctions pour la mise en œuvre de la régression PLS et des variantes discriminantes, et/ou sparses et/ou multiblocs. Des outils collaboratifs de travail et des scripts R ont été mis en place. Nous nous appuyons sur 3 projets composés de plusieurs jeux de données réels, éventuellement modifiés, pour tester des structures particulières de données.

Système d'Information GENOmique Multi-Espèce (SIGENO_ME), S. Durand, INRAE, CTIG

Le Centre de Traitement de l’Information Génétique (CTIG) est une plateforme informatique dédiée à la connaissance et à la gestion des ressources zoogénétiques françaises.

SIGENO_ME est un système d’information pour stocker les grands volumes de données de génotypage des animaux d’élevage. Les laboratoires d’analyse nous transfèrent les fichiers de génotypages issus de l’analyse des puces SNP. Les données sont stockées et sauvegardées sur les serveurs du CTIG. Puis les chercheurs et autres utilisateurs peuvent extraire certaines données, suivant une liste d’échantillons et en fonction des droits d’accès.

A l’heure actuelle, les espèces utilisatrices de SIGENO_ME sont les ovins allaitants (Institut de l’Élevage), les équins (Institut Français du Cheval et de l’Équitation) et les porcins (Institut Français du Porc).

Galaxy & Écologie - Y. Le Bras, MNHN, CESCO

Galaxy Ecology, une initiative débutée en 2017 au muséum national d'histoire naturelle est aujourd'hui le service phare du pôle national de données de Biodiversité de l'infrastructure nationale Data Terra. Si l'initiative a permis la mise en place d' instances Galaxy Ecology européenne via Galaxy Europe et française via Galaxy France, elle a permis de mettre en avant des bonnes pratiques en analyse de données dans le domaine de l'écologie et de participer à différentes initiatives de grandes envergures comme l'initiative GO FAIR, le réseau mondial des observatoires de la biodiversité GEO BON ou le cloud européen open science EOSC. Nous proposons de revenir sur les origines de l'initiative et de présenter les travaux principaux notamment autour de la production automatisée d'indicateurs de biodiversité, du service aux projets de sciences participatives et comment elle permet aujourd'hui de proposer une base importante aux initiatives plus englobante orientées intégration de données de biodiveristé, système terre et climat dans le cadre du projet Equipex+ Gaia Data et aux challenges actuels autour de l'annotation de données et de l'utilisation de l'IA.

Scaling Sequence Bioinformatics with Logan-search - P. Peterlongo, INRIA/IRISA, Genscale

The diversity of life on Earth is vast, but public nucleic acid sequencing data provides a powerful window into its distribution and evolution. Yet, the rapid accumulation of these data has outpaced our ability to analyze them efficiently. The largest collection, the Sequence Read Archive (SRA), comprises 27.3 million datasets, representing 5 x 1016 base pairs.

To unlock the potential of the SRA, we developed Logan-Search, a search engine that enables querying any genomic sequence across this resource. Results report the degree of similarity between the query and every matching SRA accession. The online interface (logan-search.org) provides extensive tools for exploring associated metadata-such as geographical distribution, tissue of origin, or assay type-and includes a BLAST-like alignment service for comparing sequences directly.

Logan-Search enables highly efficient, petabase-scale analysis. By transforming the SRA into an accessible, searchable resource, it democratizes access to the world’s genetic data and opens new frontiers in biotechnology, molecular ecology, and global health.