Vous trouverez le détail des conférences en bas de page.
Programme prévisionnel
Jeudi 14 septembre
12h30 - 13h10 : accueil & café
13h10 - 13h30 : présentation des journées et du PEPI IBIS
13h30 - 16h : session Annotation et Analyses
Characterization of Transposable Elements in Pangenomes - Somia Saidi
Identifying cytochrome P450 functions in agronomical insect pest - Frédérique Hilliou
Evaluation de la qualité des annotations de gènes: métriques et outils - Nicolas Lapalu
Inhibition of Mfd as an innovative strategy in the battle against antimicrobial resistance - Samantha Samson
16h - 16h30 : pause café
16h30 - 18h : session Plateformes bioinformatiques
18h30 - 20h : cocktail
Vendredi 15 septembre
9h15 - 9h30 : accueil (sans café)
9h30 - 10h30 : session Intégration de données
10h30 - 11h : pause café
11h - 12h30 : session Intelligence Artficielle
EnzBert: Predicting enzymatic function of protein sequences with attention - François Coste
CoLab.IA, une plateforme expérimentale d'ingénerie pour le Deep Learning - Jocelyn De-Goer-De-Herve
12h30 - 14h : pause déjeuner
14h - 15h : session Responsabilité Sociale et Environnementale (RSE)
Plan d'actions de l'unité MaIAGE pour réduire son bilan de gaz à effet de serre - Sophie Schbath
Bilan Gaz à effet de serre du laboratoire IPS2 - Véronique Brunaud
Discussion
15h - 16h : session Reproductibilité
Un petit pas vers plus de reproductibilité et de machine learning en scientométrie - Alban Thomas
16h : Clôture des journées
Conférences
PlantBioinfoPF (URGI) et son offre de service d'annotation des éléments transposables dans les génomes - Johann Confais
Les outils d'annotation des éléments transposables (ET) sont de plus en plus accessibles au grand public mais peuvent rester complexes dans le traitement de génomes de grandes tailles ou en trop grand nombre pour des non initiés. La plateforme PlantBioinfoPF hebergée par l'URGI propose l'accès à des ressources de calculs adaptées et un service d'annotation des ET dans les génomes. Illustration au travers de 2 projets et présentation de l'offre de service.
EnzBert: Predicting enzymatic function of protein sequences with attention - François Coste
Transformers and their attention mechanism (Vaswani et al., 2017) have quickly become the standard machine learning approach for sequential data, with impressive success in using pre-trained large language models, such as GPT (Radford et al, 2018), BERT (Devlin et al., 2019) or T5 (Raffel et al.,2020), to tackle many natural language processing tasks. In this talk, I will introduce this approach and its interest for the prediction of the enzymatic class of protein sequences, at the performance and interpretability levels, through the presentation of our application EnzBert (Buton et al, submitted).
Présentation de l'équipe Sigenae, et focus sur deux productions pour la visualisation de bases de données de miRNAs - Cervin Guyomar
Sigenae est une plate-forme INRAE spécialisée dans l'analyse de données de génomique pour les animaux d'élevage. Présentation de l'équipe et de ses activités, avec un focus sur RumimiR et FishmiRNA, deux bases de données permettant l'exploration et la visualisation comparative de l'annotation et l'expression de microARNs chez plusieurs espèces.
CoLab.IA, une plateforme expérimentale d’ingénierie pour le Deep Learning - Jocelyn De Goër
Depuis une dizaine d’années, les nouvelles méthodes d'Intelligence Artificielle (IA), et plus particulièrement le Deep Learning, ont révolutionné la manière d’analyser et d’interpréter les données dans de nombreux domaines. En exploitant la puissance des algorithmes d'apprentissage automatique et d'apprentissage en profondeur, l'IA peut traiter et analyser de grandes quantités de données à une vitesse et une précision qui étaient auparavant inaccessibles. Cela a non seulement permis d’identifier des tendances et des structures cachées dans les données, mais a également rendu possible l'automatisation de nombreuses tâches d'analyse, réduisant ainsi considérablement les temps de traitement.
Cependant, la mise en œuvre de ce type d’architecture nécessite une importante puissance de calcul informatique basée sur l’utilisation de GPU (Graphics Processing Unit), pour l'entraînement des modèles et leur interrogation. Cela est dû au fait que ces réseaux doivent traiter de grandes quantités de données durant les phases d’apprentissage et effectuer de nombreuses opérations de calculs linéaires ou de calculs matriciels. Les réseaux de neurones artificiels sont composés de plusieurs millions à plusieurs milliards de paramètres. De ce fait, les GPU sont idéalement adaptés pour pouvoir les traiter, car contrairement aux processeurs CPU (Central Processing Unit), ils peuvent exécuter des opérations massivement parallélisées, ce qui accélère considérablement les processus d'entraînement et d'interrogation des modèles.
CoLab.IA est une plateforme expérimentale d’ingénierie, qui propose aux équipes INRAE qui souhaitent débuter une activité en Deep Learning, des environnements logiciels dédiés (Jupyter Notebook) avec des ressources de calcul GPU partagées ainsi qu’un accompagnement technique et méthodologique.
MetaWGS: a Nextflow workflow to analyse while genome shotgun metagenomics data (Illumina short reads or Pacbio HiHi long reads) - Claire Hoede
Dans le cadre de l'axe 3 phase 2 du projet SeqOccIn nous avons expérimenté l'utilisation des longues lectures pacbio HiFi pour la données de metagenomique shotgun. Nous avons regardé sur un mock et sur des données réelles l'apport de cette technologie par rapport aux lectures courtes Illumina. metagWGS, un workflow nextflow developpé sur genotoul bioinfo pour les lectures courtes Illumina depuis 2019, est maintenant capable d'utiliser en entrée les données HiFi. Dans cette présentation j'évoquerai les principaux résultats de nos tests sur les lectures HiFi et je présenterai les nouveautés concernant le workflow.
Genotoul bioinfo & Focus sur l'axe 1 du projet seqOccIN - Claire Hoede
Présentation rapide de la plateforme et de ses missions. Focus sur le premier datapaper de l'axe 1 du projet seqOccIN : assemblage de génomes bovins - benchmark des différentes technologies de séquençage (https://www.nature.com/articles/s41597-023-02249-1).
Insertion et exploitation de données hétérogènes dans un graphe de connaissance - Nicolas Francillonne & Johann Confais
Une base de données orientée graphe a été construite au sein de l’URGI sur 2 espèces modèles de plante : une monocotylédone (Brachypodium distachyon) et une dicotylédone (Arabidopsis thaliana). Elle intègre de nombreuses données hétérogènes: annotations de génome (annotations structurale et fonctionnelles de gènes, éléments transposables (ET), séquences non codantes conservées (CNS), site de fixation de facteur de transcription (TFBS), relations d’homologie et d’orthologie. De nombreuses études montrent que les éléments transposables (ET) sont cooptés dans des séquences cis-régulatrices. Les ET peuvent donc affecter la transcription des gènes adjacents en recrutant des facteurs de transcription supplémentaires par exemple. Certaines famille d’ET qui portent des TFBS sont notamment connus pour être activée en réponse à certains stress abiotique comme ONSEN/ATCOPIA78 qui est activée par un stress thermique chez Arabidopsis thaliana. La base graphe permet d’identifier quelles sont les familles d’ET spécifiquement liées à des TFBS. Une analyse approfondie sur ces familles d’ET et leurs relations avec les gènes et réseaux de gènes impliqués dans des traits d’adaptation permettra d’améliorer la prédiction de leur impact fonctionnel chez leur hôte. Ce travail s’intéresse aux questions d’exploitation et d’interrogation des relations existantes entre les données par le biais de l’outil base de données orientées graphe. Il permet de développer des questions complexes faisant interagir plusieurs sources de données.
https://doi.org/10.1371/journal.pgen.1004115 https://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-1072-3
Evaluation de la qualité des annotations de gènes : métriques et outils - Nicolas Lapalu
L'annotation des gènes d'un génome eucaryote reste un domaine actif de la bioinformatique qui évolue avec les technologies de séquençage et les outils de prédiction et modèles d'intelligence artificielle associés. L'acquisition de nouvelles sources d'évidence (RNA-Seq, transcripts pleine longueur Iso-Seq, protéomique) a permis d'améliorer considérablement la capacité des outils à prédire les structures de gènes passant ainsi d'approches très "ab-initio" à des approches "evidence driven". Les outils d'analyse bioinformatique ont souvent été développés à partir de modèles biologiques spécifiques (levure, drosophile, souris, champignon), ce qui peut induire des biais associés à la structure particulière des gènes/génomes de ces organismes. Le développement d'intégrateur/combineur d'outils contourne cette difficulté en essayant de maximiser les résultats par la pondération du poids des différents outils/évidences. En parallèle, il a fallu établir des méthodes/métriques pour évaluer la qualité des différentes annotations d’un même génome et les apports des méthodes/évidences les unes par rapport aux autres. C’est cette stratégie que nous avons utilisée dans le cadre de la ré-annotation du génome du champignon pathogène du blé Zymoseptoria tritici à l'aide de données Iso-Seq et RNA-Seq. En effet, les quatre annotations existantes de cet organisme n’étaient identiques que pour 30% des gènes. Dans cette présentation, nous proposons de passer en revue certains outils de prédiction et les métriques qualités associées, de présenter des métriques d'évaluation ainsi que les outils que nous avons développés dans le cadre de notre projet de ré-annotation.
Migale et son offre de service de text-mining - Valentin Loux & Mouhamadou Ba
Nous proposons une présentation des activités de la plateforme Migale illustrées par un projet scientifique et nous présenterons ensuite spécialement l'offre de service de la plateforme sur le volet text-mining.
Analyse des résultats de prédiction du logiciel AlphaFold2 pour la prédiction des interactions protéine-protéine - Marie-Hélène Mucchielli-Giorgi
Chez les plantes, comme dans tous les organismes vivants, les interactions protéine-protéine jouent un rôle central dans la machinerie cellulaire, que ce soit dans le métabolisme, la signalisation, la prolifération cellulaire, la communication intercellulaire ou dans le maintien de l’architecture membranaire. Tous les processus biologiques font ainsi intervenir une multitude de protéines qui agissent de concert dans des systèmes complexes et interconnectés. Ainsi, la compréhension d’un processus cellulaire ne se résume pas à l’identification des protéines impliquées. Elle doit également permettre d’appréhender les principes d’association entre ces protéines au sein des réseaux d’interactions étudiés. Des technologies à haut débit (criblage 2-hybrides, Spectrométrie de masse) ont ainsi été développées pour identifier massivement les interactions entre protéines (IPP). Malheureusement ces méthodes ne permettent pas d'identifier l'interactome entier d'un organisme et d'autre part elles produisent beaucoup de fausses interactions. Ce verrou doit être dépassé. Or des méthodes de deep learning publiées récemment (RoseTTAFold, AlphaFold-Multimer) ont fait leur preuve pour prédire les interactions protéine-protéine de S. cerevisiae : certes, elles ne permettent de prédire que 30% des interactions mais elles le font avec une très grande fiabilité (96%). Nous mettons donc en place et adaptons actuellement la méthode RoseTTAFold+ AlphaFold-Multimer pour prédire les interactions entre les protéines de la plante modèle Arabidopsis thaliana dans le but d’affiner son interactome. Nous essayons donc de comprendre pourquoi AlphaFold-Multimer ne parvient à prédire que 30 % des partenaires. Pour cela, les interfaces des partenaires prédits et non prédits par AlphaFold-Multimer sont caractérisées par leurs propriétés physico-chimiques (hydrophobicité, potentiel électrostatique, énergie de docking) et géométriques (convexité, variance circulaire) ainsi que par leur propension à l’interaction. Mais le reste de la surface des deux partenaires est aussi être analysé afin de déterminer si elles contiennent des zones dont les caractéristiques empêchent l’interaction. Nous déterminons ensuite les critères qui permettent de distinguer les partenaires prédits des partenaires non prédits par AlphaFold-Multimer.
Intégration et interrogation de données hétérogènes via Askomics: le cas d'étude du projet DeepImpact - Victor Mataigne
DEEP IMPACT vise à combiner l'écologie, la biologie, la génétique des plantes et les mathématiques pour identifier, caractériser et valider les communautés microbiennes, les communautés végétales et les facteurs abiotiques (pratiques agricoles) modulant la résistance de Brassica napus et Triticum aestivum à plusieurs parasites. Les données issues de ce projet incluent notamment des relevés de terrain tels que la physico-chimie des sols, l’inventaire des parasites et des plantes adventices, les rendements des cultures. Elles intègrent également des données d’abondances bactériennes et fongiques des microbiotes de différents compartiments de chaque plante cultivée. D’autres données, expérimentales ou modélisées, sont en cours d’acquisition, telles que le métabolisme de communautés microbiennes minimales construites sur base des données de terrain. AskOmics (askomics.org) est un outil basé sur les technologies du web sémantique, proposant une interface d’intégration et d'interrogation de données hétérogènes. Via cette interface, les utilisateurs peuvent interroger les données intégrées en créant des requêtes complexes de manière itérative. Au moyen de cet outil, nous avons intégré partiellement les données issues du projet DeepImpact afin de proposer aux partenaires une solution simple pour explorer et extraire de l’information scientifique pertinente. Plus spécifiquement, un modèle de données a été réalisé pour intégrer les données de terrain, les données climatiques, et les données de microbiotes du sol. Via ce modèle, les membres du projet peuvent ainsi aisément construire des requêtes en fonction de leurs hypothèses et questions biologiques. Les requêtes permettent de sélectionner et de mettre en lien différentes variables étudiées issues de données aux formats hétérogènes, par exemple pour la caractérisation du métabolisme du microbiote de chaque plante en fonction de différentes variables abiotiques.
Utilisation des packages {targets} et {quarto} pour optimiser, réutiliser et communiquer autours de ses analyses - Cédric Midoux & Philippe Ruiz
Tour d'horizon de packages R tel qu {renv}, {target} utilisable en interaction avec Quarto pour mieux optimiser, réutiliser et communiquer autours de ses analyses.
Exploration du transcriptome de la morelle noire pour la recherche de précurseurs de peptides extracellulaires impliqués dans la régulation des espèces réactives de l’oxygène - Sandra Pelletier
Pour tester la possibilité d’utiliser des peptides de signalisation (phytocytokines) pour inhiber spécifiquement le développement d’adventices via la production d’ espèces réactives de l’oxygène (ROS), nous nous sommes intéressés à l'identification de peptides de signalisation chez la Morelle Noire (Solanum nigrum). Cette dernière est une adventice majeure mais sans données omiques disponibles. Nous avons donc fait un assemblage de novo du transcriptome puis son annotation fonctionnelle. Pour ce faire, nous sommes partis de séquences short reads et long reads d'échantillons de Morelle Noire incluant une diversité de d’organes et de conditions de culture. Nous avons ensuite annoté le transcriptome par comparaison avec les protéomes de tomate et d’Arabidopsis, puis identifié les ORF ayant les caractéristiques structurales de précurseurs de peptides sécrétés. En parallèle, une analyse RNA-seq quantitative nous a permis d'identifier les transcrits statistiquement différentiellement présents dans différents échantillons en contexte de stress biotiques et chimiques choisis pour leur impact sur le métabolisme des ROS. Ce profilage transcriptomique nous a permis d’identifier158 transcrits/contigs candidats codant potentiellement pour des précurseurs de peptides sécrétéset régulés par les stress. . Les outils utilisés dans cette approches sont Trinity et EvidentialGene pour l’assemblage de novo du transcriptome de référence, ORFfinder pour l’identification des séquences protéiques, InterProScan et BLASTP pour l'obtention de l'annotation fonctionnelle et enfin SignalP et DeepLoc pour la mise en évidence des signaux d’adressage à la voie de sécrétion. De plus, des programmes ad hoc ont été développés pour filtrer et évaluer les résultats tout au long de l’analyse. Une dizaine de peptides ainsi prédits et sélectionnés ont été synthétisés et sont en cours d’évaluation par application exogène sur jeunes plantules de Morelle. L’idée est d’utiliser la spécificité de reconnaissance entre ces peptides de signalisation et leur récepteur pour amplifier la production de ROS et inhiber spécifiquement la croissance d’une espèce cible (bio-herbicide sélectif).
BIPAA, un exemple d'application d'un système automatique, modulaire et FAIR, de gestion de données génomiques - Stéphanie Robin
BIPAA est une plateforme nationale de bioinformatique du département SPE de INRAE, dédiée à la génomique des insectes. Afin que les biologistes puissent explorer et extraire des informations des données génomiques des insectes, BIPAA a développé un système d’information dédié, permettant l’intégration, la visualisation et l’analyse de ces données.
Ce système utilise Gitlab CI/CD en combinaison avec une librairie python dédiée, permettant l'orchestration des différentes tâches d’un pipeline. Cette librairie est modulaire pour s'adapter aux besoins des utilisateurs. Les différentes tâches du pipeline sont regroupées en quatre étapes : la validation et correction des données, la dérivation des données, le déploiement de l’interface web et la sauvegarde des données. Actuellement, les différents modules de visualisation disponibles pour chaque génome sont : JBrowse, Apollo, Blast, GeneNoteBook et une page de téléchargement des données. Ce système a été développé selon les principes FAIR : déploiement automatique, reproductible, et le code est Open Source.
Le site web de BIPAA (https://bipaa.genouest.org/is/) héberge actuellement 52 génomes d’arthropodes. BBIP (https://bbip.genouest.org/is/) est un autre site basé sur le même système qui héberge des données génomiques de Brassicacae. Les plateformes de bioinformatique Abims (CNRS, Roscoff) et Sebimer (Ifremer, Plouzané) travaillent également sur le développement ce système pour déployer les génomes d’un grand nombtre d’organismes marins.
Characterization of Transposable Elements in Pangenomes - Somia Saidi
Transposable elements (TEs) are mobile DNA elements that can invade genomes by transposition. Despite their reputation as parasitic sequences, they can enrich the genomes with functional novelties that foster genome evolution. The impact of TEs in a genome can be explored by searching for their insertions. Individuals of the same species independently undergo TE insertions causing inter-individual genetic variability. This variability between individuals is the basis of the natural selection that leads to an increased adaptation of individuals to their environment. A way to search for the potential role of TEs in host adaptation is through a pangenomic approach. The TE pangenome can be described by (i) TE insertions present in all individuals of the species (core-genome), (ii) insertions present only among a subset of individuals (dispensable-genome) or (iii) ecogenome when the individuals share the same environment, and finally (iv) individual-specific insertions. Current pangenome analysis methods are based on the alignment of reads from different genomes of the species to an assembled reference genome. But, the advent of the third-generation sequencing makes now possible to better approach this question using several assembled genomes of the same species to avoid the bias introduced by a single reference genome. I will present a new pipeline, called panREPET, which identify TE copies in a pangenome from several assembled genomes. There is therefore no dependency on a reference genome. This pipeline identifies copies shared by a group of individuals. This pipeline has been tested on 54 genomes of Brachypodium distachyon to describe its pangenomic compartments.
Inhibition of Mfd as an innovative strategy in the battle against antimicrobial resistance - Samantha Samson
Drug-resistant bacterial infections result in at least 700,000 deaths every year; if nothing is done, it has been estimated that this number could rise up to 10 million by 2050, becoming the first cause of death worldwide. The declining discovery of new antibiotics has led to a lack of effective treatment options for these infections. Thus, the development of new antibacterials targeting innovative targets and mechanisms of action that have a low potential for resistance induction is crucial. Appropriately, this study focuses on the Mutation Frequency Decline protein (Mfd) as a promising bacterial target and on its inhibition potentiated in silico, in vitro and in vivo.
Petit tour d’horizon de la RSE à INRAE et d’autres initiatives dans le monde de la recherche en France - Sophie Schbath
Je commencerai par présenter la gouvernance RSE de l’institut et quelques exemples d’actions internes. Puis je pointerai vers quelques initiatives nationales en lien avec la réduction de l’empreinte environnementale de la recherche qui pourraient intéresser les scientifiques du PEPI IBIS.
Plan d’actions de l’unité MaIAGE pour réduire son bilan de gaz à effet de serre - Sophie Schbath
L’unité MaIAGE s’est engagée depuis 2017 vers des pratiques plus éco-responsables et a voté en 2022 un scénario de 40% de réduction de ses émissions de gaz à effet de serre pour 2030 par rapport à 2019. Je vous partagerai notre BGES 2019 et les actions proposées/adoptées pour le réduire.
Un petit pas vers plus de reproductibilité et de machine learning en scientométrie - Alban Thomas
La Direction pour la Science Ouverte (DipSO), responsable de la mise en œuvre de la politique de science ouverte d'INRAE, doit faire face à plusieurs défis. L’ouverture de la science implique par exemple de considérer de nouveaux types de productions scientifiques (données, contenus web...), qui s’ajoute à l’« explosion » du nombre de publications. Le Pôle ASTRA de la DipSO, chargé d’éclairer la stratégie, doit pouvoir augmenter sa capacité d’analyse scientométrique, mais aussi faire face à des nouvelles demandes pour le management stratégique. Le projet présenté ici vise à mettre en place une démarche reproductible utilisant du Machine Learning (ML) et/ou Deep Learning (DL) pour améliorer l'efficacité de certaines tâches d’ASTRA et ouvrir de nouvelles possibilités, basées notamment sur l'analyse du contenu textuel. Les premiers traitements relèvent de la classification de texte, où les publications scientifiques d'INRAE seront associées à une discipline principale et plusieurs mots-clés. A terme, l’objectif opérationnel est de permettre à ASTRA de disposer d’un corpus enrichi d'informations issues du référentiel disciplinaire d’INRAE et de mots clés standardisés, qui faciliteront les analyses stratégiques. Le machine learning (et encore plus le DL) est parfois l'objet d'espoirs et de craintes démesurées. Potentiellement porteur de changements profonds dans les approches métier des membres d’ASTRA, ce projet nécessite dans le même temps leur implication (ne serait-ce que pour l’annotation). L’adhésion sera une clé de la réussite et nous essaierons de confronter ou de coupler cette approche par ML à une méthode experte, avec des outils métiers de text mining, pour évaluer l'apport du ML dans un contexte opérationnel. Le projet a débuté cette année, et nous proposons ici un retour d’expérience, avec des premiers résultats, agrémentés d’un avis de l’équipe d’ASTRA. Ces résultats sont issus d’un stage, encore en cours, et nous espérons que cette expérience dans le text mining et la science des données (ML/DL) seront utiles à la future carrière du stagiaire. Ce dernier sera également invité à donner son point de vue.