Journée thématique - Annotation, Intelligence Artificielle et Text-mining | PEPI Ingénierie Bio Informatique et Statistique pour les données haut-débit (IBIS)

Les pôles Annotation de génomes, Intelligence Artificielle et Text-mining du PEPI IBIS organisent une journée thématique en mode multi-sites le 28 novembre 2022.

Objectifs

Les objectifs de cette journée sont :

d'échanger autour des activités d'ingénierie en bioinformatique et statistiques pour les données haut débit, avec un accent particulier sur l'annotation fonctionnelle de génomes, l'analyse de données "omiques", l'intelligence artificielle et le text-mining,
de présenter les deux nouveaux pôles du PEPI IBIS.

Inscription

L'inscription est gratuite mais obligatoire pour des raisons d'organisation. Les inscriptions sont closes.

Localisation des différents sites

Bordeaux INRAE Centre Bordeaux 210 Chem. de Leysotte (salle du conseil à l'ISVV) 33140 Villenave-d'Ornon Contact : virginie.garcia@inrae.fr	Jouy-en-Josas INRAE Centre Jouy-en-Josas-Anthony Domaine de Vilvert (salle de réunion du bâtiment 233) 78352 Jouy-en-Josas, France Contact : sandra.derozier@inrae.fr
Nancy INRAE Centre Grand Est-Nancy Rue d'Amance (salle Réunion LEGF Batiment K) 54280 Champenoux, France Contact : lucas.auer@inrae.fr	Rennes Pôle Numérique du campus de Beaulieu (téléAmphithéâtre) Université de Rennes 1 35065 Rennes, France Contact : fabrice.legeai@inrae.fr
Sophia-Antipolis Centre PACA - Site de Sophia 400, route des Chappes (salle de réunion A010) 06903 Sophia-Antipolis, France Contact : martine.da-rocha@inrae.fr	Toulouse INRAE Centre Toulouse 24 chemin de Borderouge (salle de conférence MIAT du bâtiment C8) 31320 Auzeville Tolosane, France Contacts : sabrina.legoueix@inrae.fr et etienne.rifa@insa-toulouse.fr

Programme

La journée commencera à 9h30 et se terminera à 16h30.

9h30 - 10h : accueil

10h - 10h40 : Annotation fonctionnelle du protéome d'Arabidopsis thaliana via l'analyse et la prédiction de son interactome - Simon Gosset

10h40 - 11h20 : NERD (Nematode EffectoR Discovery) : un outil pour prédire les protéines impliquées dans le parasitisme des plantes par les nématodes - Djampa Kozlowski

11h20 - 12h : Les éléments transposables, de leur annotation à leur intégration en graphes de connaissance - Johann Confais

12h - 13h30 : pause déjeuner

13h30 - 14h : Introduction à la fouille de textes et de données, et présentation du pôle Text-Mining - Mouhamadou Ba

14h - 14h30 : Intérêt du Text-Mining pour la prévision du risque des maladies à transmission vectorielle - Nicolas Sauvion

14h30 - 14h40 : Introduction au pôle Intelligence Artificielle - Amandine Velt & Fabrice Legeai

14h40 - 15h05 : Deep learning pour la génomique - Raphaël Mourad

15h05 - 15h30 : Méthode d'apprentissage profond pour l'analyse génomique des cancers canins comme modèles des cancers humains - Christophe Hitte

15h30 - 16h : Discussion autour des pôles Intelligence Artificielle et Text-mining - Amandine Velt, Fabrice Legeai, Mouhamadou Ba

Vous retrouverez, en bas de page, les résumés des présentations.

Financement

Nous remercions la DipSo qui finance cette journée.

Contact

Pour toute question, vous pouvez contacter Amandine Velt (IA), Fabrice Legeai (IA), Véronique Brunaud (Annotation), Jacques Lagnel (Annotation), Martine Da Rocha (Annotation), Mouhamadou Ba (TM), Sandra Dérozier (TM).

Comité d'organisation

Résumés des présentations

Simon Gosset (IPS2, Université Paris-Saclay) - Annotation fonctionnelle du protéome d'Arabidopsis thaliana via l'analyse et la prédiction de son interactome

Les interactions protéine-protéine jouent un rôle central dans la machinerie cellulaire, que ce soit dans le métabolisme, la signalisation, la prolifération cellulaire, la communication intercellulaire ou dans le maintien de l’architecture membranaire. Tous les processus biologiques font ainsi intervenir une multitude de protéines qui agissent de concert dans des systèmes complexes et interconnectés. Ainsi, ces réseaux d’interactions protéines-protéines ne sont pas construits de manière aléatoire et renferment de l’information qui peut être utilisée pour nous renseigner sur les fonctions des protéines.

Les interactions protéine-protéine étant difficiles à identifier, les réseaux d’interactions protéiques sont souvent creux. Ils contiennent de plus un grand nombre d’erreurs imputables aux méthodes de protéomique à haut débit qui biaisent leur analyse. Il est donc nécessaire de les compléter et de les nettoyer avant de les analyser par des approches systémiques complexes permettant de prendre en compte les interactions protéiques directes ou indirectes, transitoires ou permanentes.

Djampa Kozlowski (Maison de la Modélisation, de la Simulation et des Interactions, Université Côté d'Azur/INRAE) - NERD (Nematode EffectoR Discovery) : un outil pour prédire les protéines impliquées dans le parasitisme des plantes par les nématodes

Les Nématodes parasites de plantes (PPNs) sont responsables de pertes agricoles annuelles considérables et représentent une menace pour la sécurité alimentaire mondiale. Afin d’infecter les plantes, les PPNs s’appuient un arsenal de protéines appelées effecteurs qui leurs permettent de manipuler le développement, la réponse immunitaire et la physiologie de la plante hôte. Sélectionner efficacement de nouveaux effecteurs candidats afin de pouvoir ensuite étudier leur rôle dans le processus infectieux est donc nécessaire. Néanmoins, compte tenu de la diversité des effecteurs au sein des PPNs, aucun critère simple ne permet de discriminer efficacement les protéines effectrices du reste du protéome.

C’est dans ce contexte que nous avons mis au point le prédicteur d’effecteur NERD (Nematode Effector Discovery) se basant sur l’utilisation conjointe d’approches supervisées et non-supervisées. Brièvement, grâce à un embedding pré-entrainé sur Uniref50 (Protrans), les séquences sont représentées sous forme de vecteurs de nombres rendant compte de leurs similarités. Les données produites sont ensuite utilisées en entrée d’un réseau de neurone assignant à chaque séquence une probabilité d’être un effecteur.

Les performances de NERD surpassent celles des méthodes alternatives. NERD permet d’établir avec une grande fiabilité une liste d’effecteurs candidats à partir d’un transcriptome de PPN donné.

Johann Confais (INRAE URGI) - Les éléments transposables, de leur annotation à leur intégration en graphes de connaissance

Transposable elements (TEs) are major players of structure and evolution of eukaryote genomes. Thanks to their ability to move around and to replicate within genomes, they are probably the most important contributors to genome plasticity. Individuals of the same species independently undergo TE insertions causing inter-individual genetic variability. This variability between individuals is the basis of the natural selection that leads to an increased adaptation of individuals to their environment. A way to search for the potential role of TEs in host adaptation is through a pangenomic approach.

The REPET package integrates bioinformatics pipelines dedicated to detect and annotate TEs in genomes. Then the PanREPET pipeline allows to describe (i) TE insertions present in all individuals of the species (core-genome), (ii) insertions present only among a subset of individuals (dispensable-genome) or (iii) ecogenome when the individuals share the same environment, and finally (iv) insertions specific to an individual.

To identify TE candidate putatively involved in local adaptation, environmental knowledge and genome annotations have been integrated in a semantic knowledge graph.

Mouhamadou Ba (INRAE MaIAGE - Plateforme Migale) - Introduction à la fouille de textes et de données

La quantité croissante de données textuelles (articles scientifiques, rapports, pages web, champs de bases de données, etc.) dans les domaines scientifiques, en particulier en sciences de la vie, constitue une source précieuse d'informations et de connaissances. Ces données sont cependant encore sous-exploitées car difficiles à traiter en masse avec les techniques de recherche et de veille traditionnelles. La fouille de textes et de données (TDM) offre des solutions novatrices pour analyser et extraire des connaissances à partir des données textuelles. Cette présentation a pour but d’introduire le domaine de la fouille de textes et de données. Nous présenterons les disciplines mises en jeu (traitement automatique de la langue, recherche d’information, extraction d’information...), les caractéristiques des données manipulées (données textuelles, langues, formats...), les approches (apprentissage, statistique, règles…) et les tâches (extraction d'information, classification...). Nous donnerons également une vue d’ensemble sur les ressources, les outils logiciels et les offres de services proposés dans le domaine.

Nicolas Sauvion (Plant Health Institute of Montpellier) - Intérêt du Text-Mining pour la prévision du risque des maladies à transmission vectorielle

En santé du végétal, des insectes vecteurs causent chaque année d’importants dégâts à l’agriculture malgré la lutte dont ils sont l’objet. La veille scientifique et phytosanitaire porte sur un nombre croissant de documents et d’objets pour comprendre et anticiper ces crises sanitaires. Elle manque cruellement d’outils pour extraire, structurer et évaluer la pertinence des informations publiées au regard de la connaissance scientifique sur les interactions entre espèces et leur distribution géographique. Des outils de veille documentaire basés sur la surveillance d’internet commencent à être utilisés (ex. outil MediSys / EFSA & Plateforme SCA ; BioCaster ou Padi-Web / Plateforme ESA. Mais ces services documentaires n’offrent pas d’assistance à la formalisation des données pour leur compilation, leur partage et éventuellement une mise à disposition publique, alors qu’elles sont très utiles pour dresser des cartes d’occurrences, caractériser des niches écologiques, inférer des cartes de risque, ou nourrir des modèles épidémiologiques.

Entomologiste, intéressé par la prévision des risques associés aux maladies à transmission vectorielles (HDR-2022), j’ai initié en 2021 une collaboration dans le cadre du projet ANR BEYOND avec Claire Nédellec (UMR MaIAGE, équipe Bibliome. Notre objectif est de développer des outils et une base de connaissance pour assister la veille scientifique ou phytosanitaire à la fois dans la collecte, la formalisation, le partage et la mise à jour de connaissances fiables sur les interactions vecteur-plante-pathogène. Notre approche consiste à utiliser et développer des concepts et méthodes issus du domaine du Text Mining, ou plus précisément du Traitement Automatique de la Langue (TAL), pour automatiser la mise à jour d’une base de connaissance initiale avec de nouvelles occurrences et connaissances extraites de documents au fur et à mesure de leur publication. Cette collaboration a fait l’objet d’un Master 2 en 2022 (Elisa Lubrini), que nous espérons poursuivre par une thèse en 2023.

Dans cette présentation, avec le regard du biologiste, je détaillerai les questions auxquelles nous pensons répondre grâce au TAL. Notre démarche vise dans un premier temps la spécificité des couples vecteurs-hôtes. Mais nous verrons que nous visons une généricité des méthodes pour la veille sur les arthropodes vecteurs (moustiques, tiques, pucerons,...) et de nouvelles approches sur le traitement de la validité et de la nouveauté de connaissances scientifiques d’origine documentaire.

Raphaël Mourad (CBI, Université Toulouse 3, en délégation à INRAE MIAT-Mathnum) - Deep learning pour la génomique

Genome-wide association studies have systematically identified thousands of single nucleotide polymorphisms (SNPs) associated with complex genetic diseases. However, the majority of those SNPs were found in non-coding genomic regions, preventing the understanding of the underlying causal mechanism. Predicting molecular processes based on the DNA sequence represents a promising approach to understand the role of those non-coding SNPs. Over the past years, deep learning was successfully applied to regulatory sequence prediction. Such method required DNA sequences associated with functional data for training. However, the human genome has a finite size which strongly limits the amount of DNA sequence with functional data available for training. Conversely, the amount of mammalian DNA sequences is exponentially increasing due to ongoing large sequencing projects, but without functional data in most cases. Here, we propose a semi-supervised learning approach based on graph neural network which allows to borrow information from homologous mammal sequences during training. Our approach can be plugged into any existing deep learning model and showed improvements in many different situations, including classification and regression, and for different types of functional data.

Christophe Hitte (Université de Rennes) - Méthode d'apprentissage profond pour l'analyse génomique des cancers canins comme modèles des cancers humains

Les méthodes d’apprentissage profond (DL) se sont récemment révélées être de puis- santes stratégies pour prédire l’activité régulatrice d’une séquence génomique et donc pour, in fine, évaluer l’impact des mutations régulatrices sur l’expression des gènes. L’outil Basenji propose une approche DL utilisant des réseaux de neurones convolutifs pour prédire le niveau d’expression de gènes humains. Nous avons adapté ce programme pour entraîner un modèle d’expression génique spécifique au chien et montré que ce modèle de prédiction atteignait des performances similaires à celles observées chez l’humain, avec des corrélations élevées entre les niveaux d’expression réels et ceux prédits (R=0,66). Pour prédire le niveau d’expression de gènes canins, nous démontrons également que l’utilisation du modèle de prédiction canin (approche intra-espèce) aboutit à de meilleures performances que le modèle humain (approche inter-espèce), notamment en lien avec certaines caractéristiques spécifiques aux séquences canines (niveau de GC, d’éléments transposable et conservation évolutive). Le chien étant un modèle naturel pour l’étude des cancers humains, nous avons également exploité ces modèles pour prédire l’impact de mutations non-codantes sur l’expression de gènes impliqués dans les cancers. Nous avons ainsi localisé 1301 mutations communes entre l’humain et le chien, suggérant un rôle fonctionnel dans la régulation de l’expression de gènes impliqués dans les cancers. Finalement, nos modèles et les outils pour les exploiter sont disponibles sur GitHub : https://github.com/ckergal/BLIMP.