Solutions d’amélioration des études de métagénomique ciblée

Animalcules

Premières représentations de bactéries présentes dans la salive par Antoni van Leeuwenhoek (Porter, J. (1976). Antony van Leeuwenhoek: Tercentenary of His Discovery. Bacteriological Reviews, 40(2), 260–269.)

La métagénomique ciblée, étude de la composition et de la diversité des communautés microbiennes présentes dans différents échantillons biologiques sur la base d’un marqueur génomique, a connu un véritable essor lors de cette dernière décennie grâce à l’arrivée du séquençage haut-débit. Faisant appel à des outils de biologie moléculaire et de bioinformatique, elle a été à l’origine de substantiels progrès dans les domaines de l’évolution et de la diversité microbienne. Cependant, de nouvelles problématiques sont apparues avec le séquençage haut-débit : la génération exponentielle de données soulève des problèmes d’analyse bioinformatique, qui doit être adaptée aux plans d’expérience et aux questions biologiques associées.

Cette thèse, qui s’est déroulée de mars 2014 à mars 2017, propose des solutions d’amélioration des études de métagénomique ciblée par le développement d’outils et de méthodes innovantes, apportant une meilleure compréhension des biais d’analyse inhérents à de telles études, et une meilleure conception des plans d’expérience.

Ce projet de thèse CIFRE a été financé par la bourse n°2013/0920 de l’Association Nationale de la Recherche et de la Technologie, ainsi que par Gènes Diffusion SAS. Il s’inscrit dans le cadre d’une collaboration entre Gènes Diffusion, l’équipe de Transcriptomique & Génomique Appliquées (TAG) du Centre d’Infection et d’Immunité de Lille (CIIL) de l’Institut Pasteur de Lille, l’équipe BONSAI affiliée au Centre de Recherche en Informatique, Signal et Automatique de Lille (CRIStAL, UMR CNRS 9189, Université de Lille) et l’Institut National de Recherche en Informatique et en Automatique (INRIA).

Cette page recense les données complémentaires au manuscrit de thèse, qui sera publié suite à la soutenance.

Chapitre 3 – Évaluation formelle de pipelines d’analyse de données métagénétiques

Nous avons introduit dans ce chapitre un protocole d’évaluation formelle de pipelines d’analyse métagénétique, qui nous a permis de mesurer l’impact de plusieurs variables liées aux plans d’expérience sur les résultats d’analyse de différents pipelines, en particulier lorsque les données interprétées contiennent des erreurs de séquençage.

Protocole d'évaluation

Protocole d’évaluation de pipelines d’analyses métagénétiques (adapté de Siegwald et al. 2017)

Ces travaux ont été publiés dans l’article suivant : Assessment of Common and Emerging Bioinformatics Pipelines for Targeted Metagenomics, Siegwald et al. PLOS ONE, 2017.

L’ensemble des données associées à cette publication est disponible sur cette page : http://www.pegase-biosciences.com/metagenetics/.

Proportions moyennes de chaque genre significativement différent entre deux groupes d’échantillons. Les valeurs représentées sur chaque barre sont la différence de moyenne entre les deux groupes (seuls sont représentés les taxons pour lesquels le test de Student non-paramétrique avec correction de Benjamini-Hochberg entre les proportions moyennes des deux groupes a une q-valeur = 0,05, et dont la taille d’effet est supérieure à 1 %).

Chapitre 4 – Impact de la variation de pipeline d’analyse dans les conclusions d’une étude métagénétique du microbiote intestinal humain

La publication initiale sur laquelle s’est basée cette étude est la suivante : Audebert, C. et al. Colonization with the enteric protozoa Blastocystis is associated with increased diversity of human gut bacterial microbiota. Sci. Rep. 6, 25255 (2016).

L’ensemble des données traitées dans ce chapitre sont disponibles sur la page dédiée à cette publication.

L’association du nom des échantillons à leur groupe, et statut de colonisation par Blastocystis est disponible dans ce fichier Excel.

Chapitre 5 – Harpon : Design de novo d’amorces dégénérées à façon selon un microbiote d’intérêt

Harpon est un logiciel de design d’amorces sur la base d’un alignement de séquences d’intérêt, dont l’innovation réside dans la sélection rapide de couples d’amorces compatibles avec une taille d’amplicon souhaitée, captant un maximum des séquences d’intérêt dans la limite d’un seuil de dégénérescences fixé, et dont les amplicons générés sont les plus variables possibles entre ces séquences. Ce logiciel est actuellement le seul existant cumulant tous ces critères et a été validé en comparaison avec des couples d’amorces issus de la littérature. Il a en outre été utilisé pour générer des couples d’amorces spécifiques à des champignons d’intérêt clinique. Ces amorces ont été intégrées à une étude pilote en cours afin d’être évaluées en conditions expérimentales réelles.

Les sections ci-dessous recensent les alignements de séquences et résultats bruts correspondant aux mêmes sections décrites dans le manuscrit de thèse. Les résultats bruts contiennent l’intégralité des couples d’amorces générés sur l’alignement correspondant, après filtrage de compatibilité des amorces de chaque couple. Ces résultats ne présentent pas les valeurs de distance topologique de l’ensemble des couples ; ces valeurs sont calculées et affichées par Harpon suite à la sélection de couples candidats d’intérêt uniquement.

5.3.1 – Validation de Harpon sur le design d’amorces ciblant deux régions de l’ADNr 16S bactérien

Téléchargement de l’archive zip contenant :

  • Fichier Clustal Omega d’alignement : 16S_bac.aln
  • Fichier de résultats bruts d’Harpon : 16S_bac_harpon.txt

5.3.2 – Utilisation de Harpon pour un design d’amorces sur l’ADNr 16S d’un ensemble d’archées présents dans la subsurface sédimentaire de fonds marins

Téléchargement de l’archive zip contenant :

  • Fichier Clustal Omega d’alignement : 16S_arc.aln
  • Fichier de résultats bruts d’Harpon : 16S_arc_harpon.txt

5.3.3 – Utilisation de Harpon pour trouver des couples d’amorces adaptées à l’étude de la diversité fongique dans un contexte clinique et compatibles avec un projet de séquençage MiSeq paired-end 2×250

Téléchargement de l’archive zip contenant :

  • Fichier Clustal Omega d’alignement : ITS.aln
  • Fichier de résultats bruts d’Harpon : ITS_harpon.txt

Chapitre 6 – Recommandations d’analyse de données métagénétiques issues d’un séquençage de librairies bidirectionnelles Ion Torrent PGM

L’ensemble des scripts détaillés dans ce chapitre peut être téléchargé dans l’archive suivante : guidelines.zip