L’objectif du TP, à travers l’exemple de l’assemblage d’un souche bactérienne séquencée par HTS, est d’utiliser différents outils classiques d’analyse (assemblage, mapping, visualisation) et de vous permettre une première prise en main concrète de ce type de données. Nous ne balayerons pas tous les types de données ou toutes les analyses. De manière générale, ne vous contentez pas d’appliquer les instructions données dans le TP, essayez d’explorer les différentes options de chaque outil, en utilisant son aide (généralement présente en bas de page Galaxy de l’outil).
Connectez vous sur l’instance Galaxy Migale. Les login et mot de passe sont les mêmes que ceux de votre poste fixe (vous pouvez également utiliser votre compte Migale). Les données du TP sont accessibles dans le menu Shared Data/Data Libraries/NGS Formation
: Un répertoire Reads pour les lectures brutes, un répertoire Refs pour le génome de référence. Nous vous conseillons de créer un historique pour chaque partie du TP afin de séparer vos fichiers de sortie. Dans la mesure du possible, renommez les fichiers de sortie pour leur donner des noms explicites.
Nous utiliserons plusieurs programmes pour évaluer la qualité du séquençage, écourter les lectures, assembler, évaluer les assemblages, aligner et visualiser l’alignement. Voici la liste des programmes, accompagnés d’une brève description de leur fonction :
FASTQC
: Outil graphique produisant un rapport synthétique sur la qualité de données FASTQ.Sickle
: Outil de filtrage et nettoyage des bases mal séquencées, repérées selon des critères de qualité, dans les lectures.SPADES
: assembleur de données de séquence haut débit.QUAST
: Calcule un ensemble de mesures sur l’assemblage.Bowtie2
: Outil d’alignement des lectures sur un génome de référence.IGV
: Visualisateur de génome spécialisés dans la représentation des données de mapping.Dans cet TP, nous assemblerons en contigs des séquences d’une souche d’Escherichia coli obtenues à partir d’un séquenceur de paillasse de type MiSeq d’Illumina. Ces données sont mises à disposition par le fabricant. Tous les renseignements sur ce jeu de données sont disponibles sur cette page : https://emea.illumina.com/informatics/sequencing-data-analysis/data-examples.html
Afin d’accélérer les calculs, nous ne travaillerons que sur 10% des données, ce qui permet déjà d’avoir des résultats corrects dans un temps de calcul convenable pour le TP. Votre travail consiste dans un premier temps à effectuer un contrôle qualité sur le jeu de données fourni. Dans un second temps il vous faudra nettoyer les séquences en vous référant aux différentes étapes de nettoyage listées ci-dessous.
Votre travail consiste dans un premier temps à effectuer un contrôle qualité sur le jeu de données fournis à l’aide du logiciel fastqc Andrews (2010).
FastQC
R1_10.fastq.gz
R2_10.fastq.gz
FastQC
présent dans le dossier FASTQ Quality control
MultiQC
L’outil multiqc Ewels et al. (2016) permet d’agréger les résultats de plusieurs outils d’analyses bioinformatiques (dont FastQC) en un seul rapport.
FASTQC
au format RawData
avec l’outil multiQC
présent dans le dossier FASTQ Quality control.
Le trimming, ou nettoyage des lectures de mauvaise qualité est une étape indispensable avant toute analyse. Cela permet de diminuer le nombre de lectures à traiter et de ne conserver que les parties des lectures de bonne qualité pour l’analyse. Il existe de nombreuses façon de filtrer ces lectures, nous allons utiliser une méthode de trimming “adaptative”, qui analyse les lectures individuellement (ou par paires). Trimmer les lectures brutes en gardant les lectures de taille (après trimming) supérieure à 50 bases, ne comprenant pas de N et dont la qualité moyenne (après trimming) et supérieure à 20, à l’aide de l’outil sickle. Attention, sickle peut être utilisé en mode “single” ou “paired”. Nous tenons à nettoyer les lectures en mode pairé. Sickle doit garder les paires de bonne qualité et mettre dans un fichier à part les lectures de bonnes qualité dont la paire a été filtrée.
Sickle
du dossier FASTA/FASTQ en mode pairé avec les paramètres appropriés sur le couple de fichiers bruts de lectures :
R1_10.fastq.gz
R2_10.fastq.gz
20
50
Yes
fastq
ne sont pas automatiquement reconnus comme étant au format fastq-sanger
. Vous pouvez, soit utiliser Fastq Groomer pour les convertir, soit si vous êtes sur du format de votre fichier (ce qui est le cas ici), en changer directement le type dans les propriétés de chaque fichier (icône de crayon).R1Trimmed.fastq.gz
R2Trimmed.fastq.gz
singletons.fastq.gz
SPADES
Il existe de nombreux outils dédiés à l’assemblage de novo. SPADES Bankevich et al. (2012) est actuellement l’un des outils les plus utilisé et est considéré à l’état de l’art pour l’assemblage de génomes bactériens. Il est possible de l’utiliser en ligne de commande ou bien avec Galaxy. Spades comprends une phase de correction des reads suivi d’une phase d’assemblage. Il est possible de l’utiliser avec des reads court (comme lors de ce TP) ou en assembleur hybride avec des reads longs.
Yes
Auto
Paired-end
(separate input files
)
R1Trimmed.fastq.gz
R2Trimmed.fastq.gz
Il y a fondamentalement 2 types de métriques calculables sur un assemblage : celles basées sur un génome de référence: couverture, erreurs (ou différences) d’assemblage, … et celles sans génome de référence: taille de l’assemblage, nombre de contigs, N50, …
Rappelons que le N50 correspond à la plus petite taille de contig/scaffold telle que 50% de l’assemblage est contenu dans des contigs/scaffolds plus grands que cette taille.
Le NG50 est la plus petite taille de contig/scaffold telle que la somme des tailles des contigs/scaffolds plus grands que cette taille dépasse 50% de la taille du génome.
Les métriques avec génome de référence sont essentiellement utiles pour l’évaluation des assembleurs. Il est souvent impossible de les calculer précisément quand la référence n’est pas connue. Pour calculer des métriques et générer un rapport complet (incluant les erreurs ou différence d’assemblage si on lui fournit une référence), nous utilisons l’outil quast Gurevich et al. (2013), en prenant comme référence la version Sanger de la souche que nous avons séquencée.
ref.fna
contigs.fa
) avec l’outil Quast
présent dans la section Assembly en donnant comme référence ref.fna
:
SPADES ... contigs (fasta)
Genome
Yes
ref.fna
prokaryotes
Yes
Bowtie2
bowtie2 Langmead and Salzberg (2012) est un logiciel de mapping de lectures très fréquemment utilisé. Il peut par exemple servir à aligner des reads avec un génome de référence, ou dans notre cas à aligner des reads avec des contigs assemblés. L’alignement se fait en deux étapes : la création d’un index puis l’alignement proprement dit. Là encore, Galaxy permet de lancer facilement ces deux étapes. Pour faciliter les post-traitements, nous demanderons à Bowtie de sortir le résultat d’alignement des lectures pairées trimmées au format BAM. La taille (annoncée) d’insert étant de 300, nous demanderons à bowtie de valider les lectures comme étant pairées si elles ont une taille d’insert comprise entre 200 et 400. Récupérer également les statistiques de mapping.
bowties2
de la section Mapping pour des fichiers pairés R1Trimmed.fastq.gz
et R2Trimmed.fastq.gz
sur la référence contigs.fa
.
paired-end
R1Trimmed.fastq.gz
R2Trimmed.fastq.gz
Yes
200
400
Use a genome from the history and build index
: SPADES ... contigs (fasta)
No, just use defaults
Yes
Samtools
samtools Li et al. (2009) est un ensemble d’outils permettant de manipuler les fichiers issus d’un alignement. samtools
travaille sur des fichiers de type SAM/BAM. Le format BAM est une version binaire du format SAM, qui lui est un format textuel (lisible par les humains). samtools
propose plusieurs outils en ligne de commande pour transformer les fichiers SAM en BAM, faire des statistiques, visualiser un alignement ou encore générer la distance entre la lecture et la séquence de référence sur lequel il est aligné. Beaucoup d’outils prennent du BAM en entrée. On peut passer de SAM à BAM (et inversement) sans difficultés.
Un certain nombre d’outils de samtools sont interfacés dans Galaxy. Nous allons en utiliser quelques uns :
Lorsque l’on utilise les outils d’alignement en ligne de commande, il est important de convertir le SAM en BAM puis de le trier et de l’indexer. Ici, ces étapes sont gérées par Galaxy et transparentes pour nous.
Samtools flagstats
qui prend en entrée le fichier BAM trié pour calculer des statistiques sur l’alignement.Samtools idxstats
qui prend lui aussi en entrée le fichier BAM trié pour calculer des statistiques de profondeur?Il existe des outils de visualisation directement hébergé par Galaxy, cependant ils ne sont pas très stables. Nous allons donc privilégier IGV (Integrative Genomics Viewer).
contigs.fa
Il faut bien suivre les étapes montrées dans ce TP, notamment le contrôle qualité pour s’assurer qu’il n’y a pas de biais inattendu dans ses données. Concernant l’assemblage, nous vous conseillons d’utiliser un assembleur à l’état de l’art , comme SPADES. Vous pouvez utiliser des “optimiseurs” d’assemblage comme Unicycler ou Shovill qui cherchent à optimiser les paramètres d’assemblage, circulariser vos génomes et améliorer ainsi la qualité globale de vos assemblages.
Andrews, S. 2010. “FastQC a Quality Control Tool for High Throughput Sequence Data.” Http://Www.bioinformatics.babraham.ac.uk/Projects/Fastqc/. http://www.bioinformatics.babraham.ac.uk/projects/fastqc/.
Bankevich, Anton, Sergey Nurk, Dmitry Antipov, Alexey A Gurevich, Mikhail Dvorkin, Alexander S Kulikov, Valery M Lesin, et al. 2012. “SPAdes: A New Genome Assembly Algorithm and Its Applications to Single-Cell Sequencing.” Journal of Computational Biology 19 (5): 455–77.
Ewels, Philip, Måns Magnusson, Sverker Lundin, and Max Käller. 2016. “MultiQC: Summarize Analysis Results for Multiple Tools and Samples in a Single Report.” Bioinformatics 32 (19): 3047–8.
Gurevich, Alexey, Vladislav Saveliev, Nikolay Vyahhi, and Glenn Tesler. 2013. “QUAST: Quality Assessment Tool for Genome Assemblies.” Bioinformatics 29 (8): 1072–5.
Langmead, Ben, and Steven L Salzberg. 2012. “Fast Gapped-Read Alignment with Bowtie 2.” Nature Methods 9 (4): 357–59. https://doi.org/10.1038/nmeth.1923.
Li, Heng, Bob Handsaker, Alec Wysoker, Tim Fennell, Jue Ruan, Nils Homer, Gabor Marth, Goncalo Abecasis, and Richard Durbin. 2009. “The Sequence Alignment/Map Format and Samtools.” Bioinformatics 25 (16): 2078–9.
Galaxy ne permet pas de calculer de façon simple le nombre de bases dans un fichier fastq. Contentez vous donc d’une approximation en utilisant le nombre de reads et la longueur moyenne. Pour ceux qui voudraient le chiffre exact, vous pouvez le calculer en utilisant les outils FASTQ to Tabular suivie de Cut puis Line/Word/Character count.↩︎
A work by Migale Bioinformatics Facility
https://migale.inrae.fr
Our two affiliations to cite us:
Université Paris-Saclay, INRAE, MaIAGE, 78350, Jouy-en-Josas, France
Université Paris-Saclay, INRAE, BioinfOmics, MIGALE bioinformatics facility, 78350, Jouy-en-Josas, France