transcriptome introduction aux biopuces et à lanalyse du transcriptome emmanuel prestat

Transcriptome

Introduction aux biopuces et à l’analyse du transcriptome

Emmanuel Prestat

Transcriptome

Les différentes puces

• Mesures d’expression

• Etude du nombre de copies

• Analyse de polymorphisme

• Puces à tissus, à cellules, à immunoprécipition

Transcriptome

Mesures d’expression

• Biopuces les plus utilisées à ce jour (premières auxquelles on pense, quand on parle de puces à ADN)

• Principe :– les sondes, petits fragments d’ADN (20 à 50 nt)

complémentaires à chaque gène ciblé, sont déposées sur une lame de verre, type lame de microscope ;

– Les cibles, ARNm ou ADNc issus d’ARNm, sont marquées (radioactivité ou fluorescence) puis hybridées avec la lame sur laquelle les sondes sont déposées

Transcriptome

Transcription

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

Transcriptome

La technologie des puces bifluorescentes

Transcriptome

Dépôt des sondes (« spotting »)

Transcriptome

Dépôt des sondes (« spotting »)

QuickTime™ et undécompresseur TIFF (non compressé)




Transcriptome

Puces à oligo : pas de « spotting » !

Procédé Affymetrix (et NimbleGene…)

Transcriptome

Particularités des puces Affymetrix

• La fabrication in situ des sondes• Leur ultra-haute densité : jusqu’à 1,3

millions d’objets• Leur design :

– Objets carrés– Pas d’espace entre eux– Concept de probeset– Concept de PM et MM

Transcriptome

Puces Affymetrix



Transcriptome

Préparation des échantillons (cibles)

• Extraction d’ARNKit

• AmplificationPCR

• Marquage– Radioactivité (S35, P32)– Fluorescence (Cy3 - vert, Cy5 - rouge)

En général réalisé en même temps que l’amplification: utilisation d’une amorce de PCR marquée

• Digestion (λ-exonucléase) ADN simple brin

Transcriptome

L’hybridation• Séchage des cibles et reprise dans un tampon

d’hybridation

• Volume d’hybridation : 3 à 50 μl (entre lame et lamelle) attention à l’évaporation ! à répartir sur l’ensemble de la surface de la puce

• Température d’hybridation45 65°C– + la température ↑, + le signal d’hybridation ↓– + la température ↓, + l’hybridation aspécifique ↑

• Temps d’hybridation1h 12h

dans une chambre d’hybridation

Transcriptome

Le lavage

• Après hybridation, lavage de la lame, pour éviter – L’adsorption de fluorescence sur le support

– Les hybridations aspécifiques

• Conditions de lavage :– Dans des solutions de plus en plus stringentes

• Evaluation de la qualité du lavage (et de l’hybridation)– Témoins positifs et négatifs

– Répartition aléatoire sur la lame

vérification : pas d’effet de localisation, de bord

Transcriptome

Acquisition des images

Extraction des données

Excitation

Amplification du signal (PMT)

Émission

Laser 1 Laser 2

Fluorescence verte

Fluorescence rouge

(Ech 1) (Ech 2)

Transcriptome

Acquisition des imagesEtat excité

Etat stable

Spectre d’excitation&

Spectre d’émission

Transcriptome

Choix des fluorochromes

Fluorescence verte

Fluorescence rouge

Transcriptome

« Vrais » images et images d’« interprétation »

Transcriptome

Pas si simple…

Transcriptome

Pas si simple…

Queues de comètes Bavures

Mauvais blocage du processus pendant la phase d’hybridation

Sondes/Cibles

Spotting ? Lavage ?

Transcriptome

Pas si simple……etc

Transcriptome



Différences avec les puces radioactives

• Marquage radioactif (!)• Une seule condition expérimentale• Le support est une membrane• Maximum : 2400 dépôts par

membrane (on les appelle parfois les macroarrays)

QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.

Transcriptome

Extraction des données à partir de l’image

1. Adressage – Localisation

2. Segmentation

3. Extraction de l’information (pour chaque spot)

- signal d’intérêt

- bruit local (autour de chaque spot)

- morphologie (surface, périmètre…)

Transcriptome

Méthodes de segmentation

Cercles fixes

Transcriptome


Cercles fixes / rotation & distorsions !

Cercles fixes / variabilité du spot

GenePix Pro 4.0

Transcriptome


Cercles adaptables :

modifier position du cercle

modifier la taille du cerle

Transcriptome


Dérivée seconde

Détection de contours

Transcriptome


Détection de contours vs cercles fixes

Transcriptome


Adams R et Bishof 1994

http://www.ch.embnet.org/…..

Détection de régions (graines ou agrégation de pixels)

Transcriptome


Détection de régions : seuillage (ou histogrammes)

Détection de régions (Watershed Function) Morphologie mathématique

Transcriptome

Mesure du bruit de fond

Transcriptome

Quelques chiffresDiamètre des spots : 100-600 µmCapacité totale : 30000 spots / lame ; 2-10 ng ac.nucl./spotDistance entre les spots : 100 µm – 600 µm

Durée de conservation : 9 moisConditions optimum de conservation : 2 – 8 °CDurée totale de préparation : 3 joursPréparation d’un échantillon : 2 joursHybridation : 16 heuresLavage : 1 heureScan : 5 - 15 minutes

Transcriptome

Normalisation de biopuces : pourquoi ?

«Traitement visant à ajuster les données selon les effets des variations dues à la technologie plutôt qu’à des différences biologiques » Yang et al. 2002

Transcriptome


Transcriptome


QuickTime™ et undécompresseur TIFF (LZW)




Effet microplaque (ou aiguille)

Transcriptome


Transcriptome


Après normalisation qui tient compte de la variabilité due aux différentes aiguilles du « spotter ».

Rmq : la normalisation inter-lames observe le même principe

Transcriptome

Analyse de données

• Identification de gènes DE– Fold change– Tests statistiques

• Identification de gènes DE (plus de 2 conditions)

• Répétitions (quel type, combien ?)

Transcriptome

Fold change

• Avantage : sens pour un biologiste• Fold Change =expression value sample 1/ expression value

sample 2

• Décision :– Quel seuil ?– Même pour tous les gènes

• Inconvénients– Seulement les valeurs moy, sans tenir compte de la

variabilité sont considérées– Les gènes ayant une expression très variable, ont plus de

chance de dépasser le seuil aléatoirement

Transcriptome

Tests à un facteur

Transcriptome

Tests à un facteur

• Paramétriques– Condition de normalité

Transormation Log

=> Transformer les données !

Transcriptome

Tests à un facteur

• Tests non paramétriques– Ne supposent pas la normalité– Ne supposent pas l’homoscédasticité– L’utilisation des rangs à la place des

valeurs d’intensité :• Diminue l’effet des outliers• Ne sont pas affectés par la log-transformation

– Pas recommandés si les échantillons ont peu de répétitions

Transcriptome

Volcano plot• Combine les p-values et fold

changes• Qu’est-ce qui est

biologiquement important ?– La significativité des

différences– Leur valeur

• Quels seuils ?– Combien veut-on identifier de

gènes ?– Où sont les contrôles ?

• Le t-test modéré fait quelque-chose de similaire

Transcriptome

Quel seuil de p-value choisir ?• Dépend du type d’erreur

– Type 1• Faux positifs

• => identifie des gènes différentiellement exprimés alors qu’ils ne le sont pas

– Type 2• Faux négatifs

• => ne détecte pas certains gènes pourtant différentiellement exprimés dans la réalité

Transcriptome

Correction des tests multiples

• Le problème…– Ho = l’expression moyenne du gène X est la même pour

toutes les populations comparées– Identification des gènes DE : autant de tests à faire que de

gènes considérés– Nombre moyen de faux positifs : G.

• Exemple– G = 25000 gènes = 0.05

=> G. = 1250 faux positifs…

Transcriptome

Correction des tests multiples

• Méthodes de correction des p-values– Correction FWER (Family-Wise Error Rate)

• FWER = proba- d’obtenir au moins 1 faux positif• Méthodes utilisées :

– Bonferroni– Bonferroni step-down (Holm)– Westfall and Young permutation

– Correction FDR (False Discovery Rate)• FDR = taux attendu de faux positifs• Méthode utilisée

– Benjamini et Hochberg

Transcriptome

Lequel utiliser ?

• FWER: ne tolère pas de faux positifs (Ho est difficilement rejeté) => procédure très conservative

• FDR : moins conservatif, on estime le pourcentage de FP parmi les gènes « appelés »

• Aucun : le pourcentage de FP est estimé sur l’ensemble des gènes testés

Transcriptome

Tests bi-facteurs

• ANOVA– Comme un t-test avec + de deux conditions– Mesure les effets de différents facteurs ainsi que leurs

interactions– ANOVA 2

• Test deux facteurs

• 3 tests– Temps– Traitement– Interaction entre les 2 (additif ? Multiplicatif ?)

Transcriptome

Importance des répétitions



Transcriptome

Classification

• But :Regrouper une collection d’objets de façon à

ce que les objets d’une partition soient plus liés entre eux qu’avec les objets d’une autre partition

• Analyse discriminante (classification supervisée) : les classes sont définies

• Classification (non-supervisée) : on ne connaît pas les classes

Transcriptome

Classification

• Exemples :– Traitement/contrôle, malade/normal,

thérapie efficace/sans succès,…– Si on a des informations sur la façon de

classer les échantillons, elles devraient être intégrées dans la méthode

Transcriptome

Les données

Genes(thousands)

Experimental conditions (from tens up to no more than a few houndreds)

A B C

Expression profile of a gene across the experimental conditions

Expression profile of all the genes for a experimental condition (array)

Different classes of experimental conditions, e.g. Cancer types, tissues, drug treatments, time survival, etc.

• La plupart des gènes sont non-informatifs pour le trait étudier

• Le nombre de variables est plus important (plusieurs ordres de magnitude) que le nombre d’expériences

Caractéristiques

Transcriptome

Classification : corrélations et distances

• Corrélations :– Pearson : corrélation entre les valeurs– Sperman : corrélation de rangs (réduit l’effet des variations

extrèmes)=> Prend en compte les tendances

• Spearman confidence (mesure de similarité) = 1 - p-value

• Distance euclidienne => différences entre coordonnées

• Distance de manhattan (somme des différences absolues pour toutes les coordonnées du vecteur) => plus robuste

Transcriptome

Classification hiérarchique

• Arbre des gènes

• Arbre des conditions

Exemple : UPGMA

Alizadeh et al., Nature 2000

Transcriptome

Classification non-hiérarchique

• K-means : minimisation de la variance intra-classe (le nombre de classes est une instance)

• ACP : rotation de la base maximisant les variances

• SOM (Self Organising Maps)

Transcriptome

Classification supervisée = « class prediction »

• Quelques méthodes:– Bayes– Analyse discriminante linéaire– Les k plus proches voisins (k-NN)– Les arbres de classification (CART)

Transcriptome

Autre type de puce analysant le transcriptome

• Puces à exons :

Analyse de l’épissage

Transcriptome

Principe du CGH



Transcriptome

Analyse des puces CGH

Transcriptome

Objectifs de l’étude statistiques

Transcriptome

Analyse de polymorphisme

• Les Single Nucleotide Polymorphims (S.N.P) désignent des variations d'une seule paire de base du génome, entre individus d'une même espèce (e.g. 1/1000 paire de bases dans le génome humain).

• On parlera de formes alléliques synonymes dans le cas où plusieurs formes d'un SNP mènent à la même séquence polypeptidique, et de formes non-synonymes dans le cas où les séquences produites diffèrent.

• Les SNP qui se retrouvent dans des régions non-codantes peuvent avoir des conséquences sur l'épissage, les facteurs de transcription, ou sur les séquences d'ARN non-codant

Transcriptome

Une séquence d'ADN contenant un site SNP. Les allèles A et G sont illustrés.

Une région chromosomique où seuls les SNP sont montrés. Trois haplotypes sont illustrés. Les deux SNP colorés suffisent à identifier (marquer) chacun des haplotypes. Par exemple, si les deux sites SNP marqueurs du chromosome portent les allèles A et T, on peut déduire qu'il s'agit du premier haplotype.

Les SNP

Transcriptome

Puces SNP

• Exemple : Affymetrix Genome-Wide Human SNP Array 6.01.8 million markers for genetic variation

• 900 000 single nucleotide polymorphisms (SNPs)

• 946,000 probes for the detection of copy number variation

Transcriptome

ChIP-on-Chip (étude des points de contacts entre une protéine et tout le génome)

Transcriptome 64

Problématique biologique du TP• Buchnera est une bactérie symbiotique intracellulaire associée à la

majorité des pucerons. L’association est très ancienne (250 Ma). Les partenaires sont devenus dépendants.

• Buchnera possède un génome de taille très réduite (400 à 600 kb), très riche en bases A et T et incluant de nombreuses mutations délétères

(adaptatives ?). -> Bon modèle d’étude à un niveau théorique (simple)-> très difficile à manipuler expérimentalement (incultivable)

• Le génome de Buchnera est « dégénéré »-> Comment Buchnera régule-t-elle l’expression des ces gènes ?-> Comment Buchnera s’adapte-t-elle aux variations des besoins

nutritionnels de l’hôte ?

Transcriptome 65

La puce Buchnera

aiguille1

aiguille2

aiguille3

aiguille4

= =

bloc (12 x 16)

Contrôles (+ et -)

Doublets de spotsOligo 5’

Oligo 3’

3ème oligo

Superposition des 2 images (R et G)

Transcriptome 66

• Approche comparative (non cinétique)

– Expérience Naas (16 lames) :

Milieu équilibré Milieu déséquilibré

en AA en AA

riche en saccharose A B

pauvre en sacharose C D

2 répétitions indépendantes de 8 lames :

A/B, B/C, C/D, D/A, A/C, B/D, D/B, C/A

A B

CD

-> Les données ont été acquises par N. Reymond (expérience naas.tri analysée en TP)

Plan expérimental du TP

transcriptome introduction aux biopuces et à lanalyse du transcriptome emmanuel prestat

Documents