Download - MetaSTEM 2tes Projekttreffen Januar 2008. Die Menschen des Datenanalyse-Teils im METASTEM-Projekt Thomas VillmannFrank-Michael Schleif Arbeitsgruppe Computational

MetaSTEM

2tes Projekttreffen

Januar 2008

Die Menschen des Datenanalyse-Teils im METASTEM-Projekt

Thomas Villmann Frank-Michael Schleif

Arbeitsgruppe

Computational Intelligence

Medizinische Fakultät

Universität Leipzig

{villmann,schleif}@informatik.uni-leipzig.de

Projektzeitplan – aktueller Stand

Automatische Analyse von NMR-Metabolitenspektren

Fouriertransformation Phasenkorrektur Wasserpeakentfernung

• Basislinienkorrektur

• Alignierung per DSS – Referenzsignals

• Peaklistenbestimmung

1

2• Simulationsspektren + Peaklisten

• Metabolitenidentifikation über

passende Peaks oder Differenzspektren

• Quantifizierung

3

NMR-Analysis – Prototypisches Tool

Spektrendarstellung

Einzelspektrum

Mehrspektrensicht

Fouriertransformiert ohne H2O Signal

Basislinienkorrigiert mit gepickten Peaks

Zoom in prozessiertes Signal im Frequenzbereich von 2200 – 3400 Hz

Automatisch annotierte Peaks (Farbe), Untergrund (blau)

DSS

Myo

Inositol

(gemessen)

Myo

Inositol

(simuliert)

Automatische Metabolitenidentifikation

Automatische Metabolitenidentifikation - Fit

Automatische Metabolitenidentifikation

Simulationsmessung

(Lacktat)

Messung bzw.

Simulation

Peakliste

Peakliste

FDCPMix - Messung

(5 mM Glucose)

Laktat-Signale, die in der FDCPMix-Messung (wahrscheinlich) wieder gefunden wurden

Zusammenfassung – NMR Tool

Vollautomatische Vorverarbeitung – H1 + DSS(FFT, Phasing, Wasserpeakentfernung, Smoothing, Baseline, Peakdetektion)

Verschiedene Visualisierungsmöglichkeiten Identifikation der Metabolite ueber Peaklisten oder

Shape (reine Quantifizierung)– Manuell : geführt via Ident-Dialog Automatisch:

Durchsatzprozessierung Elementare Peakshape-Modellierung möglich Exports (als txt oder xml):

– Roh / prozessiertes Spektrum– Peaklisten – Single Spektrum– Identifikationsergebnisse

Glucose-Test (Peak basiert) - Beispiel

Mess Metabolit Konz. Kommentar

M11 Citric-Ac ~2 Peakmatch, aber in Multiplet

M11 Lactate ~6 Quartet hat falsche Ratios

M12 Citric-Ac ~3 Wie f. M11 / 1 Peak fehlt

M12 Glutamine ?? 71% match – sieht gut aus

M12 Glycine ~7 Peakmatch – aber einf. Met.

M12 Lactate ~9 Quartet besser als bei M11

M13 Glycine ~5 Extrem schmale Peaks

M13 Lactate ~6 Schlechte Auflösung der Peaks

M13 Succinate ~2 Extrem schmale Peaks

Sparse-Coding f. NMR Analyse

Identifikation von Metaboliten möglich– durch Differenzspektrenanalyse aller Kombinationen (i.A. manuell)– durch Peakbasierte Identifikation auf Linienspektren

Aufwendige Vorverarbeitung – Differenzspektren mühsam (Peakshape)– Peaklisten: Codierung-Peaklisten schwierig – „keine“ Shape nötig

Alternative – Sparsecoding* (Ähnlichkeiten zu PCA)(Codierung mit wenig „Basisfunktionen“)

– Generiere erzeugenden System (Modellierung aus gemessenen und simulierten Daten)

– „Basisfunktionen“ aus Metaboliten– Lerne Modell für Koeffizienten d. Basisfunktionen (Klassifikation)– Mischkonzentrationen – durch Fuzzyassignments zwischen

Basisklassen detektierbar

*Details siehe Olshausen et al. Letters to Nature, 381, 1996

Erste Ergebnisse – auf Synthesen

Trainingsdaten (D) 4 Metabolite

(Alanine, Glutamine, Glycine, Serine) ~160 Spek Testdaten (T) Reine Metabolite (Ala, Glu, Gly, Ser) und

paarweise Mischungen 10 Gruppen – insgesamt ca. 400 Spektren Prozedure

– Trainingsdaten für Sparse-Coding-Modell-Gen.– D / T werden sparse kodiert (Koeffizienten)– D für Lernen eines Klassifikationsmodells– D / T zum Testen des Klassifikationsmodells =

Metabolitenidentifikation

Schema für Sparsecoding in NMR

DNMR

Basic Prep

SparseCoding

Model-Gen

D*

D*

C

SC-Model

SC-Model

D* DTest*

Sparsecoder

CTest

Schema für SC-Identifikation

Classifier

Modellapplier

M

R

C

Modell

C

CTest

MResults

R

Klassifikationsmatrix für C

Fuzzyassignments für C,CTest

Toplogische Visualisierung (Klassenähnlichkeiten)

Sparse-Coding – Ergebnisse 1

Fuzziness für Alanin – Klasse 1Fuzziness für Glutamine (2)

Fuzziness für Glycine (3)Fuzziness für Serine (4)

Hohe Zuordnung für Alanin (4)

M: FLSOM

Abbildung von D und T M

Sparse-Coding – Ergebnisse 2

Ala Gln Gly Ser 1/2 1/3 1/4 2/3 2/4 3/4

Ala 0.74

Gln 1.0 1.0 0.4 1.0

Gly 0.95

Ser 0.77 0.03

1/2 XXX

1/3 0.25 0.05 1.0 0.7

1/4 0.3

2/3 0.23 0.97

2/4 0.6

3/4 XXX

87% korrekt 4 bek. Klassen Unbek. (47% korr – 6 unbek. Klassen)Unbek. (47% korr – 6 unbek. Klassen)

Peak-Coding – Ergebnisse 3

Ala Gln Gly Ser 1/2 1/3 1/4 2/3 2/4 3/4

Ala 0.9 0.03 0.1

Gln 0.82

Gly 1.0 0.18

Ser 0.92 0.03 0.18

1/2 0.97

1/3 0.9

1/4 0.9

2/3 0.82

2/4 0.82

3/4 1.0

91% korrekt 4 bek. Klassen Unbek. (90% korr – 6 unbek. Klassen)Unbek. (90% korr – 6 unbek. Klassen)

Zusammenfassung

1te Analyse (sehr w. Proben) – Vorgehen so machbar Plausibilität der Ergebnisse schwierig

– Peakverhältnisse beachten – aber dafür exakte Messungen / Mehrfachmessungen nötig

– Sehr niedrige Intensitäten – Peakpicking schwierig / Rauschprobleme

– Standardisierte Messung + hohe Messqualität + Mehrfachmessungen wichtig

Shape basierter Match alternativ möglich(liefert prinzipiell einen Quantiätswert)

Sparsecoding interessante Alternative – aber noch sehr experimentell + offene Probleme

Dankefür

die Aufmerksamkeit

Download - MetaSTEM 2tes Projekttreffen Januar 2008. Die Menschen des Datenanalyse-Teils im METASTEM-Projekt Thomas VillmannFrank-Michael Schleif Arbeitsgruppe Computational

Top Related