MetaSTEM
2tes Projekttreffen
Januar 2008
Die Menschen des Datenanalyse-Teils im METASTEM-Projekt
Thomas Villmann Frank-Michael Schleif
Arbeitsgruppe
Computational Intelligence
Medizinische Fakultät
Universität Leipzig
{villmann,schleif}@informatik.uni-leipzig.de
Projektzeitplan – aktueller Stand
Automatische Analyse von NMR-Metabolitenspektren
Fouriertransformation Phasenkorrektur Wasserpeakentfernung
• Basislinienkorrektur
• Alignierung per DSS – Referenzsignals
• Peaklistenbestimmung
1
2• Simulationsspektren + Peaklisten
• Metabolitenidentifikation über
passende Peaks oder Differenzspektren
• Quantifizierung
3
NMR-Analysis – Prototypisches Tool
Spektrendarstellung
Einzelspektrum
Mehrspektrensicht
Fouriertransformiert ohne H2O Signal
Basislinienkorrigiert mit gepickten Peaks
Zoom in prozessiertes Signal im Frequenzbereich von 2200 – 3400 Hz
Automatisch annotierte Peaks (Farbe), Untergrund (blau)
DSS
Myo
Inositol
(gemessen)
Myo
Inositol
(simuliert)
Automatische Metabolitenidentifikation
Automatische Metabolitenidentifikation - Fit
Automatische Metabolitenidentifikation
Simulationsmessung
(Lacktat)
Messung bzw.
Simulation
Peakliste
Peakliste
FDCPMix - Messung
(5 mM Glucose)
Laktat-Signale, die in der FDCPMix-Messung (wahrscheinlich) wieder gefunden wurden
Zusammenfassung – NMR Tool
Vollautomatische Vorverarbeitung – H1 + DSS(FFT, Phasing, Wasserpeakentfernung, Smoothing, Baseline, Peakdetektion)
Verschiedene Visualisierungsmöglichkeiten Identifikation der Metabolite ueber Peaklisten oder
Shape (reine Quantifizierung)– Manuell : geführt via Ident-Dialog Automatisch:
Durchsatzprozessierung Elementare Peakshape-Modellierung möglich Exports (als txt oder xml):
– Roh / prozessiertes Spektrum– Peaklisten – Single Spektrum– Identifikationsergebnisse
Glucose-Test (Peak basiert) - Beispiel
Mess Metabolit Konz. Kommentar
M11 Citric-Ac ~2 Peakmatch, aber in Multiplet
M11 Lactate ~6 Quartet hat falsche Ratios
M12 Citric-Ac ~3 Wie f. M11 / 1 Peak fehlt
M12 Glutamine ?? 71% match – sieht gut aus
M12 Glycine ~7 Peakmatch – aber einf. Met.
M12 Lactate ~9 Quartet besser als bei M11
M13 Glycine ~5 Extrem schmale Peaks
M13 Lactate ~6 Schlechte Auflösung der Peaks
M13 Succinate ~2 Extrem schmale Peaks
Sparse-Coding f. NMR Analyse
Identifikation von Metaboliten möglich– durch Differenzspektrenanalyse aller Kombinationen (i.A. manuell)– durch Peakbasierte Identifikation auf Linienspektren
Aufwendige Vorverarbeitung – Differenzspektren mühsam (Peakshape)– Peaklisten: Codierung-Peaklisten schwierig – „keine“ Shape nötig
Alternative – Sparsecoding* (Ähnlichkeiten zu PCA)(Codierung mit wenig „Basisfunktionen“)
– Generiere erzeugenden System (Modellierung aus gemessenen und simulierten Daten)
– „Basisfunktionen“ aus Metaboliten– Lerne Modell für Koeffizienten d. Basisfunktionen (Klassifikation)– Mischkonzentrationen – durch Fuzzyassignments zwischen
Basisklassen detektierbar
*Details siehe Olshausen et al. Letters to Nature, 381, 1996
Erste Ergebnisse – auf Synthesen
Trainingsdaten (D) 4 Metabolite
(Alanine, Glutamine, Glycine, Serine) ~160 Spek Testdaten (T) Reine Metabolite (Ala, Glu, Gly, Ser) und
paarweise Mischungen 10 Gruppen – insgesamt ca. 400 Spektren Prozedure
– Trainingsdaten für Sparse-Coding-Modell-Gen.– D / T werden sparse kodiert (Koeffizienten)– D für Lernen eines Klassifikationsmodells– D / T zum Testen des Klassifikationsmodells =
Metabolitenidentifikation
Schema für Sparsecoding in NMR
DNMR
Basic Prep
SparseCoding
Model-Gen
D*
D*
C
SC-Model
SC-Model
D* DTest*
Sparsecoder
CTest
Schema für SC-Identifikation
Classifier
Modellapplier
M
R
C
Modell
C
CTest
MResults
R
Klassifikationsmatrix für C
Fuzzyassignments für C,CTest
Toplogische Visualisierung (Klassenähnlichkeiten)
Sparse-Coding – Ergebnisse 1
Fuzziness für Alanin – Klasse 1Fuzziness für Glutamine (2)
Fuzziness für Glycine (3)Fuzziness für Serine (4)
Hohe Zuordnung für Alanin (4)
M: FLSOM
Abbildung von D und T M
Sparse-Coding – Ergebnisse 2
Ala Gln Gly Ser 1/2 1/3 1/4 2/3 2/4 3/4
Ala 0.74
Gln 1.0 1.0 0.4 1.0
Gly 0.95
Ser 0.77 0.03
1/2 XXX
1/3 0.25 0.05 1.0 0.7
1/4 0.3
2/3 0.23 0.97
2/4 0.6
3/4 XXX
87% korrekt 4 bek. Klassen Unbek. (47% korr – 6 unbek. Klassen)Unbek. (47% korr – 6 unbek. Klassen)
Peak-Coding – Ergebnisse 3
Ala Gln Gly Ser 1/2 1/3 1/4 2/3 2/4 3/4
Ala 0.9 0.03 0.1
Gln 0.82
Gly 1.0 0.18
Ser 0.92 0.03 0.18
1/2 0.97
1/3 0.9
1/4 0.9
2/3 0.82
2/4 0.82
3/4 1.0
91% korrekt 4 bek. Klassen Unbek. (90% korr – 6 unbek. Klassen)Unbek. (90% korr – 6 unbek. Klassen)
Zusammenfassung
1te Analyse (sehr w. Proben) – Vorgehen so machbar Plausibilität der Ergebnisse schwierig
– Peakverhältnisse beachten – aber dafür exakte Messungen / Mehrfachmessungen nötig
– Sehr niedrige Intensitäten – Peakpicking schwierig / Rauschprobleme
– Standardisierte Messung + hohe Messqualität + Mehrfachmessungen wichtig
Shape basierter Match alternativ möglich(liefert prinzipiell einen Quantiätswert)
Sparsecoding interessante Alternative – aber noch sehr experimentell + offene Probleme
Dankefür
die Aufmerksamkeit