asger hobolth (au, matematisk institut): ka e, computere...
TRANSCRIPT
Asger Hobolth (AU, Matematisk Institut):Kaffe, computere og konveks analyse kan kvantificerekendskabet til kræft
I tæt samarbejde med Astrid Kousholt (Novo Nordisk), JensLedet Jensen (AU, Math) and Qianyun Guo (Trifork)
Inspireret af samarbejde med Jakob Skou Pedersen (MolekylærMedicinsk Afdeling, Aarhus Universitetshospital)
Struktur:
1. Baggrund: Mutationer i cancer genomer.2. Signaturmodel: Ikke-negativ matrix faktorisering.3. Resultater.4. Estimation: Et høj-dimensionelt optimeringsproblem.5. Konklusioner, Perspektiver or Relation til Neurale Netværk.
1 / 33
1. Baggrund: Hvordan min interesse blev vakt
100
10000
1000000
Biliary
−Ade
noCA
Bladde
r−TCC
Bone−
Cart
Bone−
Epith
Bone−
Leiom
yo
Bone−
Osteos
arc
Breas
t−Ade
noCA
Breas
t−DCIS
Breas
t−Lo
bular
CA
Cervix
−Ade
noCA
Cervix
−SCC
CNS−GBM
CNS−Med
ullo
CNS−Olig
o
CNS−Pilo
Astro
ColoRec
t−Ade
noCA
Eso−A
deno
CA
Head−
SCC
Kidney
−ChR
CC
Kidney
−RCC
Liver
−HCC
Lung
−Ade
noCA
Lung
−SCC
Lym
ph−B
NHL
Lym
ph−C
LL
Lym
ph−N
OS
Mye
loid−
AML
Mye
loid−
MDS
Mye
loid−
MPN
Ovary
−Ade
noCA
Panc−
Adeno
CA
Panc−
Endoc
rine
Prost−
Adeno
CA
Skin−M
elano
ma
Stom
ach−
Adeno
CA
Thy−A
deno
CA
Uteru
s−Ade
noCA
num
ber
of m
utat
ions
Sample size34
239
1134
41195
313
218
39141
1889
5297
5643
143324
3747
10590
216
351
110234
81275
10768
4844
2 / 33
Sequencing Technology
1000$ genomet er en realitet.
Vi kortlægger genomet fra rask væv og fra en kræftsvulst:
Healthy tissue ...TCG...ACG....etc
Cancer tissue ...TAG...AGG....etc
Notationen for disse to mutationer er T[C>A]G og A[C>G]G.
Der er 4 · [4 · 3] · 4 = 192 mutationstyper.Antages strand-symmetry fas 192/2 = 96 mutationstyper.
3 / 33
Alexandrov Signaturer
Forsta og bestemme mutationssignaturer.
https://cancer.sanger.ac.uk/cosmic/signatures
Catalogue of somatic mutations in cancer (COSMIC)
Et sakaldt ’Aktivt forskningsfelt’ :-)
4 / 33
Alexandrov Signatur 4
Sequencing of lung cancer
’Signature 4 is associated with smoking and its profile is similarto the mutational pattern observed in experimental systemsexposed to tobacco carcinogens.’
Alexandrov et al (2016): Signatures associated with tobacco smoking.
5 / 33
Alexandrov Signatur 7
Sequencing of skin cancer
’Based on its prevalence in ultraviolet exposed areas and thesimilarity of the mutational pattern to that observed inexperimental systems exposed to ultraviolet light Signature 7 islikely due to ultraviolet light exposure.’
Nobel Prisen i Kemi (2015): Aziz Sancar (UNC)
6 / 33
Patienter
M
...
3
2
1
Mutationstyper
1 2 3 . . . N
A[C>A]A A[C>A]C A[C>A]G T[T>G]T
VM,1 VM,2 VM,N. . .
V1,1 V1,2 V1,N. . .
V2,1 V2,2 V2,N. . .
......
...
Data: Matrix af tællinger V ∈ RM×N
Antal patienter M = 21. Antal mutationstyper N = 96.
7 / 33
2. Signaturmodel: Ikke-negativ Matrix Faktorisering
Matrix Faktorisering: V ≈WH
Ikke-negativ: Wmk ≥ 0 and Hmk ≥ 0
Her er V ∈ RM×N , W ∈ RM×K og H ∈ RK×N
Fortolkning:
- Rækkerne i H er mutationssignaturer fra f.eks. UV-lys eller tobak.
- Søjlerne i W er vægtene af signaturerne for hver patient.
Unsupervised Learning Problem
8 / 33
Skalering af rækkerne i H
Bemærk at
WH = (WA)(A−1H) = W H
sa ved at vælge A = diag(a1, . . . , aK) og ak som rækkesummenaf H bliver rækkerne i H signaturer (sandsynlighedsvektorer).
9 / 33
Eksempel
Data: Bryst cancer genomer fra Alexandrov et al. (2013)1
V(M×N) ≈W(M×K)H(K×N)
M = Antal Patienter = 21N = Antal Mutationstyper = 96K = Antal Signaturer = 4
1Alexandrov et al (2013). Deciphering Signatures of MutationalProcesses Operative in Human Cancer. Cell Reports 3, 246–259.
10 / 33
3. Resultater: Infererede Signaturer H
signature 1
signature 2
signature 3
signature 4
C>A C>G C>T T>A T>C T>G
0.00
0.01
0.02
mut
atio
n ty
pe
prob
abili
ty
0.000
0.025
0.050
0.075
0.100
mut
atio
n ty
pe
prob
abili
ty
0.00
0.02
0.04
0.06
mut
atio
n ty
pe
prob
abili
ty
0.0
0.1
0.2
AC
AA
CC
AC
GA
CT
CC
AC
CC
CC
GC
CT
GC
AG
CC
GC
GG
CT
TC
AT
CC
TC
GT
CT
AC
AA
CC
AC
GA
CT
CC
AC
CC
CC
GC
CT
GC
AG
CC
GC
GG
CT
TC
AT
CC
TC
GT
CT
AC
AA
CC
AC
GA
CT
CC
AC
CC
CC
GC
CT
GC
AG
CC
GC
GG
CT
TC
AT
CC
TC
GT
CT
ATA
ATC
ATG
ATT
CTA
CT
CC
TG
CT
TG
TAG
TC
GT
GG
TT
TTA
TT
CT
TG
TT
TAT
AAT
CAT
GAT
TC
TAC
TC
CT
GC
TT
GTA
GT
CG
TG
GT
TT
TAT
TC
TT
GT
TT
ATA
ATC
ATG
ATT
CTA
CT
CC
TG
CT
TG
TAG
TC
GT
GG
TT
TTA
TT
CT
TG
TT
T
mut
atio
n ty
pe
prob
abili
ty
11Signature 1 ’associated with failure of DNA double-strand
break-repair by homologous recombination.’
Signature 4 ’related to mutations at TC sites. APOBEC enzyme
perhaps misregulated.’
11 / 33
Infererede Vægte W
0.00
0.25
0.50
0.75
1.00
Nor
mal
ized
wei
ghts
●
● ●
●●
●
●● ●
● ● ● ●●
●● ● ● ● ●
●
Patients
Row
sum
of W
or
mut
atio
n co
unts
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
1000
2000
5000
10000
20000
50000
● mutation countsrowsum of W
12411561 1576 1929 2188 2438
3439 4180 4272 5042 5379 5608 5773 6524 7682 8711 9405 9548 9879 9934
67364
1
12 / 33
4. Den matematiske udfordring
V(M×N) ≈W(M×K)H(K×N)
Minimer mindste kvadraters afstand
‖ V −WH ‖2=M∑
m=1
N∑n=1
(Vmn − (WH)mn
)2hvor (WH)mn =
∑Kk=1WmkHkn
13 / 33
Høj-dimensionalt optimeringsproblem
M = Antal Patienter = 21N = Antal Mutationstyper = 96K = Antal Signaturer = 4
V(M×N) ≈W(M×K)H(K×N)
Antal Data Punkter = M ·N ≈ 2000Antal Parametre = M ·K +N ·K = (M +N) ·K ≈ 500
Hvordan løses udfordringen?
14 / 33
Alternerende ikke-negativ mindste kvadraters afstand
V(M×N) ≈W(M×K)H(K×N)
Vi skal minimere
‖ V −WH ‖2 =
M∑m=1
{ N∑n=1
(Vmn − (WH)mn
)2}=
N∑n=1
{ M∑m=1
(Vmn − (WH)mn
)2}hvor (WH)mn =
∑Kk=1WmkHkn
Strategi:Alterner mellem at opdatere række m i W og søjle n i H
15 / 33
Alternerende ikke-negativ mindste kvadraters afstand
Update first row of W
Update last row of W
Update first column of H
Update last column of H
...
...
Initialize W and H
Lad RSS(t) =‖ V −W (t)H(t) ‖2.Stop nar 4RSS(t) = RSS(t−1) − RSS(t) er lille.
16 / 33
Ikke-negativ mindste kvadraters problem
Opdater søjle n i HLad h = (H1n, . . . ,HKn) ∈ RK og v = (V1n, . . . , VMn) ∈ RM . Sa er
M∑m=1
(Vmn − (WH)mn
)2=‖ v −Wh ‖2
Problem:
minimer f(h) =‖ v −Wh ‖2 under betingelsen h ≥ 0
17 / 33
Løsninger til et ikke-negativ mindste kvadraters problem2
a. Projected Coordinate Descent (PCD)b. Projected Gradient Descent (PGD)c. Majorize-Minimize (MM)d. Cone projection (CNP)
2Lange, Chi and Zhou (2014): Modern optimization for statisticians18 / 33
Illustration af metoderne
W =
[10 15 2
]og v =
[18
]
minimer f(h) =‖ v −Wh ‖2 under betingelsen h ≥ 0
19 / 33
a. Projected Coordinate Descent
Start : h0 =
[22
]Iterer : ht+1
k = htk −∇f(ht)k
2(W ′W )kk
Projected Coordinate Descent
−0.5 0.0 0.5 1.0 1.5 2.0
01
23
45
●
●
●
●
20 / 33
b. Projected Gradient Descent: Lille skridtstørrelse
ht+1 = ht − s∇f(ht)
Projected Gradient Descent with r=0.5
−0.5 0.0 0.5 1.0 1.5 2.0
01
23
45
●
●●●●●●●●
●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
21 / 33
b. Projected Gradient Descent: Stor skridtstørrelse
Projected Gradient Descent with r=2
−0.5 0.0 0.5 1.0 1.5 2.0
01
23
45
●
●
●●
●●
●●
●●
●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●
●
●
●
●
●
●●
●●
●●
●●●●
●●●●
●●●●●●
●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●
22 / 33
c. Majorize-Minimize: Ide
0 2 4 6 8 10
010
2030
40
hht
f(h)
(a) g(h|ht) Majorizes f
(b) ht+1 = argmin g(h|ht) Minimization of g
(c) f(ht) = g(ht|ht)
f(ht+1) ≤(a)
g(ht+1|ht) ≤(b)
g(ht|ht) =(c)
f(ht)
23 / 33
Majorize-Minimize pa vores eksempel
Data
W =
[10 15 2
]og v =
[18
]Opgave:
minimer f(h) =‖ v −Wh ‖2 under betingelsen h ≥ 0
Vi har
f(h) = ‖ v −Wh ‖2= (1− 10h1 − h2)2 + (8− 5h1 − 2h2)
2
= 125h21 + 5h22 + 65 + 40h1h2 − 100h1 − 34h2
24 / 33
Uligheden
0 ≤ (√αx− y/√α)2
kan ogsa skrives
xy ≤ 1
2(αx2 + y2/α).
Ved at sætte α(t) = h(t)2 /h
(t)1 haves
h1h2 ≤1
2
(α(t)h21 + h22/α
(t))
med = nar h1 = h(t)1 og h1 = h
(t)1 .
25 / 33
Majorize−Minimize
−0.5 0.0 0.5 1.0 1.5 2.0
01
23
45
●
●
●
●
●
●
●
●
●●
●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
26 / 33
d. Cone ProjectionProblem:
minimer ‖ v −Wh ‖2 under betingelsen h ≥ 0
Eksempel:
W =
[10 15 2
]Antallet af flader er 2K
A
h1
h2
4
4
8
8
W1
W2 F1
F2
F∅
F{1,2}
27 / 33
Udtømmende Cone Projection
B
h1
h2
5
5
10
10
W1
W2
v
3.4W2
0.4W1
Subset Generator Coefficient Non-negative Squared distance
J ⊆ {1, 2} X = WJ a = (XTX)−1XT y coefficients? ||v −Xa||2J = {1, 2} W (−0.4, 5) No 0.0J = {1} W1 0.4 Yes 45.0J = {2} W2 3.4 Yes 7.2
J = ∅ (0, 0)T 0 Yes 65.0
Vi har udviklet en effektiv søgning i delmængderne3
3Modifikation af en algoritme i Meyer (2013): Quadratic programmingwith applications in statistics.
28 / 33
Test problem4
W(100×50) Indgange fra Exp(1).h(50×1) Indgange fra U(0,1).e(100×1) Indgange fra N(0,1).
v =Wh+ e
Formal: Genskab værdien af h, dvs.
minimer RSS(h) =‖ v −Wh ‖2 under betingelsen h ≥ 0
4Modified from Lange, Chi and Zhou (2014)29 / 33
Sammenligning
0.00 0.05 0.10 0.15 0.20
90.0
90.5
91.0
91.5
92.0
Time
RS
S
MMPCDPGD r=0.5PGD r=2.0PGD ExactMuEMFC−EMCNP
0.00 0.05 0.10 0.15
1e−
041e
−03
1e−
021e
−01
1e+
00Time
RS
S d
iffer
ence
MMPCDPGD r=0.5PGD r=2.0MuEMFC−EMCNP
PCD og PGD med r = 2.0 er hurtige, men CNP virker mestattraktiv.
30 / 33
5. Konklusioner
- Non-Negative Matrix Factorization (NMF) er en’unsupervised learning method’, der kan bruges til at læreom mutationsprocesser i kræft. Den er hot for tiden.
- Der er succes-historier med kendte signaturer, der er blevetuafhængigt verificeret, men ogsa signaturer, der ikke erforstaet.
- MM er ikke særlig effektiv.
- Avanceret matematik kan betale sig:CNP er den mest effektive algoritme i bade test problemetog pa mutationsdata.
31 / 33
Perspektiver
- Model kontrol:5
Normal? Poisson? Overdispersion?Antallet af signaturer K?Kunne det være godt at tvinge signaturerne til at havemange 0’er?
- Entydigheds problem:6 WH = (WA)(A−1H) = W H.Konsekvenser for fortolkning? Klassifikation?
5Speciale af Simon Drue (2018)6Speciale af Joachim Beck (2018)
32 / 33
Relation til Neurale Netværk
Hk=’hidden units’=Signatur kVm=’visible units’=Data Fra Patient mRelation gennem vægte wmk sa Vm =
∑k wmkHk
Nesterov Accelerated Gradient
33 / 33