asger hobolth (au, matematisk institut): ka e, computere...

Asger Hobolth (AU, Matematisk Institut):Kaffe, computere og konveks analyse kan kvantificerekendskabet til kræft

I tæt samarbejde med Astrid Kousholt (Novo Nordisk), JensLedet Jensen (AU, Math) and Qianyun Guo (Trifork)

Inspireret af samarbejde med Jakob Skou Pedersen (MolekylærMedicinsk Afdeling, Aarhus Universitetshospital)

Struktur:

1. Baggrund: Mutationer i cancer genomer.2. Signaturmodel: Ikke-negativ matrix faktorisering.3. Resultater.4. Estimation: Et høj-dimensionelt optimeringsproblem.5. Konklusioner, Perspektiver or Relation til Neurale Netværk.

1 / 33

1. Baggrund: Hvordan min interesse blev vakt

100

10000

1000000

Biliary

−Ade

noCA

Bladde

r−TCC

Bone−

Cart

Bone−

Epith

Bone−

Leiom

yo

Bone−

Osteos

arc

Breas

t−Ade

noCA

Breas

t−DCIS

Breas

t−Lo

bular

CA

Cervix

−Ade

noCA

Cervix

−SCC

CNS−GBM

CNS−Med

ullo

CNS−Olig

o

CNS−Pilo

Astro

ColoRec

t−Ade

noCA

Eso−A

deno

CA

Head−

SCC

Kidney

−ChR

CC

Kidney

−RCC

Liver

−HCC

Lung

−Ade

noCA

Lung

−SCC

Lym

ph−B

NHL

Lym

ph−C

LL

Lym

ph−N

OS

Mye

loid−

AML

Mye

loid−

MDS

Mye

loid−

MPN

Ovary

−Ade

noCA

Panc−

Adeno

CA

Panc−

Endoc

rine

Prost−

Adeno

CA

Skin−M

elano

ma

Stom

ach−

Adeno

CA

Thy−A

deno

CA

Uteru

s−Ade

noCA

num

ber

of m

utat

ions

Sample size34

239

1134

41195

313

218

39141

1889

5297

5643

143324

3747

10590

216

351

110234

81275

10768

4844

2 / 33

Sequencing Technology

1000$ genomet er en realitet.

Vi kortlægger genomet fra rask væv og fra en kræftsvulst:

Healthy tissue ...TCG...ACG....etc

Cancer tissue ...TAG...AGG....etc

Notationen for disse to mutationer er T[C>A]G og A[C>G]G.

Der er 4 · [4 · 3] · 4 = 192 mutationstyper.Antages strand-symmetry fas 192/2 = 96 mutationstyper.

3 / 33

Alexandrov Signaturer

Forsta og bestemme mutationssignaturer.

https://cancer.sanger.ac.uk/cosmic/signatures

Catalogue of somatic mutations in cancer (COSMIC)

Et sakaldt ’Aktivt forskningsfelt’ :-)

4 / 33

Alexandrov Signatur 4

Sequencing of lung cancer

’Signature 4 is associated with smoking and its profile is similarto the mutational pattern observed in experimental systemsexposed to tobacco carcinogens.’

Alexandrov et al (2016): Signatures associated with tobacco smoking.

5 / 33

Alexandrov Signatur 7

Sequencing of skin cancer

’Based on its prevalence in ultraviolet exposed areas and thesimilarity of the mutational pattern to that observed inexperimental systems exposed to ultraviolet light Signature 7 islikely due to ultraviolet light exposure.’

Nobel Prisen i Kemi (2015): Aziz Sancar (UNC)

6 / 33

Patienter

M

...

3

2

1

Mutationstyper

1 2 3 . . . N

A[C>A]A A[C>A]C A[C>A]G T[T>G]T

VM,1 VM,2 VM,N. . .

V1,1 V1,2 V1,N. . .

V2,1 V2,2 V2,N. . .

......

...

Data: Matrix af tællinger V ∈ RM×N

Antal patienter M = 21. Antal mutationstyper N = 96.

7 / 33

2. Signaturmodel: Ikke-negativ Matrix Faktorisering

Matrix Faktorisering: V ≈WH

Ikke-negativ: Wmk ≥ 0 and Hmk ≥ 0

Her er V ∈ RM×N , W ∈ RM×K og H ∈ RK×N

Fortolkning:

- Rækkerne i H er mutationssignaturer fra f.eks. UV-lys eller tobak.

- Søjlerne i W er vægtene af signaturerne for hver patient.

Unsupervised Learning Problem

8 / 33

Skalering af rækkerne i H

Bemærk at

WH = (WA)(A−1H) = W H

sa ved at vælge A = diag(a1, . . . , aK) og ak som rækkesummenaf H bliver rækkerne i H signaturer (sandsynlighedsvektorer).

9 / 33

Eksempel

Data: Bryst cancer genomer fra Alexandrov et al. (2013)1

V(M×N) ≈W(M×K)H(K×N)

M = Antal Patienter = 21N = Antal Mutationstyper = 96K = Antal Signaturer = 4

1Alexandrov et al (2013). Deciphering Signatures of MutationalProcesses Operative in Human Cancer. Cell Reports 3, 246–259.

10 / 33

3. Resultater: Infererede Signaturer H

signature 1

signature 2

signature 3

signature 4

C>A C>G C>T T>A T>C T>G

0.00

0.01

0.02

mut

atio

n ty

pe

prob

abili

ty

0.000

0.025

0.050

0.075

0.100

mut

atio

n ty

pe

prob

abili

ty

0.00

0.02

0.04

0.06

mut

atio

n ty

pe

prob

abili

ty

0.0

0.1

0.2

AC

AA

CC

AC

GA

CT

CC

AC

CC

CC

GC

CT

GC

AG

CC

GC

GG

CT

TC

AT

CC

TC

GT

CT

AC

AA

CC

AC

GA

CT

CC

AC

CC

CC

GC

CT

GC

AG

CC

GC

GG

CT

TC

AT

CC

TC

GT

CT

AC

AA

CC

AC

GA

CT

CC

AC

CC

CC

GC

CT

GC

AG

CC

GC

GG

CT

TC

AT

CC

TC

GT

CT

ATA

ATC

ATG

ATT

CTA

CT

CC

TG

CT

TG

TAG

TC

GT

GG

TT

TTA

TT

CT

TG

TT

TAT

AAT

CAT

GAT

TC

TAC

TC

CT

GC

TT

GTA

GT

CG

TG

GT

TT

TAT

TC

TT

GT

TT

ATA

ATC

ATG

ATT

CTA

CT

CC

TG

CT

TG

TAG

TC

GT

GG

TT

TTA

TT

CT

TG

TT

T

mut

atio

n ty

pe

prob

abili

ty

11Signature 1 ’associated with failure of DNA double-strand

break-repair by homologous recombination.’

Signature 4 ’related to mutations at TC sites. APOBEC enzyme

perhaps misregulated.’

11 / 33

Infererede Vægte W

0.00

0.25

0.50

0.75

1.00

Nor

mal

ized

wei

ghts

●

● ●

●●

●

●● ●

● ● ● ●●

●● ● ● ● ●

●

Patients

Row

sum

of W

or

mut

atio

n co

unts

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

1000

2000

5000

10000

20000

50000

● mutation countsrowsum of W

12411561 1576 1929 2188 2438

3439 4180 4272 5042 5379 5608 5773 6524 7682 8711 9405 9548 9879 9934

67364

1

12 / 33

4. Den matematiske udfordring


Minimer mindste kvadraters afstand

‖ V −WH ‖2=M∑

m=1

N∑n=1

(Vmn − (WH)mn

)2hvor (WH)mn =

∑Kk=1WmkHkn

13 / 33

Høj-dimensionalt optimeringsproblem

M = Antal Patienter = 21N = Antal Mutationstyper = 96K = Antal Signaturer = 4


Antal Data Punkter = M ·N ≈ 2000Antal Parametre = M ·K +N ·K = (M +N) ·K ≈ 500

Hvordan løses udfordringen?

14 / 33

Alternerende ikke-negativ mindste kvadraters afstand


Vi skal minimere

‖ V −WH ‖2 =

M∑m=1

{ N∑n=1

(Vmn − (WH)mn

)2}=

N∑n=1

{ M∑m=1

(Vmn − (WH)mn

)2}hvor (WH)mn =

∑Kk=1WmkHkn

Strategi:Alterner mellem at opdatere række m i W og søjle n i H

15 / 33

Alternerende ikke-negativ mindste kvadraters afstand

Update first row of W

Update last row of W

Update first column of H

Update last column of H

...

...

Initialize W and H

Lad RSS(t) =‖ V −W (t)H(t) ‖2.Stop nar 4RSS(t) = RSS(t−1) − RSS(t) er lille.

16 / 33

Ikke-negativ mindste kvadraters problem

Opdater søjle n i HLad h = (H1n, . . . ,HKn) ∈ RK og v = (V1n, . . . , VMn) ∈ RM . Sa er

M∑m=1

(Vmn − (WH)mn

)2=‖ v −Wh ‖2

Problem:

minimer f(h) =‖ v −Wh ‖2 under betingelsen h ≥ 0

17 / 33

Løsninger til et ikke-negativ mindste kvadraters problem2

a. Projected Coordinate Descent (PCD)b. Projected Gradient Descent (PGD)c. Majorize-Minimize (MM)d. Cone projection (CNP)

2Lange, Chi and Zhou (2014): Modern optimization for statisticians18 / 33

Illustration af metoderne

W =

[10 15 2

]og v =

[18

]


19 / 33

a. Projected Coordinate Descent

Start : h0 =

[22

]Iterer : ht+1

k = htk −∇f(ht)k

2(W ′W )kk

Projected Coordinate Descent

−0.5 0.0 0.5 1.0 1.5 2.0

01

23

45

●

●

●

●

20 / 33

b. Projected Gradient Descent: Lille skridtstørrelse

ht+1 = ht − s∇f(ht)

Projected Gradient Descent with r=0.5

−0.5 0.0 0.5 1.0 1.5 2.0

01

23

45

●

●●●●●●●●

●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

21 / 33

b. Projected Gradient Descent: Stor skridtstørrelse

Projected Gradient Descent with r=2

−0.5 0.0 0.5 1.0 1.5 2.0

01

23

45

●

●

●●

●●

●●

●●

●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●

●

●

●

●

●

●●

●●

●●

●●●●

●●●●

●●●●●●

●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●

22 / 33

Majorize-Minimize pa vores eksempel

Data

W =

[10 15 2

]og v =

[18

]Opgave:


Vi har

f(h) = ‖ v −Wh ‖2= (1− 10h1 − h2)2 + (8− 5h1 − 2h2)

2

= 125h21 + 5h22 + 65 + 40h1h2 − 100h1 − 34h2

24 / 33

Uligheden

0 ≤ (√αx− y/√α)2

kan ogsa skrives

xy ≤ 1

2(αx2 + y2/α).

Ved at sætte α(t) = h(t)2 /h

(t)1 haves

h1h2 ≤1

2

(α(t)h21 + h22/α

(t))

med = nar h1 = h(t)1 og h1 = h

(t)1 .

25 / 33

Majorize−Minimize

−0.5 0.0 0.5 1.0 1.5 2.0

01

23

45

●

●

●

●

●

●

●

●

●●

●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

26 / 33

d. Cone ProjectionProblem:

minimer ‖ v −Wh ‖2 under betingelsen h ≥ 0

Eksempel:

W =

[10 15 2

]Antallet af flader er 2K

A

h1

h2

4

4

8

8

W1

W2 F1

F2

F∅

F{1,2}

27 / 33

Udtømmende Cone Projection

B

h1

h2

5

5

10

10

W1

W2

v

3.4W2

0.4W1

Subset Generator Coefficient Non-negative Squared distance

J ⊆ {1, 2} X = WJ a = (XTX)−1XT y coefficients? ||v −Xa||2J = {1, 2} W (−0.4, 5) No 0.0J = {1} W1 0.4 Yes 45.0J = {2} W2 3.4 Yes 7.2

J = ∅ (0, 0)T 0 Yes 65.0

Vi har udviklet en effektiv søgning i delmængderne3

3Modifikation af en algoritme i Meyer (2013): Quadratic programmingwith applications in statistics.

28 / 33

Test problem4

W(100×50) Indgange fra Exp(1).h(50×1) Indgange fra U(0,1).e(100×1) Indgange fra N(0,1).

v =Wh+ e

Formal: Genskab værdien af h, dvs.

minimer RSS(h) =‖ v −Wh ‖2 under betingelsen h ≥ 0

4Modified from Lange, Chi and Zhou (2014)29 / 33

Sammenligning

0.00 0.05 0.10 0.15 0.20

90.0

90.5

91.0

91.5

92.0

Time

RS

S

MMPCDPGD r=0.5PGD r=2.0PGD ExactMuEMFC−EMCNP

0.00 0.05 0.10 0.15

1e−

041e

−03

1e−

021e

−01

1e+

00Time

RS

S d

iffer

ence

MMPCDPGD r=0.5PGD r=2.0MuEMFC−EMCNP

PCD og PGD med r = 2.0 er hurtige, men CNP virker mestattraktiv.

30 / 33

5. Konklusioner

- Non-Negative Matrix Factorization (NMF) er en’unsupervised learning method’, der kan bruges til at læreom mutationsprocesser i kræft. Den er hot for tiden.

- Der er succes-historier med kendte signaturer, der er blevetuafhængigt verificeret, men ogsa signaturer, der ikke erforstaet.

- MM er ikke særlig effektiv.

- Avanceret matematik kan betale sig:CNP er den mest effektive algoritme i bade test problemetog pa mutationsdata.

31 / 33

Perspektiver

- Model kontrol:5

Normal? Poisson? Overdispersion?Antallet af signaturer K?Kunne det være godt at tvinge signaturerne til at havemange 0’er?

- Entydigheds problem:6 WH = (WA)(A−1H) = W H.Konsekvenser for fortolkning? Klassifikation?

5Speciale af Simon Drue (2018)6Speciale af Joachim Beck (2018)

32 / 33

Relation til Neurale Netværk

Hk=’hidden units’=Signatur kVm=’visible units’=Data Fra Patient mRelation gennem vægte wmk sa Vm =

∑k wmkHk

Nesterov Accelerated Gradient

33 / 33

asger hobolth (au, matematisk institut): ka e, computere...

Documents