hierarchical bayesian models for audio and music signal ...cemgil/papers/talks/... · signal...

Hierarchical Bayesian Models for Audio and Music

Signal Processing

A Taylan Cemgil

Signal Processing and Communications Lab

8 December 2007NIPS 07 Workshop on Music

Cemgil Hierarchical Bayesian Models for Music Signal Analysis Nips 2007 Workshops Whistler Canada 1 December 2007

Colaborators

bull Onur Dikmen Bogazici Istanbul

bull Paul Peeling Cambridge

bull Nick Whiteley Cambridge

bull Simon Godsill Cambridge

bull Cedric Fevotte ENST Paris Telecom

bull David Barber UCL London

bull Bert Kappen Nijmegen The Netherlands

Cemgil Hierarchical Bayesian Models for Music Signal Analysis Nips 2007 Workshops Whistler Canada 1 December 2007 1

Statistical Approaches

bull Probabilistic

bull Hierarchical signal models to incorporate prior knowledgeinspiration

from various sources

ndash Physics (acoustics physical models )

ndash Studies of human cognition and perception (masking psychoacoustics )

ndash Musicology (musical constructs harmony tempo form )

bull Consistent framework for developing inference algorithms

bull Contrast to TraditionalProcedural approaches ndash where no clear

distinction between ldquowhatrdquo and ldquohowrdquo

bull Need to overcome computational obstacles (time memory)


Generative Models for audition

bull Computer audition hArr inverse synthesis via Bayesian inference

p(Structure|Observations) prop p(Observations|Structure)p(Structure)

Goal Developing flexible prior structures for modelling nonstationary

sources

lowast source separation transcription

lowast restoration interpolation localisation identification

lowast coding compression resynthesis cross synthesis


Bayesian Source Separation

bull Joint estimation of Sources given Observations

Source Model v Parameters of Source prior

sk1 skn skN v

xk1 xkM

k = 1 K

λ

Observation Model λ Channel noise mixing system

p(Src|Obs) prop

int

dλdvp(Obs|Src λ)p(Src|v)p(v)


Audio RestorationInterpolation

bull Estimate missing samples given observed ones

bull Restoration concatenative expressive speech synthesis

0 50 100 150 200 250 300 350 400 450 500

0


Polyphonic Music Transcription

bull from sound

tsec

fHz

0 1 2 3 4 5 6 7 80

1000

2000

3000

4000

5000

0

10

20

(S)

bull to score


Decimated_chopinwav
Media File (audiowav)

Modelling and Computational issues

bull Hierarchical

ndash Signal levelpitch onsets timbre

ndash Symbolic levelmelody motives harmony chords tonality rhythm beat tempo articulationinstrumentation voice

ndash Cognitive levelexpression genre form style mood emotion

bull Uncertainty

ndash Parameter LearningWhich pitch rhythm tempo meter time signature

ndash Model SelectionHow many notes harmonics onsets sections


Generative Models for Music



Score Expression

Piano-Roll

Signal


Hierarchical Modeling of Music

M

1 2 tv1 v2 vtk1 k2 kth1 h2 ht1 2 tm1 m2 mtgj1 gj2 gjtrj1 rj2 rjtnj1 nj2 njtxj1 xj2 xjtyj1 yj2 yjty1 y2 yt


Modelling levels

bull Physical - acoustical

bull Time domain ndash state space dynamical models

bull Transform domain ndash Fourier representations Generalised Linear

model

bull Feature Based

Research Questions

What kinds of prior knowledge and modelling techniques are usefulHow can we do efficient inference


Signal Models for Audio


ndash Conditional Linear Dynamical Systems Gaussian processes (eg

AR ARMA) switching state space models

ndash Flexible Physically realistic

ndash Analysis down to sample precision Computationally quite heavy


model

ndash Models on (orthogonal) transform coefficients Energy compaction

ndash Practical can make use of fast transforms (FFT MDCT )

ndash Inherent limitations (analysis windows frequency resolution)


Sinusoidal Modeling

bull Sound is primarily about oscillations and resonance

bull Cascade of second order sytems

bull Audio signals can often be compactly represented by sinusoidals

(real) yn =

psum

k=1

αkeminusγkn cos(ωkn+ φk)

(complex) yn =

psum

k=1

ck(eminusγk+jωk)n

y = F (γ1p ω1p)c


State space Parametrisation

xn+1 =

eminusγ1+jω1

eminusγp+jωp

︸︷︷︸

A

xn x0 =

c1c2cp

yn =(

1 1 1 1)

︸︷︷︸

C

xn

x0 x1 xkminus1 xk xK

y1 ykminus1 yk yK


State Space Parametrisation





0 50 100 150 200 250 300 350 400 450 500

0


Audio Interpolation

p(xnotκ|xκ) prop

int

dHp(xnotκ|H)p(xκ|H)p(H)

H equiv (parameters hidden states)

H

xnotκ xκ

Missing Observed

0 50 100 150 200 250 300 350 400 450 500

0


Probabilistic Phase Vocoder (Cemgil and Godsill 2005)

Aν Qν

sν0 middot middot middot sν

k middot middot middot sνKminus1

ν = 0 W minus 1

x0 xk xKminus1

sνk sim N (sν

kAνsνkminus1 Qν) Aν sim N

(

Aν

(cos(ων) minus sin(ων)sin(ων) cos(ων)

)

Ψ

)


Inference Structured Variational Bayes

Aα q(Aα) Qα q(Qα)

middot middot middot sαkminus1 sα

ksα

k+1 middot middot middot

α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)

bull Intuitive algorithm

ndash Substract from the observed signal x the prediction of the frequency bands in notα

ndash Compute a fit for α to this residual and iterate

bull For fixed A Q this is equivalent to Gauss-Seidel an iterative method for solving linear systems of

equations


Restoration

bull Piano

ndash Signal with missing samples (37)

ndash Reconstruction 768 dB improvement

ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav

Hierarchical Factorial Models

bull Each component models a latent process

bull The observations are projections

rν0 middot middot middot rν

k middot middot middot rνK

θν0 middot middot middot θ

νk middot middot middot θ

νK

ν = 1 W

yk yK

bull Generalises Source-filter models


Harmonic model with changepoints

rk|rkminus1 sim p(rk|rkminus1) rk isin 0 1

θk|θkminus1 rk sim [rk = 0]N (Aθkminus1 Q)︸︷︷︸

reg

+ [rk = 1]N (0 S)︸︷︷︸

new

yk|θk sim N (Cθk R)

A =

Gω

G2ω

GH

ω

N

Gω = ρk

(cos(ω) minus sin(ω)sin(ω) cos(ω)

)

damping factor 0 lt ρk lt 1 framelength N and damped sinusoidal basis matrix C of size N times 2H


Exact Inference in switching state space models is intractable

bull In general exact inference is NP hard

ndash Conditional Gaussians are not closed under marginalization

rArr Unlike HMMrsquos or KFMrsquos summing over rk does not simplify the filteringdensity

rArr Number of Gaussian kernels to represent exact filtering density p(rk θk|y1k)increases exponentially

minus7903666343

076292

minus103422

minus101982minus2393

minus27957

minus04593


Exact Inference for Changepoint detection

bull Exact inference is achievable in polynomial timespace

ndash Intuition When a changepoint occurs the state vector θ is reinitializedrArr Number of Gaussians kernels grows only polynomially (See eg Barry and Hartigan

1992 Digalakis et al 1993 O Ruanaidh and Fitzgerald 1996 Gustaffson 2000 Fearnhead 2003 Zoeter and

Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5

bull The same structure can be exploited for the MMAP problem arg maxr1kp(r1k|y1k)

rArr Trajectories of r(i)1k which are dominated in terms of conditional evidence

p(y1k r(i)1k) can be discarded without destroying optimality


Monophonic model (Cemgil et al 2006)

bull We introduce a pitch label indicator m

bull At each time k the process can be in one of the ldquomuterdquo ldquosoundrdquo timesM states

r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT


Monophonic Pitch Tracking

Monophonic Pitch Tracking = Online estimation (filtering) of p(rkmk|y1k)

100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15

bull If pitch is constant exact inference is possible


Transcription

bull Detecting onsets offsets and pitch to sample precision (Cemgil et al 2006 IEEE

TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav

Tracking Pitch Variations

bull Allow m to change with k

50 100 150 200 250 300 350 400 450 500

bull Intractable need to resort to approximate inference (Mixture Kalman Filter -Rao-Blackwellized Particle Filter)


Factorial Generative models for Analysis of Polyphonic Audio

νfr

eque

ncy

k

x k

bull Each latent changepoint process ν = 1 W corresponds to a ldquopiano keyrdquoIndicators r1W1K encode a latent ldquopiano rollrdquo (S1) (S2) (S3)


montuno1wav

montuno2wav

montuno3wav

Single time slice - Bayesian Variable Selection

ri sim C(ri πon πoff)

si|ri sim [ri = on]N (si 0 Σ) + [ri 6= on]δ(si)

x|s1W sim N (x Cs1W R)

C equiv [ C1 Ci CW ]

r1 rW

s1 sW

x

bull Generalized Linear Model ndash Columnrsquos of C are the basis vectors

bull The exact posterior is a mixture of 2W Gaussians

bull When W is large computation of posterior features becomes intractable

bull Sparsity by construction (Olshausen and Millman Attias )


Factorial Switching State space model

r0ν sim C(r0ν π0ν)

θ0ν sim N (θ0ν microν Pν)

rkν|rkminus1ν sim C(rkν πν(rtminus1ν)) Changepoint indicator

θkν|θkminus1ν sim N (θkν Aν(rk)θkminus1ν Qν(rk)) Latent state

yk|θk1W sim N (yk Ckθk1W R) Observation




k middot middot middot sνK

ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav

Technical Difficulties

bull Inference is quite heavy

bull Vanilla Kalman filtering methods are not stable ndash computations with

large matrices

ndash Need advance techniques from linear algebra

ndash Interesting links to subspace methods

bull Hyperparameter learning is necessary


Modelling levels




model

bull Feature Based


Spectrogram

bull Basis functions φk(t) centered around time-frequency atom k = k(ν τ) =(Frequency Time ) such as STFT or MDCT

x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

bull Spectrogram displays log |sk| or |sk|2 (of STFT)


s1wav

s2wav

Models for time-frequency Energy distributions

bull Non-Negative Matrix factorisation (Sha Saul Lee 2002 Smaragdis Brown 2003

Virtanen 2003 Abdallah Plumbley 2004 )

Xντ = WνjSjτ

Spectrogram = Spectral Templatestimes Excitations

= times

ndash however spectrograms are not additive (a2 + b2 6= (a+ b)2)



bull Mask models (Roweis 2001 Reyes-Gomez Jojic Ellis 2005 )

Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ

Spectrogram = Masktimes Source0 + (1minusMask)times Source1

= + +

ndash however sources do overlap in time and frequency


Prior structures on time-frequency Energy distributions

bull Main Idea Spectrogram is a point estimate of the energy at a

time-frequency atom k(ν τ)

bull We place a suitable prior on the variance of transform coefficients sk

and tie the prior variances across harmonically and temporally related

time-frequency atoms

p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)


One channel source separation Gaussian source model

vk1 vkN

sk1 skN

xk

k = 1 K

skn|vkn sim N (skn 0 vkn)

xk|sk1N =sumN

n=1 skn

bull Straightforward application of Bayesrsquo theorem yields

p(skn|vk1N xk) = N (skn κknxk vkn(1minus κkn))

κkn = vknsum

nprime

vknprime (Responsibilities)

bull Each source coefficient sn gets a fraction κn of the observation x


One channel source separation Poisson source model

vk1 vkN

sk1 skN

xk

k = 1 K

skn|vkn sim PO(skn vkn)

xk|sk1N =sumN

n=1 skn

bull This is the generative model for the NMF when we write

vk(ντ)n = tνn times eτn (Templatetimes Excitation)


Gamma G(x a b) and Inverse Gamma IG(x a b)

0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1

G(x a z) equiv exp((aminus 1) log xminus zminus1x+ a log zminus1 minus log Γ(a))

IG(x a z) equiv exp((a+ 1) log xminus1 minus zminus1xminus1 + a log zminus1 minus log Γ(a))

bull Gamma Conjugate prior for Gaussian precision Poisson intensity Inverse Gamma scale

bull Inverse Gamma Conjugate prior for Gaussian variance and Gamma scale


Gamma Chains

We define an inverse Gamma-Markov chain for k = 1 K as follows

vk|zk sim IG(vk a zka)

zk+1|vk sim IG(zk+1 az vkaz)

z1 middot middot middot vkminus1 zk vk zk+1 middot middot middotaz a az

bull Variance variables v are priors for sources

bull Auxillary variables z are needed for conjugacy and positive correlation

bull Shape parameters a and az describe coupling strength and drift of the chain


Gamma Chains typical draws

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains with changepoints typical draws

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains

bull The joint can be written as product of singleton and pairwise

potentials of form

ψkk = exp(minusazminus1k vminus1

k ) (Pairwise)


φzk = exp((az + a+ 1) log zminus1

k ) (Singletons)


Gamma Fields


potentials

ψij = exp(minusaijξminus1i ξminus1

j ) (Pairwise)

φi = exp((sum

j

aij + 1) log ξminus1i ) (Singletons)


Possible Model Topologies


Approximate Inference

bull Stochastic

ndash Markov Chain Monte Carlo Gibbs sampler

ndash Sequential Monte Carlo Particle Filtering

bull Deterministic

ndash Variational Bayes

In all these conjugacy helps


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22

v2 middot middot middot

p(y1|v1) p(y2|v2)

bull VB

q(τ)(vk) larr exp(φk + 〈logψkk + logψkk+1〉q(τ)(zk)q(τ)(zk+1))

bull Gibbs

v(τ)k sim p(vk|zkminus1 zk yk) prop p(yk|vk)ψkk(z

(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB

q(τ)(zk) larr exp(φk + 〈logψkkminus1 + logψkk〉q(τ)(vk)q(τ)(vk+1))

bull Gibbs

z(τ)k sim p(zk|vkminus1 vk) prop ψkkminus1(v

(τ)kminus1)ψkk(v

(τ)k )


Denoising - Speech (VB)

bull Additive Gaussian noise with unknown variance

bull Inference Variational Bayes

Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0


Denoising ndash MusicOriginal

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

ldquoTristram (Matt Uelmen)rdquo + sim 0dB white noise


Single Channel Source Separation (with Onur Dikmen)

bull Source 1 Horizontal Tie across time harmonic continuity

bull Source 2 Vertical Tie across frequency transients percussive sounds

Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver


Single Channel Source Separation with IGMCs

E-guitar ldquoMatte Kudasai (King Crimson)rdquo + Drums ldquoTerritory (Sepultura)rdquo = Mix

s1 s2

SDR SIR SAR SDR SIR SAR

VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185

Preminus trained -404 -315 813 356 1144 464

Oracle 614 1716 658 1266 1995 136

bull Oracle We use the square of the source coefficient as the latent variance estimate

bull Pre-trained We use the best coupling parameters az and a trained on isolatedsources



ldquoVandringar I Vilsenhet (Anglagard)rdquo + ldquoMoby Dick (Led Zeppelin)rdquo = Mix

s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137


Harmonic-Transient Decomposition

Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver

(Original) (Hor) (Vert)



s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav

Chord Detection - Signal model (with Paul Peeling)

0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz

MDCT of piano chord 41485156

05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65


Multichannel Source Separation

bull Hierarchical Prior Model (Fevotte and Godsill 2005 Cemgil et al 2006)

λ1 λn λN sim G(λn aλ bλ)

vk1 vkn middot middot middot vkN sim IG(vkn ν2 2(νλn))

sk1 skn skN sim N (skn 0 vkn)

xk1 xkM

k = 1 K

sim N (xkma⊤msk1N rm)

a1 r1 aM

sim N (am middot middot middot )

rM

sim IG(rm middot middot middot )


Equivalent Gamma MRF

bull A tree for each source

bull λn can be interpreted as the overall ldquovolumerdquo of source n


Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality

bull Typically underdetermined (Channels lt Sources) rArr Multimodal posterior


Multimodality

Annealing Bridging Overrelaxation Tempering

0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch


Tempo tracking and score performance matching

bull Given expressive music data (onsetsdetectionsspectral features)

ndash Determine the position of a performance on a score

ndash Determine where a human listener would clap her hand

ndash Create a quantizedhuman readable score

ndash

bull Online-Realtime or Offline-Batch

bull All of these problems can be mapped to inference problems in a HMM


Bar position Pointer (Whiteley Cemgil Godsill 2006)

| | |

3 bull bull bull bull bull bull bull bull

nk 2 bull bull bull bull bull bull bull bull


1 2 3 4 5 6 7 8

mk

34 time

44 time

bull Each dot denotes a state x = (mn) (Score Position ndash Tempo level)

bull Directed Arcs denote state transitions with positive probability


Bar position Pointer - transition model

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5


Bar position Pointer - k = 1

Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)


Bar position Pointer - observation model (Poisson)

bull Observation model p(yk|xk) Poisson intensity

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm


Tempo Rhythm Meter analysis

Bar Pointer Model (Whiteley Cemgil Godsill 2006)

n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3

bull θ Time signature indicator (eg 34 44) r Rhytmic pattern indicator


Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608


Score-Performance matching (ISMIR) 2007

bull Given a musical score associate note events with the audio

4

t

x t


Score-Performance matching - Graphical Model

ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk

vντ sim IG(vντ a 1(aλσν(rτ)))


Score-Performance matching - Signal model

0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Score-Performance matching

Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e

Online (filtering) or Offline (smoothing) processing is possible


Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ

MDCT of audio (source Daniel-Ben Pienaar)

Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary

bull ldquoTime Domainrdquo ndash Switching State Space Models

ndash State space modeling


AR ARMA)

ndash Analysis down to sample precision (if required)

ndash Computationally quite heavy

bull ldquoTransform Domainrdquo ndash Gamma Fields





Summary

bull Gamma chains and fields a flexible stochastic volatility prior for

ndash Time-Frequency Energy distributions

bull Ongoing Work

ndash Comparison of inference methods (VB MCMC SMC)

ndash Learning

ndash Applications

lowast Chord detection Polyphonic transcription

lowast Musical Score guided source separation

ndash Prior structures for other observation models NMF


Colaborators

bull Onur Dikmen Bogazici Istanbul

bull Paul Peeling Cambridge

bull Nick Whiteley Cambridge

bull Simon Godsill Cambridge

bull Cedric Fevotte ENST Paris Telecom

bull David Barber UCL London

bull Bert Kappen Nijmegen The Netherlands



bull Probabilistic















sources








sk1 skn skN v

xk1 xkM

k = 1 K

λ


p(Src|Obs) prop

int






0 50 100 150 200 250 300 350 400 450 500

0



bull from sound

tsec

fHz

0 1 2 3 4 5 6 7 80

1000

2000

3000

4000

5000

0

10

20

(S)

bull to score


Decimated_chopinwav


bull Hierarchical




bull Uncertainty







Score Expression

Piano-Roll

Signal



M



Modelling levels




model

bull Feature Based

Research Questions










model





Sinusoidal Modeling




(real) yn =

psum

k=1


(complex) yn =

psum

k=1

ck(eminusγk+jωk)n

y = F (γ1p ω1p)c



xn+1 =

eminusγ1+jω1

eminusγp+jωp

︸︷︷︸

A

xn x0 =

c1c2cp

yn =(

1 1 1 1)

︸︷︷︸

C

xn


y1 ykminus1 yk yK







0 50 100 150 200 250 300 350 400 450 500

0


Audio Interpolation

p(xnotκ|xκ) prop

int



H

xnotκ xκ

Missing Observed

0 50 100 150 200 250 300 350 400 450 500

0



Aν Qν



ν = 0 W minus 1

x0 xk xKminus1

sνk sim N (sν


(

Aν


)

Ψ

)





ksα


α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)





equations


Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






bull Probabilistic















sources








sk1 skn skN v

xk1 xkM

k = 1 K

λ


p(Src|Obs) prop

int






0 50 100 150 200 250 300 350 400 450 500

0



bull from sound

tsec

fHz

0 1 2 3 4 5 6 7 80

1000

2000

3000

4000

5000

0

10

20

(S)

bull to score


Decimated_chopinwav


bull Hierarchical




bull Uncertainty







Score Expression

Piano-Roll

Signal



M



Modelling levels




model

bull Feature Based

Research Questions










model





Sinusoidal Modeling




(real) yn =

psum

k=1


(complex) yn =

psum

k=1

ck(eminusγk+jωk)n

y = F (γ1p ω1p)c



xn+1 =

eminusγ1+jω1

eminusγp+jωp

︸︷︷︸

A

xn x0 =

c1c2cp

yn =(

1 1 1 1)

︸︷︷︸

C

xn


y1 ykminus1 yk yK







0 50 100 150 200 250 300 350 400 450 500

0


Audio Interpolation

p(xnotκ|xκ) prop

int



H

xnotκ xκ

Missing Observed

0 50 100 150 200 250 300 350 400 450 500

0



Aν Qν



ν = 0 W minus 1

x0 xk xKminus1

sνk sim N (sν


(

Aν


)

Ψ

)





ksα


α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)





equations


Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications









sources








sk1 skn skN v

xk1 xkM

k = 1 K

λ


p(Src|Obs) prop

int






0 50 100 150 200 250 300 350 400 450 500

0



bull from sound

tsec

fHz

0 1 2 3 4 5 6 7 80

1000

2000

3000

4000

5000

0

10

20

(S)

bull to score


Decimated_chopinwav


bull Hierarchical




bull Uncertainty







Score Expression

Piano-Roll

Signal



M



Modelling levels




model

bull Feature Based

Research Questions










model





Sinusoidal Modeling




(real) yn =

psum

k=1


(complex) yn =

psum

k=1

ck(eminusγk+jωk)n

y = F (γ1p ω1p)c



xn+1 =

eminusγ1+jω1

eminusγp+jωp

︸︷︷︸

A

xn x0 =

c1c2cp

yn =(

1 1 1 1)

︸︷︷︸

C

xn


y1 ykminus1 yk yK







0 50 100 150 200 250 300 350 400 450 500

0


Audio Interpolation

p(xnotκ|xκ) prop

int



H

xnotκ xκ

Missing Observed

0 50 100 150 200 250 300 350 400 450 500

0



Aν Qν



ν = 0 W minus 1

x0 xk xKminus1

sνk sim N (sν


(

Aν


)

Ψ

)





ksα


α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)





equations


Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications








sk1 skn skN v

xk1 xkM

k = 1 K

λ


p(Src|Obs) prop

int






0 50 100 150 200 250 300 350 400 450 500

0



bull from sound

tsec

fHz

0 1 2 3 4 5 6 7 80

1000

2000

3000

4000

5000

0

10

20

(S)

bull to score


Decimated_chopinwav


bull Hierarchical




bull Uncertainty







Score Expression

Piano-Roll

Signal



M



Modelling levels




model

bull Feature Based

Research Questions










model





Sinusoidal Modeling




(real) yn =

psum

k=1


(complex) yn =

psum

k=1

ck(eminusγk+jωk)n

y = F (γ1p ω1p)c



xn+1 =

eminusγ1+jω1

eminusγp+jωp

︸︷︷︸

A

xn x0 =

c1c2cp

yn =(

1 1 1 1)

︸︷︷︸

C

xn


y1 ykminus1 yk yK







0 50 100 150 200 250 300 350 400 450 500

0


Audio Interpolation

p(xnotκ|xκ) prop

int



H

xnotκ xκ

Missing Observed

0 50 100 150 200 250 300 350 400 450 500

0



Aν Qν



ν = 0 W minus 1

x0 xk xKminus1

sνk sim N (sν


(

Aν


)

Ψ

)





ksα


α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)





equations


Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications








0 50 100 150 200 250 300 350 400 450 500

0



bull from sound

tsec

fHz

0 1 2 3 4 5 6 7 80

1000

2000

3000

4000

5000

0

10

20

(S)

bull to score


Decimated_chopinwav


bull Hierarchical




bull Uncertainty







Score Expression

Piano-Roll

Signal



M



Modelling levels




model

bull Feature Based

Research Questions










model





Sinusoidal Modeling




(real) yn =

psum

k=1


(complex) yn =

psum

k=1

ck(eminusγk+jωk)n

y = F (γ1p ω1p)c



xn+1 =

eminusγ1+jω1

eminusγp+jωp

︸︷︷︸

A

xn x0 =

c1c2cp

yn =(

1 1 1 1)

︸︷︷︸

C

xn


y1 ykminus1 yk yK







0 50 100 150 200 250 300 350 400 450 500

0


Audio Interpolation

p(xnotκ|xκ) prop

int



H

xnotκ xκ

Missing Observed

0 50 100 150 200 250 300 350 400 450 500

0



Aν Qν



ν = 0 W minus 1

x0 xk xKminus1

sνk sim N (sν


(

Aν


)

Ψ

)





ksα


α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)





equations


Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






bull from sound

tsec

fHz

0 1 2 3 4 5 6 7 80

1000

2000

3000

4000

5000

0

10

20

(S)

bull to score


Decimated_chopinwav


bull Hierarchical




bull Uncertainty







Score Expression

Piano-Roll

Signal



M



Modelling levels




model

bull Feature Based

Research Questions










model





Sinusoidal Modeling




(real) yn =

psum

k=1


(complex) yn =

psum

k=1

ck(eminusγk+jωk)n

y = F (γ1p ω1p)c



xn+1 =

eminusγ1+jω1

eminusγp+jωp

︸︷︷︸

A

xn x0 =

c1c2cp

yn =(

1 1 1 1)

︸︷︷︸

C

xn


y1 ykminus1 yk yK







0 50 100 150 200 250 300 350 400 450 500

0


Audio Interpolation

p(xnotκ|xκ) prop

int



H

xnotκ xκ

Missing Observed

0 50 100 150 200 250 300 350 400 450 500

0



Aν Qν



ν = 0 W minus 1

x0 xk xKminus1

sνk sim N (sν


(

Aν


)

Ψ

)





ksα


α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)





equations


Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






bull Hierarchical




bull Uncertainty







Score Expression

Piano-Roll

Signal



M



Modelling levels




model

bull Feature Based

Research Questions










model





Sinusoidal Modeling




(real) yn =

psum

k=1


(complex) yn =

psum

k=1

ck(eminusγk+jωk)n

y = F (γ1p ω1p)c



xn+1 =

eminusγ1+jω1

eminusγp+jωp

︸︷︷︸

A

xn x0 =

c1c2cp

yn =(

1 1 1 1)

︸︷︷︸

C

xn


y1 ykminus1 yk yK







0 50 100 150 200 250 300 350 400 450 500

0


Audio Interpolation

p(xnotκ|xκ) prop

int



H

xnotκ xκ

Missing Observed

0 50 100 150 200 250 300 350 400 450 500

0



Aν Qν



ν = 0 W minus 1

x0 xk xKminus1

sνk sim N (sν


(

Aν


)

Ψ

)





ksα


α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)





equations


Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications








Score Expression

Piano-Roll

Signal



M



Modelling levels




model

bull Feature Based

Research Questions










model





Sinusoidal Modeling




(real) yn =

psum

k=1


(complex) yn =

psum

k=1

ck(eminusγk+jωk)n

y = F (γ1p ω1p)c



xn+1 =

eminusγ1+jω1

eminusγp+jωp

︸︷︷︸

A

xn x0 =

c1c2cp

yn =(

1 1 1 1)

︸︷︷︸

C

xn


y1 ykminus1 yk yK







0 50 100 150 200 250 300 350 400 450 500

0


Audio Interpolation

p(xnotκ|xκ) prop

int



H

xnotκ xκ

Missing Observed

0 50 100 150 200 250 300 350 400 450 500

0



Aν Qν



ν = 0 W minus 1

x0 xk xKminus1

sνk sim N (sν


(

Aν


)

Ψ

)





ksα


α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)





equations


Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






M



Modelling levels




model

bull Feature Based

Research Questions










model





Sinusoidal Modeling




(real) yn =

psum

k=1


(complex) yn =

psum

k=1

ck(eminusγk+jωk)n

y = F (γ1p ω1p)c



xn+1 =

eminusγ1+jω1

eminusγp+jωp

︸︷︷︸

A

xn x0 =

c1c2cp

yn =(

1 1 1 1)

︸︷︷︸

C

xn


y1 ykminus1 yk yK







0 50 100 150 200 250 300 350 400 450 500

0


Audio Interpolation

p(xnotκ|xκ) prop

int



H

xnotκ xκ

Missing Observed

0 50 100 150 200 250 300 350 400 450 500

0



Aν Qν



ν = 0 W minus 1

x0 xk xKminus1

sνk sim N (sν


(

Aν


)

Ψ

)





ksα


α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)





equations


Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Modelling levels




model

bull Feature Based

Research Questions










model





Sinusoidal Modeling




(real) yn =

psum

k=1


(complex) yn =

psum

k=1

ck(eminusγk+jωk)n

y = F (γ1p ω1p)c



xn+1 =

eminusγ1+jω1

eminusγp+jωp

︸︷︷︸

A

xn x0 =

c1c2cp

yn =(

1 1 1 1)

︸︷︷︸

C

xn


y1 ykminus1 yk yK







0 50 100 150 200 250 300 350 400 450 500

0


Audio Interpolation

p(xnotκ|xκ) prop

int



H

xnotκ xκ

Missing Observed

0 50 100 150 200 250 300 350 400 450 500

0



Aν Qν



ν = 0 W minus 1

x0 xk xKminus1

sνk sim N (sν


(

Aν


)

Ψ

)





ksα


α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)





equations


Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications












model





Sinusoidal Modeling




(real) yn =

psum

k=1


(complex) yn =

psum

k=1

ck(eminusγk+jωk)n

y = F (γ1p ω1p)c



xn+1 =

eminusγ1+jω1

eminusγp+jωp

︸︷︷︸

A

xn x0 =

c1c2cp

yn =(

1 1 1 1)

︸︷︷︸

C

xn


y1 ykminus1 yk yK







0 50 100 150 200 250 300 350 400 450 500

0


Audio Interpolation

p(xnotκ|xκ) prop

int



H

xnotκ xκ

Missing Observed

0 50 100 150 200 250 300 350 400 450 500

0



Aν Qν



ν = 0 W minus 1

x0 xk xKminus1

sνk sim N (sν


(

Aν


)

Ψ

)





ksα


α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)





equations


Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Sinusoidal Modeling




(real) yn =

psum

k=1


(complex) yn =

psum

k=1

ck(eminusγk+jωk)n

y = F (γ1p ω1p)c



xn+1 =

eminusγ1+jω1

eminusγp+jωp

︸︷︷︸

A

xn x0 =

c1c2cp

yn =(

1 1 1 1)

︸︷︷︸

C

xn


y1 ykminus1 yk yK







0 50 100 150 200 250 300 350 400 450 500

0


Audio Interpolation

p(xnotκ|xκ) prop

int



H

xnotκ xκ

Missing Observed

0 50 100 150 200 250 300 350 400 450 500

0



Aν Qν



ν = 0 W minus 1

x0 xk xKminus1

sνk sim N (sν


(

Aν


)

Ψ

)





ksα


α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)





equations


Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






xn+1 =

eminusγ1+jω1

eminusγp+jωp

︸︷︷︸

A

xn x0 =

c1c2cp

yn =(

1 1 1 1)

︸︷︷︸

C

xn


y1 ykminus1 yk yK







0 50 100 150 200 250 300 350 400 450 500

0


Audio Interpolation

p(xnotκ|xκ) prop

int



H

xnotκ xκ

Missing Observed

0 50 100 150 200 250 300 350 400 450 500

0



Aν Qν



ν = 0 W minus 1

x0 xk xKminus1

sνk sim N (sν


(

Aν


)

Ψ

)





ksα


α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)





equations


Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications










0 50 100 150 200 250 300 350 400 450 500

0


Audio Interpolation

p(xnotκ|xκ) prop

int



H

xnotκ xκ

Missing Observed

0 50 100 150 200 250 300 350 400 450 500

0



Aν Qν



ν = 0 W minus 1

x0 xk xKminus1

sνk sim N (sν


(

Aν


)

Ψ

)





ksα


α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)





equations


Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Audio Interpolation

p(xnotκ|xκ) prop

int



H

xnotκ xκ

Missing Observed

0 50 100 150 200 250 300 350 400 450 500

0



Aν Qν



ν = 0 W minus 1

x0 xk xKminus1

sνk sim N (sν


(

Aν


)

Ψ

)





ksα


α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)





equations


Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






Aν Qν



ν = 0 W minus 1

x0 xk xKminus1

sνk sim N (sν


(

Aν


)

Ψ

)





ksα


α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)





equations


Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications








ksα


α isin C

prod

k q(sαk |s

αkminus1)

xk q(xk)





equations


Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Restoration

bull Piano



ndash Original

bull Trumpet



ndash Original


piano_missingwav

piano_kalmanwav

piano_cleanwav

trumpet_missingwav

trumpet_kalmanwav

trumpet_cleanwav








νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications












νK

ν = 1 W

yk yK






reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications








reg

+ [rk = 1]N (0 S)︸︷︷︸

new


A =

Gω

G2ω

GH

ω

N

Gω = ρk


)








minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications










minus7903666343

076292

minus103422


minus27957

minus04593






Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications









Heskes 2006)

r1 = 1 r2 = 0 r3 = 0 r4 = 1 r5 = 0

θ0 θ1 θ2 θ3 θ4 θ5

y1 y2 y3 y4 y5








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications








r0 r1 rT

m0 m1 mT

s0 s1 sT

y1 yT




100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications







100 200 300 400 500 600 700 800 900 1000minus100

minus50

0

50

100 200 300 400 500 600 700 800 900 1000

5

10

15



Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Transcription


TSALP)

500 1000 1500 2000 2500 3000 3500

Exact inference (S)


d1wav



50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications







50 100 150 200 250 300 350 400 450 500




νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






νfr

eque

ncy

k

x k



montuno1wav

montuno2wav

montuno3wav






r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications










r1 rW

s1 sW

x
















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications















ν = 1 W

yk yK


Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Synthetic Data

νx

freq

ν

ν

k

(S)


audio_examplewav




large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications








large matrices





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Modelling levels




model

bull Feature Based


Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Spectrogram


x(t) =sum

k

skφk(t)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)



s1wav

s2wav




Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications








Xντ = WνjSjτ


= times





Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications







Xντ = [rντ = 0]S(0)ντ + [rντ = 1]S(1)

ντ


= + +









p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications











p(s|v)p(v) =

(prod

k

p(sk|vk)

)

p(v)



vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn



κkn = vknsum

nprime





vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






vk1 vkN

sk1 skN

xk

k = 1 K


xk|sk1N =sumN

n=1 skn





0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






0 1 2 3 4 50

02

04

06

08

1

12a = 09 b =1

a = 1 b =1

a = 13 b =1

a = 2 b =1

x

p(x)

0 1 2 3 4 50

02

04

06

08

1

12

14

a=1 b=1

a=1 b=05

a=2 b=1






Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Gamma Chains










100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k



100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 10

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 4

100 200 300 400 500 600 700 800 900 1000

minus20

0

20

log

v k

a = 10 az = 40

k


Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Gamma Chains


potentials of form


k ) (Pairwise)



k ) (Singletons)


Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Gamma Fields


potentials


j ) (Pairwise)

φi = exp((sum

j






bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications








bull Stochastic



bull Deterministic




VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)k )ψkk+1(z

(τ)k+1)


VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





VB or Gibbs

ψ01

z1

ψ11

v1

ψ12

z2

ψ22


p(y1|v1) p(y2|v2)

bull VB


bull Gibbs


(τ)kminus1)ψkk(v

(τ)k )





Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications








Noisy Original

X

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xorg

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xh SNR1998

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xv SNR2079

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xb SNR1968

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Xg SNR1997

20406080100120

50

100

150

200

250

300

350

400

450

500

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0



50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Noisy

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

PF SNR853

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

Gibbs SNR866

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0

VB SNR208

50 100 150 200 250

50

100

150

200

250

300

350

400

450

500

minus18

minus16

minus14

minus12

minus10

minus8

minus6

minus4

minus2

0






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications








Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications







s1 s2


VB -474 -328 567 -158 1546 -137

Gibbs -45 -262 457 105 1246 161

GibbsEM -423 -242 482 134 1313 185


Oracle 614 1716 658 1266 1995 136






s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications







s1 s2


VB -78 -622 453 -235 184 -225

Gibbs -846 -753 693 -404 1459 -383

GibbsEM -774 -619 462 -114 1662 -097


Oracle 121 329 1214 2113 3389 2137



Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






Time (τ)

Fre

quen

cy B

in (ν

)

Xorg

Shor

Sver




s2wav

ss_s2_est1wav

ss_s2_est2wav

originalwav

sig1wav

sig2wav


0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν


Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Chord Detection

Time τ s

Fre

quen

cy

Hz


05 1 15 2 250

500

1000

1500

2000

2500

3000

3500

4000

Time τ s

MID

Inot

ej

logsum

ν vνjτ

05 1 15 2 2540

45

50

55

60

65







xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications










xk1 xkM

k = 1 K


a1 r1 aM


rM







Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications









Source Separation

tsecfH

z

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

5

10

15

20

25

(Guitar)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

(Mix)


s1wav

s2wav

s3wav

x1wav

Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Reconstructions

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

10

15

20

25

30

(Speech)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

0

10

20

30

(Piano)

tsec

fHz

0 200 400 600 800 1000 12000

2000

4000

6000

8000

10000

5

10

15

20

25

(Guitar)


var_se1wav

var_se2wav

var_se3wav

Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Multimodality



Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Multimodality


0 500 1000 1500 2000

minus08024

08295

20375

a

0 500 1000 1500 2000

72408

251398362295

λ

0 500 1000 1500 2000

0545118648

r

Epoch







ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications










ndash





| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






| | |




1 2 3 4 5 6 7 8

mk

34 time

44 time





Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5

Tem

po L

evel

Bar Position

p(x2| x

1)

1 2 3 4 5 6 7 8

1

2

3

4

5



Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






Tem

po L

evel

Bar Position

p(x1)



Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






Tem

po L

evel

Bar Position

p(x2)



Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






Tem

po L

evel

Bar Position

p(x3)



Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






Tem

po L

evel

Bar Position

p(x4)



Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






Tem

po L

evel

Bar Position

y5 = 0 p(x

5| y

15)



Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






Tem

po L

evel

Bar Position

p(x10

)




0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications







0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Triplet Rhythm

0 100 200 300 400 500 600 700 800 900 10000

2

4

mk

micro k

Duplet Rhythm




n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications







n0 n1 n2 n3

θ0 θ1 θ2 θ3

m0 m1 m2 m3

r0 r1 r2 r3

λ1 λ2 λ3

y1 y2 y3



Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Filtering

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1k)

50 100 150 200 250 300 350 400 450

800

600

400

200

minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1k)

50 100 150 200 250 300 350 400 450

180

120

60minus4

minus2

0

p(rk|y

1k)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets

002040608


Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Smoothing

0 50 100 150 200 250 300 350 400 4500

1

2

y k

Observed Data

mk

log p(mk|y

1K)

50 100 150 200 250 300 350 400 450

800

600

400

200 minus10

minus5

0Q

uart

er n

otes

per

min

log p(nk|y

1K)

50 100 150 200 250 300 350 400 450

180

120

60minus10

minus5

0

p(rk|y

1K)

Frame Index k

50 100 150 200 250 300 350 400 450

Triplets

Duplets 02040608


Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Time Signature

0 2 4 6 8 10 12

minus1

0

1

sam

ple

valu

e

time s

Observed Data

mk

log p(mk|z

1K)

100 200 300 400 500

800

600

400

200 minus10

minus5

0

Qua

rter

not

es p

er m

in log p(n

k|z

1K)

100 200 300 400 500

155

103

52minus10

minus5

0

p(θk|z

1K)

Frame Index k

100 200 300 400 500

44

34 02040608




4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications







4

t

x t



ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






ν = 1 W

t1 t2 tK

r1 r2 rK

λ1 λ2 λK

vν1 vν2 vνK

sν1 sν2 sνK

6 7 81 2 53 4

rk




0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






0 500 1000 1500 2000 2500 3000 3500 4000minus12

minus10

minus8

minus6

minus4

minus2

0

Frequency ν Hz

log

σ ν



Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications






Spectrogram Data

Time s

Fre

quen

cy

Hz

0 2 4 6 8 10 12 140

1000

2000

3000

4000

50 100 150 200 250 300 350 400 45055

60

65

70

75

80

85MIDI Data

Score position

MID

I not

e



Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Transcription

log p(rτ |sτ )

MID

Inot

enum

ber

Time s1 2 3 4

60

65

70

75

80

1 2 3 4minus10

minus5

0

5

10

sum

i w(i)τ λ

(i)τ

Time s

logλ


Time s

Fre

quen

cy

Hz

1 2 3 40

500

1000

1500

2000

2500

3000

3500

4000


Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Summary




AR ARMA)








Summary



bull Ongoing Work


ndash Learning

ndash Applications





Summary



bull Ongoing Work


ndash Learning

ndash Applications





hierarchical bayesian models for audio and music signal ...cemgil/papers/talks/... · signal...

Documents