integrative analysis of methylation and expression...

IntegrativeAnalysisofMethylationand

ExpressionData

JuanCarlosCompanyMasterenBioestadísticayBioinformática

ÁreadeEstadísticayBioinformática

AlexandreSánchezPla

26diciembre2016

J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data

Esta obra está sujeta a una licencia de

Reconocimiento-NoComercial-SinObraDerivada

3.0EspañadeCreativeCommons

lectual.

i

FICHADELTRABAJOFINAL

Títulodeltrabajo:Integrative analysis of methylation and

Expressiondata

Nombredelautor: JuanCarlosCompany

Nombredelconsultor/a: AlexSánchezPla

NombredelPRA: AlexSánchezPla

Fechadeentrega(mm/aaaa): 12/2016

Titulación: MasterenBioestadísticayBioinformática

ÁreadelTrabajoFinal: EstadísticayBioinformática

Idiomadeltrabajo: Castellano

Palabrasclave Metilación,Expresión,L-pattern

Resumen del Trabajo (máximo 250 palabras): Con la finalidad, contexto de

aplicación,metodología,resultadosiconclusionesdeltrabajo.

LametilacióndelDNAesunmecanismoepigenéticodirectamenterelacionadoconlaregulación

génica,asociadoalsilenciamientogénico.Estétipoderegulaciónesespecialmenteimportanteenel

desarrollooendeterminadasenfermedadescomocáncer.Enconcretosehaobservadoquela

gananciademetilaciónestárelacionadaconlaregulaciónenCáncerdecolón(CRC).Asípues,el

aumentodelametilaciónyladisminucióndelaexpresiónformanunpatrónenformadeLal

representarlosvaloresenunscatterplot.Enesteproyectobuscamosdeterminarladetecciónde

genespotencialesenCRCenbasealanálisisdeestosgráficosyalaclasificaciónenbaseaeste

patrón.Paraello,utilizaremosunconceptonuevoperopocoexplotadoscagnostics[4]ylo

compararemosconestudiospreviossimilaresmediantelageneracióndenuevossetdedatosde

GeneExpressionOmnibus(GEO).Comoresultadodeestetrabajohemosobtenidola

implementacióndeunnuevométodoenladeteccióndepatronesenL,mediantediferentes

funcionesyalgoritmosdeclasificaciónbasadosenSVMqueseráincorporadoaunaaplicaciónde

análisisbasadaenlaplataformaShinny.


ii

Abstract(inEnglish,250wordsorless):

DNAmethnylation is an epigeneticmecanism relatedwith gene regulation. This

type of genomic regulation is specially important in development or in some

diseases such as Cancer. In particular, it has been observed an increase in the

methylationlevelsrelatedwiththeetiologyofColorectalCancer(CRC).Therisein

the methylation levels followed by a decrease of the expression creates a L-

patterninthescatterplotwhenthosevaluesarerepresentedpergene.Ourstudy

is focus on the analysis of this pattern by the scagnostics[4].We compared our

findings with previous studies by using same datasets as well as increase the

numberofdatasetsrelatedwithCRCseachingattheGEOdatabase.

Asaresultofthiswork,wehaveimplementedanewapplicationtothedetecction

of biomarkes in CRC based on SVM and the scagnostic concept whichmethods

wereaddedtoashinnybasedapp.Additionaltothisproject,wehaveintroduced

newfunctionalitiesthatwillhelptheusertohavemorefreedominanalysestheir

data.

iii

Índice

1.Introducción.........................................................................................................................................1

1.1ContextoyjustificacióndelTrabajo....................................................................................1

1.2ObjetivosdelTrabajo.................................................................................................................2

1.3Enfoqueymétodoseguido......................................................................................................3

1.4PlanificacióndelTrabajo..........................................................................................................5

1.5Brevesumariodeproductosobtenidos............................................................................5

1.6Brevedescripcióndelosotroscapítulosdelamemoria............................................5

2.Restodecapítulos..............................................................................................................................7

3.Conclusiones.....................................................................................................................................16

4.Glosario................................................................................................................................................18

5.Bibliografía.........................................................................................................................................19

6.Anexos..................................................................................................................................................21


iv

Listadefiguras

• Fig1:Diagramadelplandetrabajo

• Tabla1:Tablalosdata-setspúblicosanotados.

• Tabla2:Tablalosvaloresdescagnostics[4]paraelsetartificial

• Fig2:ScatterplotGREM1

• Fig3:Capturadepantallaaplicación,Subirlosdatos.

• Fig4:Capturadepantaaplicación,Utilizarlafunción.

1

1.Introducción1.1ContextoyjustificacióndelTrabajo

Lametilación del DNA constituye unmecanismo epigénico importante en la regulación

génica[1]. Se tratabásicamentede la adicióndeungrupometil sobre la citosinas enel

genoma.Generalmente,estasbasesmetiladasestánasociadasazonasenriquecidasenes

uncontextoCpG llamadas islasdeCpG. Laganancia seconsiderahipermetilaciónyuna

perdida Hypometilación. Ambos procesos son independientes (diferentes maquinarias

enzimáticas)yocurrenendiferentessituacionesenelgenoma.Deestamanera,cuandola

metilación del DNA ocurre en las regiones promotoras se produce una irrupción de la

transcripción y como consecuencia un silenciamiento del gen. Este mecanismo tiene

conocida importanciaeneldesarrollooen ladiferenciacióncelular, peroademásseha

vistoquedirectamenterelacionadoenenfermedadeshumanascomoelCáncer[1].

Por lo tanto,unagananciademetilaciónsepuede traducirenunapérdidadeexpresión

(nosiempretienequeserasí)ycuandoseinterpretaestepatrónenugraficoenconjunto

de lametilación, formaunpatrónen formadeL característico[2]. Ladeteccióndeestos

patronesnoessencilladebidoaquelametilación,aunsiendounprocesoestable,ocurre

condiferentes intensidada lo largodel genomayde la islaCpG ( shelve, shore, island).

EstesesgopuedevolverseimportantecuandoseutilizantécnicasdeHigh-Throughputdan

valorespordiferentesposicionesdelgen.Ademásestetipodeanálisisescrucialcuandoel

análisisimplicalabúsquedadegenespotencialmentereguladosenenfermedadescomoel

CáncerColonrectal(CRC).

Nuestro estudio se basa en la detección de patrones en forma de L para genes

hipermetilados que potencialmente regulen los procesos en CRC. Para el estudio del

patrónutilizaremoselconceptodescagnostics[4]y locompararemosconotrosestudios

previos[3]. Este es un concepto en el cual se miden diferentes parámetros de un

scatterplot y permiten determinar la forma y comportamiento a través de valores

numéricos.EsunconceptoantiguopropuestoporloshermanosTukeyenlosaños80[4],

peroquehasidopocoexplotadoenlabibliografíayqueesparticularmenteinteresanteen

elcasoquenosocupa.Estehacediferentesmediciones:Outlying,Skewed,Convex,Skinny,

Stringy, clumpy, sparse, striated,monotonic (mantendremos los términosen ingléspara

mantener la coherencia para la lectura del código). De los cuales, losmás importantes

paralaformasonConvex,Skinny,Stringy[5]


2

En nuestro trabajo primero generaremos un set de análisis de datos de Cáncer (en

concretoCRC)apartirdediferentessetsdedatospúblicosdeGEO.Esteconjuntonotiene

por que excesivamente coherente para su estudio , ej.mismo tipo celular , ya que nos

servirá principalmente para poder implementar el método. Otros datos más curados,

seránutilizadosalfinalparaladeteccióndegenesconcáncerdecolonenunsetdedatos

comparativo de expresión y metilación relacionados por el valor del gen. Para poder

integrar todos estos datos utilizaremos el paquete de scagnostics [4], además de otros

previamenteutilizadosparaelaborarunanálisisexhaustivodelosresultadosmediantela

utilización de SVM y un set de genes con importancia en cáncer obtenido mediante

técnicasdedata-mining[6].

Porúltimo,comoresultadodeesteestudio,definiremosunosvaloresdeformayunaserie

de funciones que iremos añadiendo gradualmente como un nuevo modulo en una

aplicaciónshinny ,mejorandoenelprocesoalgunas funcionalidadesdelmismo,hastael

tiempoqueeltrabajofinaldemasterpermita.

1.2ObjetivosdelTrabajo

El objetivo final del este trabajo es la implementación demétodos para la detección de

Biomarcadores en CRG (o en otro tipo de cáncer que pueda ser relacionado con la

metilación) en base al estudio de los diferentes parámetros que ofrecen una serie de

estadísticos de correlación. Este trabajo, es un trabajo heredado, pero único en la

implementacióndel conceptode scagnostics[4] [4]mediante el análisis de sets de datos

artificiales, la clasificación de los métodos por machine learning y la comparación con

estudios previos de data-sets públicos. Para ello el trabajo se divide en los siguientes

objetivos:

- Mineríadedatos

• ObtenerunalistadegenesconrelevanciaenCRCmediantedata-mining

• Obtenerunsetdedatosdecáncerdecolonparalametilaciónyexpresión.


3

- Implementacióntécnica

• Implementación de funciones que permitan descargar y anotar datos

directamentedesdeGEO.

• Implementar funciones introducir estos sets de datos en el análisis de

scagnostics[4]ypoderserevaluados.

• Implementar funciones de reconocimiento de patrones para su clasificación

medianteSVM

• Implementación funciones de análisis comparación sets de datos y

enriquecimientodetérminosGO.

• Implementación de los métodos en una aplicación Shinny con una interfaz

user-friendly

- Análisisdedatos

• BúsquedadeparámetrosparadetectarL-shapemedianteeldesarrollodeuna

función

• Análisisdelosdatosenbasesamétodosprevios:mutualinformation,splines,

correlation,distcorrelation.

• Clasificación de los datos en base al L-shape y su relación con el set de

relevanciaenCRC.

1.3Enfoqueymétodoseguido

Elenfoquedeestetrabajofueladivisióndeltiempoenbasedelosdiferentesapartados

descritosenelapartadoanterioryenbasearecomendacionesdelcoordinadordel

proyectoconreunioneseventualessobreladireccionalidaddelproceso.Debidoaestetipo

deenfoquedetomadedecisión,sobretodoenlasprimeraspartesdegeneracióndelos

sets,comoseindicóenelresultadosobreelobjetivofinalpuedevariaryrequerirdemás

tiempodeanálisis.Sinembargo,debidoaqueesteenfoqueesmodularycentradoenla

biologíaylaimplementacióndemétodos,permiteaunenelsupuestodenecesidaddemás

tiempoporerroresodificultadesenlaimplementaciónlaobtencióncomoresultadode

unaaplicaciónreutilizablesenotrosestudios.

Nuestroprimerpuntodetrabajo,fuelaobtencióndelossetsdedatosdemaneramanual

mediantelabúsquedadedatosdeexpresiónymetilaciónenlasbasesdedatosGEO.Al

mismotiempoquelaobtencióndediferentesgenesrelacionadosencáncermediante

mineríadedatos[6]


4

Elsiguientepaso,seríalaimplementacióndemétodosdeanálisisdepreviosmediantela

instalacióneimplementacióndelospaquetesparaMutualInformation,DistCor,Splinesy

Scagnostics[4].Además,conlafilosofíademantenerelsistemalomásautomatizado

posible,lacreacióndefuncionesdeanálisisydescargacomoporejemploladesarrollada

paralaobtencióndelosdatosanotadosapartirdeunGEOID.Ademásdediversas

herramientasauxiliares,comolacombinacióndelasdiferentesposiciones(sondasenun

array)bajoelmismogenoidentificador,larepresentacióndelosvaloresde

expresión/metilaciónenunscatterplotofuncionesdeclasificaciónofiltrado

Paracomprobarelefectodelosparámetrosestudiadosmediantescagnostics[4]y

comprobarasísipresentaunaformadeL-shapeseplanteandosestrategias:

1) UtilizacióndeunalistafiabledegenesenformadeL.Necesariamentevalidados

experimentalmente.

2) Implementaciónde“datosartificiales“quepermitandeterminarlosvaloresdelos

parámetrosdescagnosticparasetscorrelacionados.

Dadoquenofueposibleencontrarunalistalosuficientementeextensayfiablequecumpla

lascaracterísticasdelaprimeraopción,seutilizarálasegundaopción.Paraello

generaremosunafunciónquepermiteenbaseaunnúmerodado(4..10,..100)la

generaciónaleatoriadedatosparasuinterpretaciónmediantescagnostics[4].Estos

valoresnosserviránmástardecomovaloresdefaultenlafuncióndeevaluacióndela

formadelacorrelaciónexpresión/metilación,asícomoenlaaplicaciónshinny.

Elúltimopasoseráelanálisisdelosgenesdelsetdedatospúblicos.Primero,obtenemos

losvaloresdeshapedetodoslosgenespresentenenlossetsmediantelosdiferentes

métodos.Utilizandolosvaloresdefaultdeestepatrónylacombinacióndelosmismos

entrediferentesmétodosparadeterminaraquellosquepresentenL-shape,

implementaremosunaclasificaciónmedianteunalgoritmodeSVM(paquetecaret)

Comoresultadofinalseimplementarálafuncióndedeteccióndescagnostics[4],consus

valoresdefault,comounanuevafunciónindependiente(newtab)deunpaqueteprevio

conotroselementosparaelanálisisdeL-shape.


5

1.4PlanificacióndelTrabajo

Eltrabajosedivideendospuntosbásicoscomosedescribeenlafiguradebajoysehaido

explicandodurantelamemoria.Enelprimerolaevaluacióndeestosmétodosservirá

comoobjetivoparaladeteccióndebiomarcadoresenCRCyelsegundolaimplementación

delasfuncionesqueseanposibles(seguroladetecciónporscagnostic)enunaaplicación

shinny.

Fig1:Plandetrabajodesarrolladoalprincipiodelproyecto.Empiezaeldía11.10yacabael26.12

1.5Brevesumariodeproductosobtenidos

• SetdedatosdegenesconimportanciabiológicaenCRCobtenidospordata-mining

• SetdedatospúblicosdeCRCdelapáginadeGEO

• Valoresdefaultparalosmétodosdescagnostics[4]enladeteccióndeunpatrónen

formadeL

• FunciónShinnyconelmódulodescagnostics[4]añadido.

1.6Brevedescripcióndelosotroscapítulosdelamemoria

En el punto 2 de esta memoria se explicará los diferente apartados, procedimientos y

funciones utilizadas durante el desarrollo de este trabajo. Como resultado final se


6

implementará la función de detección de scagnostics[4] como una nueva función a un

paqueteprevioconotroselementosdeanálisisdeL-shapeademásderealizarunestudio

paraladeteccióndebiomarcadoresenCRC.

Este punto se divide en estos dos capítulos básicos: Análisis y el desarrollo de la

Aplicación.Enelprimeroconstadeunprimerpaso introducciónyderecopilaciónde la

informaciónpúblicadisponibleparaladeteccióndebiomarcadoresmediantedata-mining.

A continuación le seguirá un paso de análisis de los datos, el cual se describirá el

desarrollodediversasfuncionespararealizarelanálisisylaimplantacióndelasmismas

en el set de datos previamente descargado. Por último en este punto, se explicará los

procedimientosutilizadosparaelanálisiseinterpretaciónderesultados.

Elúltimopuntodelamemoriaestádedicaalaexplicacióndelautilizacióndelaaplicación

shinny.


7

2.Restodecapítulos

1. IdentificacióndeBiomarcadoresenCáncerColonrectal.

Introducción Elobjetivoprincipaldeestetrabajo,eslacontinuacióndeestudiospreviosenladetección

depatrones identificablesycorrelacionadlespara ladeteccióndegenescon importancia

encáncercolonrectal.Aunquehaymuchascapasderegulacióngénicayepigéneticaenel

genomaquepuedendefinireldesarrollodeunaenfermedad,esteestudiosehafocalizado

en aquellos genes regulados por metilación y en concreto en el patrón en forma de L

característicoquepresentanencuantoestánreguladosporhipermetilación(gananciade

metilación). Otras aproximaciones previas [1] a esta han sido llevado a cabo en la

búsquedaeinterpretacióndelacorrelaciónentrelaexpresiónymetilación,perosiempre

se han basado en un enfoque de la cuantificación de la correlación como valor para la

detección del patrón entre los valores. En nuestro caso este enfoque varía y nos

centrarnos en la relación que tienen todos los puntos entre si de un conjunto sobre un

plano.

Unaventajade estemétodode estudio al respectode los anteriores, esque la relación

entre patrones entre unamarca epigenética y la expressión como consecuencia de una

regulación es extrapolable a otros capas o eventos en el genoma. De estamanera, este

estudio podría aportar un nuevo punto de vista en tanto en cuanto incremente las

opcionesdetecciónadicionalesalenfoquetradicional.

Para cumplir este objetivo nos basaremos en estudios previos y en la comparación de

diversos métodos en concreto Splines, DistCor y Mutual information del concepto de

scagnostics[4].Estesecomponede10valoresmedidosapartirdelarepresentacióndelos

puntosenunplanoypermiteladeteccióndediferentescaracterísticas,comolaforma,la

dispersión el sesgo al respecto del en el eje entre otros. Además, complementaremos

estos métodos con la implementación de funciones que calculen métodos previos

descritosutilizaremoslospaquetesdeRsplines[7],energy[8],entropy[9], infotheo[10].

Todosestas funcionesrequierendedosvectoresquesecorresponderíancon losvalores

deexpresiónymetilación.


8

DataMining

Setsdedatosconimportanciaencáncer

Laimplementacióndelosmétodosdedetecciónformaráunasegundapartedelproceso.

Enlaprimeranecesitaremosobtenerunalistadedatosparapoderrealizarelestudioque

nosocupayunalistadegenesquenospermitaevaluarsuimportanciabiológica.Paraello

centraremoslabúsquedadeestosdatosentreselementosprincipales:listadegenescon

importanciabiológica,listadedatasetsdeexpresióny/ometilacióndeCRCydatosdeun

estudiopreviodeexpresión-metilación[1]

ObtenemoscomoresultadodelabúsquedadearchivosGEO25setsdedatos,deloscuales

12 corresponden con metilación y 13 corresponden con expresión. De manera manual

añadiremos los identificadoresde labasededatosdeGEO[11]unavezcompletemos la

búsqueda con CRC/Colon rectal/Metilación en el browser. Aun que hemos seguido este

enfoque , al igual que la descarga y anotación las búsquedas en GEO también pueden

implementadas.Estodatosenformato.csv(Nombredelfichero)seañadiráenunformato

fácilmente agregable al entorno de programación R [12] que más se adecua al tipo de

trabajo que vamos a desarrollar en el trabajo fin de master. Como se ha dicho

anteriormente, la importancia de estos sets es el generar un set de datos lo

suficientementeextensoparapoderimplementarlasdiferentesfuncionesdeclasificación,

notantoreducirelsesgobiológico.

AcontinuaciónlaintegracióndeestossetsdedatosenunentornodeRdemaneramanual

aligualquesubúsquedapuedeserlargaypuederetrasarnosellospuntosdeentrega.Por

estarazónyhasugerenciadelcoordinador,enestepuntoseimplementaunafunciónpara

lalectura-descarga-anotacióndeestossetsdedatosgetGEO.anno.Paraello,utilizaremos

elpaquetegeoQuery[13]quepermiteladescargadeaquellosdatosdisponiblesenGEOy

transfórmalos enunamatriz de expresión con los datos yanormalizados.Dado, que los

sets en esta base de datos son diversos y sus plataformas diversas también, la

implementacióndeunmétododeadicionaldenormalizaciónencadacasoescomplicadoy

puede llegar a utilizar el corto tiempo del proyecto. Por este motivo se decide utilizar

directamente las tablas de normalización. Otro elemento de dificultad al respecto de

automatización de la obtención de los datos públicos es la anotación de estos sets de

manera automática omanual. Para ello, se utiliza solamente aquellos sets de datos que

contieneunaplataformaconanotaciónpresenteenbioconductoryquenospermitiráno


9

tenerquegenerarunabasededatospornosotrosmismos(otravezporrestricciónenlos

tiempos de entrega). Esto reduce la lista de nuestro set de 25 a 8 data sets: 4 sets de

expresión y 4 de metilación relacionados con cáncer, más los dos estudios adicionales

relacionados con CRC. Aunque resulta un descenso significativo de los sets, el número

elevado sigue cumpliendo nuestro objetivo y nos permitirá añadir una nueva

funcionalidadalaaplicaciónenelfuturo.

Type Description GEOid

EXP ERbetamodulationofNFkBpathwayincoloncancercelllinesSW480and

HT29

GSE65979

EXP Expressiondataateachsiteincoloncancer GSE65480

EXP LATS2regulatedgenesinhumancoloncancercellline GSE51715

EXP Geneexpressionprofilingofhumancoloncancercelllinesstimulatedwith

dsDNA90

GSE75205

METH ImmuneregulationbylowdosesoftheDNAmethyltransferaseinhibitor5-

azacitidineincommonhumanepithelialcancers

GSE57342

METH Coloncancerprofiling GSE2138

METH DNAmethylationdifferencesbetweenmultiplesclerosisandcontrolsin

frontallobewhitematter

GSE40360

METH 5-hydroxymethylcytosinemarkspromotersincolonthatresist

hypermethylationincancer[Methylation450Array]

GSE63421

Tabla1:Tablaconlossetsdedatosunavezfiltradosporanotación.

Búsquedadelistasdegenes

El siguiente punto es la creación de una lista de genes con relevancia en cáncer. La

motivación es tener un set evaluar y si no fuera posible un set de datos que permita

determinar la importancia biológica de nuestro análisis. Para este punto existen dos

estrategias, la primera es la búsqueda de aquellos genes en la bibliografía de manera

manual y la segunda es la utilización de herramientas de datamining [6] Como se ha

dicho anteriormente y con el objetivo de mantener este estudio lo más automatizado

posible , utilizaremos varias herramientas de data-mining que generará una lista de 67

genesconimportanciabiológicaenestecontexto(nombredelfichero.).Porejemploentre

ellosseencontraríaTET2yTP53queparticipanenlosprocesosdemetilación[3]ycáncer

[14].


10

Análisisdedatos

FuncióndeprediccióndeL-shape

Una vez completada la parte de data-mining lista de sets de datos, implementamos una

serie de funciones que se basan en la interpretación de los parámetros de resultados.

Dadoquenosfocalizamosenlosparámetrosdescagnostics[4]paradefiniraquellosconL-

patternynoL-shapeelalgoritmodeclasificación,únicamentevaloraremoslosresultados

de estepaquetemientrasque losotrosdiferentesmétodosperono seránanalizados en

profundidad.Paraelprimerpasoserálaimplementacióndeunafunción,shape.param(),

que dado una serie de valores por gen (en realidad comparará dos sets diferentes)

mediantediversastécnicaslasdevolverácomoundataframeconlasdiferentesmedidas

de correlación asociadas. Está función será la que se implemente en la aplicación shiny

más tardepara la interpretaciónde resultados.Aunquenopara laaplicación, sinoque

paraelanálisis,estafuncióntendráasociadasdiversasfuncionesauxiliaresquepermitirán

la integración de los valores de los diferentes sets de datos por gen como la función merge.gene.expMeth() la cual realizará la función recién explicada. Utilizaremos estas

funcionesauxiliaresparaintegrar,evaluaryfiltrarnuestrosdata.sets(10data.sets)dando

como resultado una tabla con todos los valores por gen de los diferentes métodos.

Habiendointegradoenellostodoslossetsdedatos,comoresultadoobtenemosunatabla

con22.000genesdehumanodelaversióndeassemblyhg19conlosdiferentesmétodos

decorrelación.

Sin embargo, para determinar cual es mejor valor de L-pattern implementamos una

función basada en la creación de un set de set de datos en forma de L para diferentes

valores,lshape.diagnostics().Estáutilizarácomoinputunnumerodeterminadodepuntos

en de correlación y utilizando la misma función de detección para los sets de datos

(shape.param()) nos dará una tabla con los valores. Por lo tanto, implementamos esta

funciónparadiversostamañodemuestra(tabla2).Observamosqueconformeañadimos

número de posiciones a comparar, los parámetros de Convexity, Stringy y Skinny que

corresponden a la interpretación de la forma por parte del paquete de scagnostics[4]

varían sustancialmente.Observamosque conun100dedatosobtenemosque skinny se

encuentraenunrangode0.28hasta0.73,convexenunvalorcercanoa0ystringyenun

valorquevadesde0.63,peroqueaumentaaproximándosea1.


11

Outlying Skewed Clumpy Sparse Striated Convex Skinny Stringy Monotonic

N=10 0 1 0.01 0.26 0.44 0 1 0.63 0.16

N=20 0 0.71 0.01 0.11 0.74 0.02 0.28 0.83 0.26

N=50 0 0.66 0.01 0.04 0.84 0.00 0.32 0.94 0.39

N=100 0.17 0.76 0.09 0.03 0.92 0.00 0.23 0.97 0.48

N=500 0 0.50 0.02 0.02 0.95 0.00 0.28 0.97 0.47

N=1000 0 0.55 0.03 0.02 0.95 0.00 0.73 0.97 0.46

Tabla2:Tablaconlosvaloresdescagnostics[4]paradiferentestamañosdelsetartificial.

Cuando comparamos con trabajos previos obtenemosque los valores representados se

aproximan,inclusoutilizandosetsdedatosdiferentes,asíutilizandofuncionespreviasse

obtienequeporejemploelgenGREM1presentaunpatrónenformadeL.Trascomprobar

quesitieneunpatrónsimilarennuestros,vemosquelosvaloresdeConvexesde0.018,

valordeSkinnyde0.61yelvalordeStringyde0.72.Observamosqueestosvaloresestán

enelrangoquesehamostradoenlatablaanterior.

Fig2:ScatterplotdelgenGREM1.Alaizquierdalosvaloresdeparaunestudioprevio,aladerecha

larepresentaciónutilizandonuestrosdatos.

Implementacióndeladetecciónenelsetdedatos

Para la detección de los diferentes valores, utilizamos por cada gen todas las sondas

disponiblesporsetdedatosylosagruparemosenunvectorquecontendrálosvaloresde

expresiónymetilación,porseparadoagrupadodecadasondaporgendelamismamanera

X-Meth

Y-Exp

GREM1


12

que hemos explicado en el punto anterior. Este un punto crítico, ya que las sondas/las

posicionespuedenpresentarpatronesdistintos.Porestarazónelsetdedatosgrandese

consideraelmásruidoso(esteefectosepuedeobservarenlaimagenanterior),peronos

permitirá gracias a los otros dos sets (menos sesgo) una mejor implementación de,

algoritmo.

Unavezagrupadosenunvector losvaloresdeexpresiónymetilación(porseparado)se

agruparanenunmatrizquecontengacadavalorporgenyporsetdedatos.Aunquemás

computacionalmente intensivo, utilizaremos todos los genes de Humano (org.Hs.eg.db)

parasudetección(25.000posiciones).Deestamanera,evitamosseleccionargenesyver

comoeselinputgeneraleliminandoesteerror.Mástarde,podremosseleccionarenbasea

diferentes parámetros el set y clasificar los genes. Adicionalmente, está funcionalidad

estarámásreducidaparaquesepuedautilizarcorrectamenteaniveldelaaplicaciónweb.

La realización de esta tarea implica técnicas de paralización en R utilizando el paquete

Snowyparallelquenospermitirádisminuireltiempodecomputación.

Evaluacióndelosresultados

Unavezrealizadalapartemáscomplicadaytediosaquees lageneracióndelastablade

datos y valores generada para cada set de datos obtenido. Utilizamos los valores del

paquete scagnostics[4] para evaluar el número de genes con un patrón L-shape y

clasificarlosalrespecto.Dado,quelacombinacióndelosvaloresdescagnostics[4]puede

sermuycomplicada(1010enunrangode0-1) ,necesitamosunmétodoquenospermita

clasificarlosdatosteniendoencuentanosolamenteskiny,convexystringy,sinotodoslos

demásvaloresParaellodecidimosutilizarSVMmedianteelpaquetecaret.Lajustificación

de este paquete, es que es una técnica potente que nos permite la clasificación de los

diferentesvalores.Una limitacióneselusodeunabuensetdedatos,yesaquídondees

importante lacreaciónpreviadelsetdedatosgrande. Deestámanera introducimos las

funcionesdelaaplicacióndentrodeunafunciónqueademásanalicelossetsdedatosen

basealcambiodelosparámetrosentodoelconjuntodegenes.

Sinembargo,paraelloprimeramentenecesitamosdefiniraquellosquesonL-shape.Dado

que anteriormente hemos definido estos valores “default” para este método para la

detección mediante el análisis de estos parámetros utilizando un set artificial con

diferentesvaloresenelscatterplot.Testaremosprimeroestosvaloresy loharemoscon


13

diferentes valores de cross-validation para observar si el precisión, la sensibilidad,

sensibilidad y probando diferentes combinaciones para los 3 elementos que hemos

definidocomoclavesenladeteccióndeL-shape:Skinny,Convex,Stringy.

• Valoresdefaultconmasymenoscrossvalidation:ProbamosvaloresparaSVM

concross-validation2,3,4,10conlosvaloresdefault.Observamosunprecisiónde

~95% y la detección de 199 valores detectados y predichos con L-pattern. Sin

embargo,observamosqueelaumentoonodelacvnocambiaelresultado.

• Valores variados de skinny (CV=3) : Probamos diferentes combinaciones de

Skinny. Dado que el valor de Skinny fluctúa desde 0.2 hasta 0.7 en el default,

calcularemoslacapacidaddeSVMdeclasificarlosdatoscomoLenbaseamenor

0-0.3,alto0.6-1.0yelglobal(sinrestricción)0-1.Observamosquelaprecisiónes

similarentodos losrangos.Sinembargo lasensibilidad, lapredicciónelvalorde

positivos predichos y negativos predichos es mayor en el rango de 0.6-1-0.

Curiosamente, si tenemos en cuenta más factores como correlación, el mutual

information, dist cor o splines, observamos que la sensibilidad y sensibilidad

aumentantambién.Ocurretambiénquecuandodisminuimospordebajodelvalor

de30,lamayoríademuestrasdesaparecen.

Por lo que concluimosque la relajaciónde los parámetros en skinnyhacedifícil

distinguir entre buenos o no buenos resultado. Pero un rango pequeño no lo

mejora.Nosmantendríamoseneldefault.

• Valoresvariados convex (CV=3): Aplicamos elmismo control a los valoresde

convex. En este caso, el default esta cercano al 0 por lo que aumentaremos

gradualmente losvaloreparaobservarsiesteaumentaono(0.1,0.5,0.7).Vemos

que si aumentamosmucho el valor de convex todos los elementos desaparecen.

Porlotantonuestrovalordedatosbajoycercanoa0.1eselcorrecto

• Valores variados stringy (CV=3): Por último, probamos la combinación de

valoresparaStringy.Enestecasovaloresaltosindicabanlaformaenelpatrónde

L. Por lo que mediremos sus valores una vez disminuyamos. Generaremos

diferentesresultados


14

Conclusiones que la variación de los parámetros de shape en scagnostics[4] : Stringy,

convexyskinnydisminuyenladeteccióndegenesconestetipodepatrón.Unamanerade

comprobar este efecto es añadir información biológica a esta comparación. Para ello,

utilizaremos el set de genes con importancia biológica generados por tools data-mining

paraverlacorrelaciónconlosvalores.

Unavezcruzadoslosdatosdelasdiferentesobservacionesanteriores,comprobamosque

aun que con importancia biológica en cáncer, este tipo de genes para no estar muy

correlacionadoenformadeL.Estetipoderesultadopuedeseresperadopordosrazones:

La primera es el sesgo inherente a la integración de diferentes sets de datos para su

comparativa sobretodo en los datos de expresión (correlación mínima de -0.5) y la

detección y la segunda la propia biología de la metilación. Como se ha dicho en la

introducción, la hipermetilación se caracteriza por un silenciamiento génico, esto se

traduceenmasmetilaciónymenosexpresión.Sinembargo,losnivelesdemetilaciónvaria

en las diferentes puntos de la isla de CpG, por lo que esta variabilidad también podría

explicarquenosedetectaranestosgenes.

Otra manera de detectar la importancia biológica de estos genes es la utilización de

categorías funcionales y su enriquecimiento en los diferentes sets. Por lo que

implementamosuna función (go.enrichment()) quepermita evaluar estas categorías. Sin

embargo, para set de genes tan pequeño como el obtenido por los datos default no

presentaenriquecimientosuficienteparaquesupereelthreshold(0.05)


15

2. Implementarlafunciónenunaaplicaciónweb.Diseño

Utilizamosuna aplicaciónprevia comoestructurabasepara la introduccióndedatosde

expresiónymetilacióndirectamentedesdeunfichero.

Fig3:Capturadepantalladelaintroduccióndesetsdedatosalaaplicación.

Estosdatos son leídosyanalizadosmediante la funcióndeshape.param().Ademásse le

hanañadidodiversasfuncionalidadquepermitiránalusuariomodificarlascaracterísticas

de scagnostics[4] que definen la forma. Almodificar estas características obtendremos

unalistadegenesdiferentesquepodremosdescargar,asícomoobservarelpatróndeun

genquequeramosenlalistamediantelaintroduccióndesuidenelcuadro


16

Implementacionesfuturas

Comoseha idodescribiendoa lo largode lamemoria,diversas funcionesquepermiten

evaluarlaformadelosscatterplotalmismotiempoquepermitedeterminarlacorrelación

entre dos diferentes sets de datos han sido introducidas en la aplicación shiny. Sin

embargo, otras por problemas con el tiempo no han podido ser correctamente

implementadasparael finaldelproyecto. Apesardequesehancumplido losobjetivos

propuestosenelplandetrabajo,unfuturodeimplementacióndeestasfuncionesseríala

descarga directa de los datos de GEO, el análisis mediante limma de las matrices

normalizadas,laimplementacióndelaprediccióndeelementosL-shapeenbasealusode

SVMpodríanserintroducidas.

3.Conclusiones Aunqueesciertoqueestemétodoporsisolonopodríaarrojarunresultadosegurosobre

laimportantedelaregulaciónsobrelaregulacióndesuexpresión,Medianteestetrabajo

hemos comprobado que el método del estudio de las correlaciones entre expresión y

metilaciónimplementandoscagnostics[4]generaunosbuenosresultados.Estohaquedado

retratadocomohemospodidovalorenlacomparaciónconotrosmétodosylaobservación

deelementosindividuales.


17

La ventaja de este método sobre otros, es que no solamente permite determinar la

interacciónenformadepatrónLalrespectodedosvalores.Sinoquepermiteextrapolar

este tipodeestudiosaotrasrelacionesy formas. Enconcreto,elhechode implementar

una función de creación de elementos individuales y la combinación con otrosmétodos

parasuclasificaciónutilizandoSVMpermiteobtenerbuenosresultadosconunaprecisión

muyalta.

Adicionalaesteestudio,sehanimplementadounaaplicaciónshinnyquerecogeestetipo

deanálisisyquepermitiríaconeltiempolaadicióndemayoresfuncionalidades,quepor

restriccióndetiempoeneldesarrollodeltrabajohasidoimposibleserplanificadas.

Aun que el nivel técnico del trabajo podemos considerar que se ha implementado un

nuevométodo gracias a la combinación artifical set – scagnostics[4] – SVM., al nivel de

detección de genes biomarcadores para CRC (un objetivo del proyecto) no hemos

conseguido grandes resultados. Así pues hemos podido observar que aquellos genes

seleccionadosquepudieran representarunpatrónen formadeLenel set general y así

comolaseleccióndegenesobtenidosmediantemineríadedatosnoaparecenrelaciones

entre si. Sin embargo, la implementación de este método sobre otros estudios mas

depurados podría arrojarmejores resultados y sugiere que existe un sesgo en el set de

datosutilizado.Aunqueútilpara la implementacióndelmétodocomopaso inicial,pero

presenta demasiado ruido en la detección potencial de biomarcadores, asumiendo el

mismosesgobiológicoalrespectodelametilaciónylaexpresión.

Enconclusión,esteestudiohacumplidoconlosobjetivospropuestosaprincipiodelplan

de trabajo, así como al cumplimiento de los diferentes puntos de control planteados

durante el mismo. De los dos grandes tareas, en la primera la detección de genes ha

permitido la implementación de un método cambiando el enfoque directamente a la

representacióndelacorrelación,asícomolageneracióndedossetsdedatosquehafalta

de depurarse más podrían utilizarse para futuras investigaciones. La segunda tarea ha

permitidolageneracióndeuna aplicaciónshinymodularquepermitaañadirotrostipos

de análisis a la misma para su correcto uso por investigadores que no tengan

conocimiento de programación para la detección de diferentes tipos de patrones de

correlación.


18

4.Glosario• SVM:SuportVectorMachine,algoritmodemachinelearningutilizadocomo

modelodecajanegraquesebasaenrepresentacióndeunhiperplanode

lascaracterísticasysucorrectaseparación

• CRC:ColonrectalCancer,untipodecánceragresivodecolon.

• R: Programming languageR , lenguajedeprogramaciónestadístico.Tiene

suorigenellenguajedeprogramaciónS.

• Bioconductor:RepositoriodepaquetesRparaelanálisisbiológico

• Scagnostics[4]:Algoritmodedefinicióndelosparámetrosparadefinirun

scatterplot

• Metilación:Procesodeadicióndeungrupometilosobreunacitosinaenel

genoma.Setratadeunprocesoderegulaciónepigenético.

• ExpresiónGénica:Valordeexpresióndeungenenelgenoma.Estafluctúa

ycambiaenfuncióndelaactividaddelacélula.

• Gene Ontology: Ontología de términos biológicos. En este estudio se ha

utilizadoladeprocesosbiológicos(BP),perootraspodríandefinirlocomola

localizacióndeloscomponentesolafunciónmolecular

• GEO:GeneExpressionOnmybunus:RepositoriomantenidoporelNCBIen

EEUUenelquesepuedenencontrardiversossetsdepublicaciones

• Shinny: Librería de R que permite el diseño y la implementación de

aplicacioneswebutilizandoellenguajedeprogramaciónR

• Biomarcador:Molécula/genque sirve como indicadordeuna situacióno

condicióncomoeselcasodeunaenfermedad.


19

5.Bibliografía[1] Yamazaki J, Jelinek J, Lu Y, Cesaroni M, Madzo J, Neumann F, He R, Taby R,

VasanthakumarA,MacraeT,OstlerKR,KantarjianHM,LiangS, EstecioMR,Godley LA,

Issa JP. TET2 Mutations Affect Non-CpG Island DNA Methylation at Enhancers and

Transcription Factor-Binding Sites in Chronic Myelomonocytic Leukemia. Cancer Res.

2015Jul15;75(14):2833-43.

[2]Wang,K.-S. IntegrativeAnalysisofGenome-wideExpressionandMethylationData. J.

Biom.Biostat.4,(2013).

[3] Sarah Bazzocco, Ha d Alazzouzi, M. Carme Ruiz de Villa, Alex Sanchez-Pla, John M.

Mariadason, Diego Arango (2013) Genome-Wide Analysis of DNA Methylation in

ColorectalCancer.Submitted.

[4] JW Tukey, Tukey PA: Computer graphics and exploratory data analysis: An

introduction . In:NationalComputerGraphicsAssociation(ed.):Proceedingsof theSixth

AnnualConferenceandExposition:ComputerGraphics85.III.Fairfax,VA.1985.

[5]Scagnostics[4]WikipediaPage:https://de.wikipedia.org/wiki/Scagnostics[4]

[6]Data-Miningcoremineaplication.http://www.coremine.com/

[7] R Core Team (2016). R: A language and environment for statistical computing. R

FoundationforStatisticalComputing,Vienna,Austria.URLhttps://www.R-project.org/.

[8]MariaL.RizzoandGaborJ.Szekely(2016).energy:E-Statistics:MultivariateInference

via the Energy of Data. R package version 1.7-0. https://CRAN.R-

project.org/package=energy

[9]JeanHausserandKorbinianStrimmer(2014).entropy:EstimationofEntropy,Mutual

Information and Related Quantities. R package version 1.2.1. https://CRAN.R-

project.org/package=entropy


20

[10] Patrick E. Meyer (2014). infotheo: Information-Theoretic Measures. R package

version1.2.0.https://CRAN.R-project.org/package=infotheo

[11]GEO:https://www.ncbi.nlm.nih.gov/geo/

[12] R Development Core Team (2005). R: A language and environment for statisticalcomputing,referenceindexversion2.14.0.RFoundationforStatisticalComputing,Vienna,Austria.ISBN3-900051-07-0,http://www.R-project.org[13] Davis S and Meltzer P (2007). “GEOquery: a bridge between the Gene ExpressionOmnibus(GEO)andBioConductor.”Bioinformatics,14,pp.1846–1847.

[14] Fearon,E.R.&Vogelstein,B.Ageneticmodel forcolorectal tumorigenesis.Cell61,

759–767(1990).


21

6.Anexos• TabladegenesconimportanciaenCáncer(gene.target.csv)

• TablaconlossetdedatosdeCáncerColonrectal(geo.id.colon-cancer.txt)

• Códigoen.Rconlasfuncionesdelanálisis(TFM_analysis.R)

• AplicaciónShinnyenunarchivoComprimido(ScagnosticsShinny.zip)

integrative analysis of methylation and expression...

Documents