integrative analysis of methylation and expression...
TRANSCRIPT
IntegrativeAnalysisofMethylationand
ExpressionData
JuanCarlosCompanyMasterenBioestadísticayBioinformática
ÁreadeEstadísticayBioinformática
AlexandreSánchezPla
26diciembre2016
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
Esta obra está sujeta a una licencia de
Reconocimiento-NoComercial-SinObraDerivada
3.0EspañadeCreativeCommons
lectual.
i
FICHADELTRABAJOFINAL
Títulodeltrabajo:Integrative analysis of methylation and
Expressiondata
Nombredelautor: JuanCarlosCompany
Nombredelconsultor/a: AlexSánchezPla
NombredelPRA: AlexSánchezPla
Fechadeentrega(mm/aaaa): 12/2016
Titulación: MasterenBioestadísticayBioinformática
ÁreadelTrabajoFinal: EstadísticayBioinformática
Idiomadeltrabajo: Castellano
Palabrasclave Metilación,Expresión,L-pattern
Resumen del Trabajo (máximo 250 palabras): Con la finalidad, contexto de
aplicación,metodología,resultadosiconclusionesdeltrabajo.
LametilacióndelDNAesunmecanismoepigenéticodirectamenterelacionadoconlaregulación
génica,asociadoalsilenciamientogénico.Estétipoderegulaciónesespecialmenteimportanteenel
desarrollooendeterminadasenfermedadescomocáncer.Enconcretosehaobservadoquela
gananciademetilaciónestárelacionadaconlaregulaciónenCáncerdecolón(CRC).Asípues,el
aumentodelametilaciónyladisminucióndelaexpresiónformanunpatrónenformadeLal
representarlosvaloresenunscatterplot.Enesteproyectobuscamosdeterminarladetecciónde
genespotencialesenCRCenbasealanálisisdeestosgráficosyalaclasificaciónenbaseaeste
patrón.Paraello,utilizaremosunconceptonuevoperopocoexplotadoscagnostics[4]ylo
compararemosconestudiospreviossimilaresmediantelageneracióndenuevossetdedatosde
GeneExpressionOmnibus(GEO).Comoresultadodeestetrabajohemosobtenidola
implementacióndeunnuevométodoenladeteccióndepatronesenL,mediantediferentes
funcionesyalgoritmosdeclasificaciónbasadosenSVMqueseráincorporadoaunaaplicaciónde
análisisbasadaenlaplataformaShinny.
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
ii
Abstract(inEnglish,250wordsorless):
DNAmethnylation is an epigeneticmecanism relatedwith gene regulation. This
type of genomic regulation is specially important in development or in some
diseases such as Cancer. In particular, it has been observed an increase in the
methylationlevelsrelatedwiththeetiologyofColorectalCancer(CRC).Therisein
the methylation levels followed by a decrease of the expression creates a L-
patterninthescatterplotwhenthosevaluesarerepresentedpergene.Ourstudy
is focus on the analysis of this pattern by the scagnostics[4].We compared our
findings with previous studies by using same datasets as well as increase the
numberofdatasetsrelatedwithCRCseachingattheGEOdatabase.
Asaresultofthiswork,wehaveimplementedanewapplicationtothedetecction
of biomarkes in CRC based on SVM and the scagnostic concept whichmethods
wereaddedtoashinnybasedapp.Additionaltothisproject,wehaveintroduced
newfunctionalitiesthatwillhelptheusertohavemorefreedominanalysestheir
data.
iii
Índice
1.Introducción.........................................................................................................................................1
1.1ContextoyjustificacióndelTrabajo....................................................................................1
1.2ObjetivosdelTrabajo.................................................................................................................2
1.3Enfoqueymétodoseguido......................................................................................................3
1.4PlanificacióndelTrabajo..........................................................................................................5
1.5Brevesumariodeproductosobtenidos............................................................................5
1.6Brevedescripcióndelosotroscapítulosdelamemoria............................................5
2.Restodecapítulos..............................................................................................................................7
3.Conclusiones.....................................................................................................................................16
4.Glosario................................................................................................................................................18
5.Bibliografía.........................................................................................................................................19
6.Anexos..................................................................................................................................................21
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
iv
Listadefiguras
• Fig1:Diagramadelplandetrabajo
• Tabla1:Tablalosdata-setspúblicosanotados.
• Tabla2:Tablalosvaloresdescagnostics[4]paraelsetartificial
• Fig2:ScatterplotGREM1
• Fig3:Capturadepantallaaplicación,Subirlosdatos.
• Fig4:Capturadepantaaplicación,Utilizarlafunción.
1
1.Introducción1.1ContextoyjustificacióndelTrabajo
Lametilación del DNA constituye unmecanismo epigénico importante en la regulación
génica[1]. Se tratabásicamentede la adicióndeungrupometil sobre la citosinas enel
genoma.Generalmente,estasbasesmetiladasestánasociadasazonasenriquecidasenes
uncontextoCpG llamadas islasdeCpG. Laganancia seconsiderahipermetilaciónyuna
perdida Hypometilación. Ambos procesos son independientes (diferentes maquinarias
enzimáticas)yocurrenendiferentessituacionesenelgenoma.Deestamanera,cuandola
metilación del DNA ocurre en las regiones promotoras se produce una irrupción de la
transcripción y como consecuencia un silenciamiento del gen. Este mecanismo tiene
conocida importanciaeneldesarrollooen ladiferenciacióncelular, peroademásseha
vistoquedirectamenterelacionadoenenfermedadeshumanascomoelCáncer[1].
Por lo tanto,unagananciademetilaciónsepuede traducirenunapérdidadeexpresión
(nosiempretienequeserasí)ycuandoseinterpretaestepatrónenugraficoenconjunto
de lametilación, formaunpatrónen formadeL característico[2]. Ladeteccióndeestos
patronesnoessencilladebidoaquelametilación,aunsiendounprocesoestable,ocurre
condiferentes intensidada lo largodel genomayde la islaCpG ( shelve, shore, island).
EstesesgopuedevolverseimportantecuandoseutilizantécnicasdeHigh-Throughputdan
valorespordiferentesposicionesdelgen.Ademásestetipodeanálisisescrucialcuandoel
análisisimplicalabúsquedadegenespotencialmentereguladosenenfermedadescomoel
CáncerColonrectal(CRC).
Nuestro estudio se basa en la detección de patrones en forma de L para genes
hipermetilados que potencialmente regulen los procesos en CRC. Para el estudio del
patrónutilizaremoselconceptodescagnostics[4]y locompararemosconotrosestudios
previos[3]. Este es un concepto en el cual se miden diferentes parámetros de un
scatterplot y permiten determinar la forma y comportamiento a través de valores
numéricos.EsunconceptoantiguopropuestoporloshermanosTukeyenlosaños80[4],
peroquehasidopocoexplotadoenlabibliografíayqueesparticularmenteinteresanteen
elcasoquenosocupa.Estehacediferentesmediciones:Outlying,Skewed,Convex,Skinny,
Stringy, clumpy, sparse, striated,monotonic (mantendremos los términosen ingléspara
mantener la coherencia para la lectura del código). De los cuales, losmás importantes
paralaformasonConvex,Skinny,Stringy[5]
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
2
En nuestro trabajo primero generaremos un set de análisis de datos de Cáncer (en
concretoCRC)apartirdediferentessetsdedatospúblicosdeGEO.Esteconjuntonotiene
por que excesivamente coherente para su estudio , ej.mismo tipo celular , ya que nos
servirá principalmente para poder implementar el método. Otros datos más curados,
seránutilizadosalfinalparaladeteccióndegenesconcáncerdecolonenunsetdedatos
comparativo de expresión y metilación relacionados por el valor del gen. Para poder
integrar todos estos datos utilizaremos el paquete de scagnostics [4], además de otros
previamenteutilizadosparaelaborarunanálisisexhaustivodelosresultadosmediantela
utilización de SVM y un set de genes con importancia en cáncer obtenido mediante
técnicasdedata-mining[6].
Porúltimo,comoresultadodeesteestudio,definiremosunosvaloresdeformayunaserie
de funciones que iremos añadiendo gradualmente como un nuevo modulo en una
aplicaciónshinny ,mejorandoenelprocesoalgunas funcionalidadesdelmismo,hastael
tiempoqueeltrabajofinaldemasterpermita.
1.2ObjetivosdelTrabajo
El objetivo final del este trabajo es la implementación demétodos para la detección de
Biomarcadores en CRG (o en otro tipo de cáncer que pueda ser relacionado con la
metilación) en base al estudio de los diferentes parámetros que ofrecen una serie de
estadísticos de correlación. Este trabajo, es un trabajo heredado, pero único en la
implementacióndel conceptode scagnostics[4] [4]mediante el análisis de sets de datos
artificiales, la clasificación de los métodos por machine learning y la comparación con
estudios previos de data-sets públicos. Para ello el trabajo se divide en los siguientes
objetivos:
- Mineríadedatos
• ObtenerunalistadegenesconrelevanciaenCRCmediantedata-mining
• Obtenerunsetdedatosdecáncerdecolonparalametilaciónyexpresión.
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
3
- Implementacióntécnica
• Implementación de funciones que permitan descargar y anotar datos
directamentedesdeGEO.
• Implementar funciones introducir estos sets de datos en el análisis de
scagnostics[4]ypoderserevaluados.
• Implementar funciones de reconocimiento de patrones para su clasificación
medianteSVM
• Implementación funciones de análisis comparación sets de datos y
enriquecimientodetérminosGO.
• Implementación de los métodos en una aplicación Shinny con una interfaz
user-friendly
- Análisisdedatos
• BúsquedadeparámetrosparadetectarL-shapemedianteeldesarrollodeuna
función
• Análisisdelosdatosenbasesamétodosprevios:mutualinformation,splines,
correlation,distcorrelation.
• Clasificación de los datos en base al L-shape y su relación con el set de
relevanciaenCRC.
1.3Enfoqueymétodoseguido
Elenfoquedeestetrabajofueladivisióndeltiempoenbasedelosdiferentesapartados
descritosenelapartadoanterioryenbasearecomendacionesdelcoordinadordel
proyectoconreunioneseventualessobreladireccionalidaddelproceso.Debidoaestetipo
deenfoquedetomadedecisión,sobretodoenlasprimeraspartesdegeneracióndelos
sets,comoseindicóenelresultadosobreelobjetivofinalpuedevariaryrequerirdemás
tiempodeanálisis.Sinembargo,debidoaqueesteenfoqueesmodularycentradoenla
biologíaylaimplementacióndemétodos,permiteaunenelsupuestodenecesidaddemás
tiempoporerroresodificultadesenlaimplementaciónlaobtencióncomoresultadode
unaaplicaciónreutilizablesenotrosestudios.
Nuestroprimerpuntodetrabajo,fuelaobtencióndelossetsdedatosdemaneramanual
mediantelabúsquedadedatosdeexpresiónymetilaciónenlasbasesdedatosGEO.Al
mismotiempoquelaobtencióndediferentesgenesrelacionadosencáncermediante
mineríadedatos[6]
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
4
Elsiguientepaso,seríalaimplementacióndemétodosdeanálisisdepreviosmediantela
instalacióneimplementacióndelospaquetesparaMutualInformation,DistCor,Splinesy
Scagnostics[4].Además,conlafilosofíademantenerelsistemalomásautomatizado
posible,lacreacióndefuncionesdeanálisisydescargacomoporejemploladesarrollada
paralaobtencióndelosdatosanotadosapartirdeunGEOID.Ademásdediversas
herramientasauxiliares,comolacombinacióndelasdiferentesposiciones(sondasenun
array)bajoelmismogenoidentificador,larepresentacióndelosvaloresde
expresión/metilaciónenunscatterplotofuncionesdeclasificaciónofiltrado
Paracomprobarelefectodelosparámetrosestudiadosmediantescagnostics[4]y
comprobarasísipresentaunaformadeL-shapeseplanteandosestrategias:
1) UtilizacióndeunalistafiabledegenesenformadeL.Necesariamentevalidados
experimentalmente.
2) Implementaciónde“datosartificiales“quepermitandeterminarlosvaloresdelos
parámetrosdescagnosticparasetscorrelacionados.
Dadoquenofueposibleencontrarunalistalosuficientementeextensayfiablequecumpla
lascaracterísticasdelaprimeraopción,seutilizarálasegundaopción.Paraello
generaremosunafunciónquepermiteenbaseaunnúmerodado(4..10,..100)la
generaciónaleatoriadedatosparasuinterpretaciónmediantescagnostics[4].Estos
valoresnosserviránmástardecomovaloresdefaultenlafuncióndeevaluacióndela
formadelacorrelaciónexpresión/metilación,asícomoenlaaplicaciónshinny.
Elúltimopasoseráelanálisisdelosgenesdelsetdedatospúblicos.Primero,obtenemos
losvaloresdeshapedetodoslosgenespresentenenlossetsmediantelosdiferentes
métodos.Utilizandolosvaloresdefaultdeestepatrónylacombinacióndelosmismos
entrediferentesmétodosparadeterminaraquellosquepresentenL-shape,
implementaremosunaclasificaciónmedianteunalgoritmodeSVM(paquetecaret)
Comoresultadofinalseimplementarálafuncióndedeteccióndescagnostics[4],consus
valoresdefault,comounanuevafunciónindependiente(newtab)deunpaqueteprevio
conotroselementosparaelanálisisdeL-shape.
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
5
1.4PlanificacióndelTrabajo
Eltrabajosedivideendospuntosbásicoscomosedescribeenlafiguradebajoysehaido
explicandodurantelamemoria.Enelprimerolaevaluacióndeestosmétodosservirá
comoobjetivoparaladeteccióndebiomarcadoresenCRCyelsegundolaimplementación
delasfuncionesqueseanposibles(seguroladetecciónporscagnostic)enunaaplicación
shinny.
Fig1:Plandetrabajodesarrolladoalprincipiodelproyecto.Empiezaeldía11.10yacabael26.12
1.5Brevesumariodeproductosobtenidos
• SetdedatosdegenesconimportanciabiológicaenCRCobtenidospordata-mining
• SetdedatospúblicosdeCRCdelapáginadeGEO
• Valoresdefaultparalosmétodosdescagnostics[4]enladeteccióndeunpatrónen
formadeL
• FunciónShinnyconelmódulodescagnostics[4]añadido.
1.6Brevedescripcióndelosotroscapítulosdelamemoria
En el punto 2 de esta memoria se explicará los diferente apartados, procedimientos y
funciones utilizadas durante el desarrollo de este trabajo. Como resultado final se
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
6
implementará la función de detección de scagnostics[4] como una nueva función a un
paqueteprevioconotroselementosdeanálisisdeL-shapeademásderealizarunestudio
paraladeteccióndebiomarcadoresenCRC.
Este punto se divide en estos dos capítulos básicos: Análisis y el desarrollo de la
Aplicación.Enelprimeroconstadeunprimerpaso introducciónyderecopilaciónde la
informaciónpúblicadisponibleparaladeteccióndebiomarcadoresmediantedata-mining.
A continuación le seguirá un paso de análisis de los datos, el cual se describirá el
desarrollodediversasfuncionespararealizarelanálisisylaimplantacióndelasmismas
en el set de datos previamente descargado. Por último en este punto, se explicará los
procedimientosutilizadosparaelanálisiseinterpretaciónderesultados.
Elúltimopuntodelamemoriaestádedicaalaexplicacióndelautilizacióndelaaplicación
shinny.
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
7
2.Restodecapítulos
1. IdentificacióndeBiomarcadoresenCáncerColonrectal.
Introducción Elobjetivoprincipaldeestetrabajo,eslacontinuacióndeestudiospreviosenladetección
depatrones identificablesycorrelacionadlespara ladeteccióndegenescon importancia
encáncercolonrectal.Aunquehaymuchascapasderegulacióngénicayepigéneticaenel
genomaquepuedendefinireldesarrollodeunaenfermedad,esteestudiosehafocalizado
en aquellos genes regulados por metilación y en concreto en el patrón en forma de L
característicoquepresentanencuantoestánreguladosporhipermetilación(gananciade
metilación). Otras aproximaciones previas [1] a esta han sido llevado a cabo en la
búsquedaeinterpretacióndelacorrelaciónentrelaexpresiónymetilación,perosiempre
se han basado en un enfoque de la cuantificación de la correlación como valor para la
detección del patrón entre los valores. En nuestro caso este enfoque varía y nos
centrarnos en la relación que tienen todos los puntos entre si de un conjunto sobre un
plano.
Unaventajade estemétodode estudio al respectode los anteriores, esque la relación
entre patrones entre unamarca epigenética y la expressión como consecuencia de una
regulación es extrapolable a otros capas o eventos en el genoma. De estamanera, este
estudio podría aportar un nuevo punto de vista en tanto en cuanto incremente las
opcionesdetecciónadicionalesalenfoquetradicional.
Para cumplir este objetivo nos basaremos en estudios previos y en la comparación de
diversos métodos en concreto Splines, DistCor y Mutual information del concepto de
scagnostics[4].Estesecomponede10valoresmedidosapartirdelarepresentacióndelos
puntosenunplanoypermiteladeteccióndediferentescaracterísticas,comolaforma,la
dispersión el sesgo al respecto del en el eje entre otros. Además, complementaremos
estos métodos con la implementación de funciones que calculen métodos previos
descritosutilizaremoslospaquetesdeRsplines[7],energy[8],entropy[9], infotheo[10].
Todosestas funcionesrequierendedosvectoresquesecorresponderíancon losvalores
deexpresiónymetilación.
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
8
DataMining
Setsdedatosconimportanciaencáncer
Laimplementacióndelosmétodosdedetecciónformaráunasegundapartedelproceso.
Enlaprimeranecesitaremosobtenerunalistadedatosparapoderrealizarelestudioque
nosocupayunalistadegenesquenospermitaevaluarsuimportanciabiológica.Paraello
centraremoslabúsquedadeestosdatosentreselementosprincipales:listadegenescon
importanciabiológica,listadedatasetsdeexpresióny/ometilacióndeCRCydatosdeun
estudiopreviodeexpresión-metilación[1]
ObtenemoscomoresultadodelabúsquedadearchivosGEO25setsdedatos,deloscuales
12 corresponden con metilación y 13 corresponden con expresión. De manera manual
añadiremos los identificadoresde labasededatosdeGEO[11]unavezcompletemos la
búsqueda con CRC/Colon rectal/Metilación en el browser. Aun que hemos seguido este
enfoque , al igual que la descarga y anotación las búsquedas en GEO también pueden
implementadas.Estodatosenformato.csv(Nombredelfichero)seañadiráenunformato
fácilmente agregable al entorno de programación R [12] que más se adecua al tipo de
trabajo que vamos a desarrollar en el trabajo fin de master. Como se ha dicho
anteriormente, la importancia de estos sets es el generar un set de datos lo
suficientementeextensoparapoderimplementarlasdiferentesfuncionesdeclasificación,
notantoreducirelsesgobiológico.
AcontinuaciónlaintegracióndeestossetsdedatosenunentornodeRdemaneramanual
aligualquesubúsquedapuedeserlargaypuederetrasarnosellospuntosdeentrega.Por
estarazónyhasugerenciadelcoordinador,enestepuntoseimplementaunafunciónpara
lalectura-descarga-anotacióndeestossetsdedatosgetGEO.anno.Paraello,utilizaremos
elpaquetegeoQuery[13]quepermiteladescargadeaquellosdatosdisponiblesenGEOy
transfórmalos enunamatriz de expresión con los datos yanormalizados.Dado, que los
sets en esta base de datos son diversos y sus plataformas diversas también, la
implementacióndeunmétododeadicionaldenormalizaciónencadacasoescomplicadoy
puede llegar a utilizar el corto tiempo del proyecto. Por este motivo se decide utilizar
directamente las tablas de normalización. Otro elemento de dificultad al respecto de
automatización de la obtención de los datos públicos es la anotación de estos sets de
manera automática omanual. Para ello, se utiliza solamente aquellos sets de datos que
contieneunaplataformaconanotaciónpresenteenbioconductoryquenospermitiráno
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
9
tenerquegenerarunabasededatospornosotrosmismos(otravezporrestricciónenlos
tiempos de entrega). Esto reduce la lista de nuestro set de 25 a 8 data sets: 4 sets de
expresión y 4 de metilación relacionados con cáncer, más los dos estudios adicionales
relacionados con CRC. Aunque resulta un descenso significativo de los sets, el número
elevado sigue cumpliendo nuestro objetivo y nos permitirá añadir una nueva
funcionalidadalaaplicaciónenelfuturo.
Type Description GEOid
EXP ERbetamodulationofNFkBpathwayincoloncancercelllinesSW480and
HT29
GSE65979
EXP Expressiondataateachsiteincoloncancer GSE65480
EXP LATS2regulatedgenesinhumancoloncancercellline GSE51715
EXP Geneexpressionprofilingofhumancoloncancercelllinesstimulatedwith
dsDNA90
GSE75205
METH ImmuneregulationbylowdosesoftheDNAmethyltransferaseinhibitor5-
azacitidineincommonhumanepithelialcancers
GSE57342
METH Coloncancerprofiling GSE2138
METH DNAmethylationdifferencesbetweenmultiplesclerosisandcontrolsin
frontallobewhitematter
GSE40360
METH 5-hydroxymethylcytosinemarkspromotersincolonthatresist
hypermethylationincancer[Methylation450Array]
GSE63421
Tabla1:Tablaconlossetsdedatosunavezfiltradosporanotación.
Búsquedadelistasdegenes
El siguiente punto es la creación de una lista de genes con relevancia en cáncer. La
motivación es tener un set evaluar y si no fuera posible un set de datos que permita
determinar la importancia biológica de nuestro análisis. Para este punto existen dos
estrategias, la primera es la búsqueda de aquellos genes en la bibliografía de manera
manual y la segunda es la utilización de herramientas de datamining [6] Como se ha
dicho anteriormente y con el objetivo de mantener este estudio lo más automatizado
posible , utilizaremos varias herramientas de data-mining que generará una lista de 67
genesconimportanciabiológicaenestecontexto(nombredelfichero.).Porejemploentre
ellosseencontraríaTET2yTP53queparticipanenlosprocesosdemetilación[3]ycáncer
[14].
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
10
Análisisdedatos
FuncióndeprediccióndeL-shape
Una vez completada la parte de data-mining lista de sets de datos, implementamos una
serie de funciones que se basan en la interpretación de los parámetros de resultados.
Dadoquenosfocalizamosenlosparámetrosdescagnostics[4]paradefiniraquellosconL-
patternynoL-shapeelalgoritmodeclasificación,únicamentevaloraremoslosresultados
de estepaquetemientrasque losotrosdiferentesmétodosperono seránanalizados en
profundidad.Paraelprimerpasoserálaimplementacióndeunafunción,shape.param(),
que dado una serie de valores por gen (en realidad comparará dos sets diferentes)
mediantediversastécnicaslasdevolverácomoundataframeconlasdiferentesmedidas
de correlación asociadas. Está función será la que se implemente en la aplicación shiny
más tardepara la interpretaciónde resultados.Aunquenopara laaplicación, sinoque
paraelanálisis,estafuncióntendráasociadasdiversasfuncionesauxiliaresquepermitirán
la integración de los valores de los diferentes sets de datos por gen como la función merge.gene.expMeth() la cual realizará la función recién explicada. Utilizaremos estas
funcionesauxiliaresparaintegrar,evaluaryfiltrarnuestrosdata.sets(10data.sets)dando
como resultado una tabla con todos los valores por gen de los diferentes métodos.
Habiendointegradoenellostodoslossetsdedatos,comoresultadoobtenemosunatabla
con22.000genesdehumanodelaversióndeassemblyhg19conlosdiferentesmétodos
decorrelación.
Sin embargo, para determinar cual es mejor valor de L-pattern implementamos una
función basada en la creación de un set de set de datos en forma de L para diferentes
valores,lshape.diagnostics().Estáutilizarácomoinputunnumerodeterminadodepuntos
en de correlación y utilizando la misma función de detección para los sets de datos
(shape.param()) nos dará una tabla con los valores. Por lo tanto, implementamos esta
funciónparadiversostamañodemuestra(tabla2).Observamosqueconformeañadimos
número de posiciones a comparar, los parámetros de Convexity, Stringy y Skinny que
corresponden a la interpretación de la forma por parte del paquete de scagnostics[4]
varían sustancialmente.Observamosque conun100dedatosobtenemosque skinny se
encuentraenunrangode0.28hasta0.73,convexenunvalorcercanoa0ystringyenun
valorquevadesde0.63,peroqueaumentaaproximándosea1.
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
11
Outlying Skewed Clumpy Sparse Striated Convex Skinny Stringy Monotonic
N=10 0 1 0.01 0.26 0.44 0 1 0.63 0.16
N=20 0 0.71 0.01 0.11 0.74 0.02 0.28 0.83 0.26
N=50 0 0.66 0.01 0.04 0.84 0.00 0.32 0.94 0.39
N=100 0.17 0.76 0.09 0.03 0.92 0.00 0.23 0.97 0.48
N=500 0 0.50 0.02 0.02 0.95 0.00 0.28 0.97 0.47
N=1000 0 0.55 0.03 0.02 0.95 0.00 0.73 0.97 0.46
Tabla2:Tablaconlosvaloresdescagnostics[4]paradiferentestamañosdelsetartificial.
Cuando comparamos con trabajos previos obtenemosque los valores representados se
aproximan,inclusoutilizandosetsdedatosdiferentes,asíutilizandofuncionespreviasse
obtienequeporejemploelgenGREM1presentaunpatrónenformadeL.Trascomprobar
quesitieneunpatrónsimilarennuestros,vemosquelosvaloresdeConvexesde0.018,
valordeSkinnyde0.61yelvalordeStringyde0.72.Observamosqueestosvaloresestán
enelrangoquesehamostradoenlatablaanterior.
Fig2:ScatterplotdelgenGREM1.Alaizquierdalosvaloresdeparaunestudioprevio,aladerecha
larepresentaciónutilizandonuestrosdatos.
Implementacióndeladetecciónenelsetdedatos
Para la detección de los diferentes valores, utilizamos por cada gen todas las sondas
disponiblesporsetdedatosylosagruparemosenunvectorquecontendrálosvaloresde
expresiónymetilación,porseparadoagrupadodecadasondaporgendelamismamanera
X-Meth
Y-Exp
GREM1
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
12
que hemos explicado en el punto anterior. Este un punto crítico, ya que las sondas/las
posicionespuedenpresentarpatronesdistintos.Porestarazónelsetdedatosgrandese
consideraelmásruidoso(esteefectosepuedeobservarenlaimagenanterior),peronos
permitirá gracias a los otros dos sets (menos sesgo) una mejor implementación de,
algoritmo.
Unavezagrupadosenunvector losvaloresdeexpresiónymetilación(porseparado)se
agruparanenunmatrizquecontengacadavalorporgenyporsetdedatos.Aunquemás
computacionalmente intensivo, utilizaremos todos los genes de Humano (org.Hs.eg.db)
parasudetección(25.000posiciones).Deestamanera,evitamosseleccionargenesyver
comoeselinputgeneraleliminandoesteerror.Mástarde,podremosseleccionarenbasea
diferentes parámetros el set y clasificar los genes. Adicionalmente, está funcionalidad
estarámásreducidaparaquesepuedautilizarcorrectamenteaniveldelaaplicaciónweb.
La realización de esta tarea implica técnicas de paralización en R utilizando el paquete
Snowyparallelquenospermitirádisminuireltiempodecomputación.
Evaluacióndelosresultados
Unavezrealizadalapartemáscomplicadaytediosaquees lageneracióndelastablade
datos y valores generada para cada set de datos obtenido. Utilizamos los valores del
paquete scagnostics[4] para evaluar el número de genes con un patrón L-shape y
clasificarlosalrespecto.Dado,quelacombinacióndelosvaloresdescagnostics[4]puede
sermuycomplicada(1010enunrangode0-1) ,necesitamosunmétodoquenospermita
clasificarlosdatosteniendoencuentanosolamenteskiny,convexystringy,sinotodoslos
demásvaloresParaellodecidimosutilizarSVMmedianteelpaquetecaret.Lajustificación
de este paquete, es que es una técnica potente que nos permite la clasificación de los
diferentesvalores.Una limitacióneselusodeunabuensetdedatos,yesaquídondees
importante lacreaciónpreviadelsetdedatosgrande. Deestámanera introducimos las
funcionesdelaaplicacióndentrodeunafunciónqueademásanalicelossetsdedatosen
basealcambiodelosparámetrosentodoelconjuntodegenes.
Sinembargo,paraelloprimeramentenecesitamosdefiniraquellosquesonL-shape.Dado
que anteriormente hemos definido estos valores “default” para este método para la
detección mediante el análisis de estos parámetros utilizando un set artificial con
diferentesvaloresenelscatterplot.Testaremosprimeroestosvaloresy loharemoscon
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
13
diferentes valores de cross-validation para observar si el precisión, la sensibilidad,
sensibilidad y probando diferentes combinaciones para los 3 elementos que hemos
definidocomoclavesenladeteccióndeL-shape:Skinny,Convex,Stringy.
• Valoresdefaultconmasymenoscrossvalidation:ProbamosvaloresparaSVM
concross-validation2,3,4,10conlosvaloresdefault.Observamosunprecisiónde
~95% y la detección de 199 valores detectados y predichos con L-pattern. Sin
embargo,observamosqueelaumentoonodelacvnocambiaelresultado.
• Valores variados de skinny (CV=3) : Probamos diferentes combinaciones de
Skinny. Dado que el valor de Skinny fluctúa desde 0.2 hasta 0.7 en el default,
calcularemoslacapacidaddeSVMdeclasificarlosdatoscomoLenbaseamenor
0-0.3,alto0.6-1.0yelglobal(sinrestricción)0-1.Observamosquelaprecisiónes
similarentodos losrangos.Sinembargo lasensibilidad, lapredicciónelvalorde
positivos predichos y negativos predichos es mayor en el rango de 0.6-1-0.
Curiosamente, si tenemos en cuenta más factores como correlación, el mutual
information, dist cor o splines, observamos que la sensibilidad y sensibilidad
aumentantambién.Ocurretambiénquecuandodisminuimospordebajodelvalor
de30,lamayoríademuestrasdesaparecen.
Por lo que concluimosque la relajaciónde los parámetros en skinnyhacedifícil
distinguir entre buenos o no buenos resultado. Pero un rango pequeño no lo
mejora.Nosmantendríamoseneldefault.
• Valoresvariados convex (CV=3): Aplicamos elmismo control a los valoresde
convex. En este caso, el default esta cercano al 0 por lo que aumentaremos
gradualmente losvaloreparaobservarsiesteaumentaono(0.1,0.5,0.7).Vemos
que si aumentamosmucho el valor de convex todos los elementos desaparecen.
Porlotantonuestrovalordedatosbajoycercanoa0.1eselcorrecto
• Valores variados stringy (CV=3): Por último, probamos la combinación de
valoresparaStringy.Enestecasovaloresaltosindicabanlaformaenelpatrónde
L. Por lo que mediremos sus valores una vez disminuyamos. Generaremos
diferentesresultados
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
14
Conclusiones que la variación de los parámetros de shape en scagnostics[4] : Stringy,
convexyskinnydisminuyenladeteccióndegenesconestetipodepatrón.Unamanerade
comprobar este efecto es añadir información biológica a esta comparación. Para ello,
utilizaremos el set de genes con importancia biológica generados por tools data-mining
paraverlacorrelaciónconlosvalores.
Unavezcruzadoslosdatosdelasdiferentesobservacionesanteriores,comprobamosque
aun que con importancia biológica en cáncer, este tipo de genes para no estar muy
correlacionadoenformadeL.Estetipoderesultadopuedeseresperadopordosrazones:
La primera es el sesgo inherente a la integración de diferentes sets de datos para su
comparativa sobretodo en los datos de expresión (correlación mínima de -0.5) y la
detección y la segunda la propia biología de la metilación. Como se ha dicho en la
introducción, la hipermetilación se caracteriza por un silenciamiento génico, esto se
traduceenmasmetilaciónymenosexpresión.Sinembargo,losnivelesdemetilaciónvaria
en las diferentes puntos de la isla de CpG, por lo que esta variabilidad también podría
explicarquenosedetectaranestosgenes.
Otra manera de detectar la importancia biológica de estos genes es la utilización de
categorías funcionales y su enriquecimiento en los diferentes sets. Por lo que
implementamosuna función (go.enrichment()) quepermita evaluar estas categorías. Sin
embargo, para set de genes tan pequeño como el obtenido por los datos default no
presentaenriquecimientosuficienteparaquesupereelthreshold(0.05)
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
15
2. Implementarlafunciónenunaaplicaciónweb.Diseño
Utilizamosuna aplicaciónprevia comoestructurabasepara la introduccióndedatosde
expresiónymetilacióndirectamentedesdeunfichero.
Fig3:Capturadepantalladelaintroduccióndesetsdedatosalaaplicación.
Estosdatos son leídosyanalizadosmediante la funcióndeshape.param().Ademásse le
hanañadidodiversasfuncionalidadquepermitiránalusuariomodificarlascaracterísticas
de scagnostics[4] que definen la forma. Almodificar estas características obtendremos
unalistadegenesdiferentesquepodremosdescargar,asícomoobservarelpatróndeun
genquequeramosenlalistamediantelaintroduccióndesuidenelcuadro
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
16
Implementacionesfuturas
Comoseha idodescribiendoa lo largode lamemoria,diversas funcionesquepermiten
evaluarlaformadelosscatterplotalmismotiempoquepermitedeterminarlacorrelación
entre dos diferentes sets de datos han sido introducidas en la aplicación shiny. Sin
embargo, otras por problemas con el tiempo no han podido ser correctamente
implementadasparael finaldelproyecto. Apesardequesehancumplido losobjetivos
propuestosenelplandetrabajo,unfuturodeimplementacióndeestasfuncionesseríala
descarga directa de los datos de GEO, el análisis mediante limma de las matrices
normalizadas,laimplementacióndelaprediccióndeelementosL-shapeenbasealusode
SVMpodríanserintroducidas.
3.Conclusiones Aunqueesciertoqueestemétodoporsisolonopodríaarrojarunresultadosegurosobre
laimportantedelaregulaciónsobrelaregulacióndesuexpresión,Medianteestetrabajo
hemos comprobado que el método del estudio de las correlaciones entre expresión y
metilaciónimplementandoscagnostics[4]generaunosbuenosresultados.Estohaquedado
retratadocomohemospodidovalorenlacomparaciónconotrosmétodosylaobservación
deelementosindividuales.
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
17
La ventaja de este método sobre otros, es que no solamente permite determinar la
interacciónenformadepatrónLalrespectodedosvalores.Sinoquepermiteextrapolar
este tipodeestudiosaotrasrelacionesy formas. Enconcreto,elhechode implementar
una función de creación de elementos individuales y la combinación con otrosmétodos
parasuclasificaciónutilizandoSVMpermiteobtenerbuenosresultadosconunaprecisión
muyalta.
Adicionalaesteestudio,sehanimplementadounaaplicaciónshinnyquerecogeestetipo
deanálisisyquepermitiríaconeltiempolaadicióndemayoresfuncionalidades,quepor
restriccióndetiempoeneldesarrollodeltrabajohasidoimposibleserplanificadas.
Aun que el nivel técnico del trabajo podemos considerar que se ha implementado un
nuevométodo gracias a la combinación artifical set – scagnostics[4] – SVM., al nivel de
detección de genes biomarcadores para CRC (un objetivo del proyecto) no hemos
conseguido grandes resultados. Así pues hemos podido observar que aquellos genes
seleccionadosquepudieran representarunpatrónen formadeLenel set general y así
comolaseleccióndegenesobtenidosmediantemineríadedatosnoaparecenrelaciones
entre si. Sin embargo, la implementación de este método sobre otros estudios mas
depurados podría arrojarmejores resultados y sugiere que existe un sesgo en el set de
datosutilizado.Aunqueútilpara la implementacióndelmétodocomopaso inicial,pero
presenta demasiado ruido en la detección potencial de biomarcadores, asumiendo el
mismosesgobiológicoalrespectodelametilaciónylaexpresión.
Enconclusión,esteestudiohacumplidoconlosobjetivospropuestosaprincipiodelplan
de trabajo, así como al cumplimiento de los diferentes puntos de control planteados
durante el mismo. De los dos grandes tareas, en la primera la detección de genes ha
permitido la implementación de un método cambiando el enfoque directamente a la
representacióndelacorrelación,asícomolageneracióndedossetsdedatosquehafalta
de depurarse más podrían utilizarse para futuras investigaciones. La segunda tarea ha
permitidolageneracióndeuna aplicaciónshinymodularquepermitaañadirotrostipos
de análisis a la misma para su correcto uso por investigadores que no tengan
conocimiento de programación para la detección de diferentes tipos de patrones de
correlación.
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
18
4.Glosario• SVM:SuportVectorMachine,algoritmodemachinelearningutilizadocomo
modelodecajanegraquesebasaenrepresentacióndeunhiperplanode
lascaracterísticasysucorrectaseparación
• CRC:ColonrectalCancer,untipodecánceragresivodecolon.
• R: Programming languageR , lenguajedeprogramaciónestadístico.Tiene
suorigenellenguajedeprogramaciónS.
• Bioconductor:RepositoriodepaquetesRparaelanálisisbiológico
• Scagnostics[4]:Algoritmodedefinicióndelosparámetrosparadefinirun
scatterplot
• Metilación:Procesodeadicióndeungrupometilosobreunacitosinaenel
genoma.Setratadeunprocesoderegulaciónepigenético.
• ExpresiónGénica:Valordeexpresióndeungenenelgenoma.Estafluctúa
ycambiaenfuncióndelaactividaddelacélula.
• Gene Ontology: Ontología de términos biológicos. En este estudio se ha
utilizadoladeprocesosbiológicos(BP),perootraspodríandefinirlocomola
localizacióndeloscomponentesolafunciónmolecular
• GEO:GeneExpressionOnmybunus:RepositoriomantenidoporelNCBIen
EEUUenelquesepuedenencontrardiversossetsdepublicaciones
• Shinny: Librería de R que permite el diseño y la implementación de
aplicacioneswebutilizandoellenguajedeprogramaciónR
• Biomarcador:Molécula/genque sirve como indicadordeuna situacióno
condicióncomoeselcasodeunaenfermedad.
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
19
5.Bibliografía[1] Yamazaki J, Jelinek J, Lu Y, Cesaroni M, Madzo J, Neumann F, He R, Taby R,
VasanthakumarA,MacraeT,OstlerKR,KantarjianHM,LiangS, EstecioMR,Godley LA,
Issa JP. TET2 Mutations Affect Non-CpG Island DNA Methylation at Enhancers and
Transcription Factor-Binding Sites in Chronic Myelomonocytic Leukemia. Cancer Res.
2015Jul15;75(14):2833-43.
[2]Wang,K.-S. IntegrativeAnalysisofGenome-wideExpressionandMethylationData. J.
Biom.Biostat.4,(2013).
[3] Sarah Bazzocco, Ha d Alazzouzi, M. Carme Ruiz de Villa, Alex Sanchez-Pla, John M.
Mariadason, Diego Arango (2013) Genome-Wide Analysis of DNA Methylation in
ColorectalCancer.Submitted.
[4] JW Tukey, Tukey PA: Computer graphics and exploratory data analysis: An
introduction . In:NationalComputerGraphicsAssociation(ed.):Proceedingsof theSixth
AnnualConferenceandExposition:ComputerGraphics85.III.Fairfax,VA.1985.
[5]Scagnostics[4]WikipediaPage:https://de.wikipedia.org/wiki/Scagnostics[4]
[6]Data-Miningcoremineaplication.http://www.coremine.com/
[7] R Core Team (2016). R: A language and environment for statistical computing. R
FoundationforStatisticalComputing,Vienna,Austria.URLhttps://www.R-project.org/.
[8]MariaL.RizzoandGaborJ.Szekely(2016).energy:E-Statistics:MultivariateInference
via the Energy of Data. R package version 1.7-0. https://CRAN.R-
project.org/package=energy
[9]JeanHausserandKorbinianStrimmer(2014).entropy:EstimationofEntropy,Mutual
Information and Related Quantities. R package version 1.2.1. https://CRAN.R-
project.org/package=entropy
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
20
[10] Patrick E. Meyer (2014). infotheo: Information-Theoretic Measures. R package
version1.2.0.https://CRAN.R-project.org/package=infotheo
[11]GEO:https://www.ncbi.nlm.nih.gov/geo/
[12] R Development Core Team (2005). R: A language and environment for statisticalcomputing,referenceindexversion2.14.0.RFoundationforStatisticalComputing,Vienna,Austria.ISBN3-900051-07-0,http://www.R-project.org[13] Davis S and Meltzer P (2007). “GEOquery: a bridge between the Gene ExpressionOmnibus(GEO)andBioConductor.”Bioinformatics,14,pp.1846–1847.
[14] Fearon,E.R.&Vogelstein,B.Ageneticmodel forcolorectal tumorigenesis.Cell61,
759–767(1990).
J .Car los Company – Integrat ive ana lys is of methy lat ion and Express ion data
21
6.Anexos• TabladegenesconimportanciaenCáncer(gene.target.csv)
• TablaconlossetdedatosdeCáncerColonrectal(geo.id.colon-cancer.txt)
• Códigoen.Rconlasfuncionesdelanálisis(TFM_analysis.R)
• AplicaciónShinnyenunarchivoComprimido(ScagnosticsShinny.zip)