algoritmo genetico para la exploraci´ on y an´ alisis de...

7
1 Algoritmo gen´ etico para la exploraci´ on y an´ alisis de aminas digitales de histopatolog´ ıa, basado en redes neuronales convolucionales. Genetic Algorithm for the exploration and analysis of digital films histopathology, based on convolutional neural network. Mateo Puerto, Tania Vargas, ´ Angel Cruz Roa, Member, IEEE, {mateo.puerto, tania.vargas, aacruz}@unillanos.edu.co Grupo de investigaci´ on GITECX , Universidad de los llanos Abstract—Cancer is one of the leading causes of deaths worldwide, especially in developing countries because the rates of early diagnosis of cancer are low because of the few specialists in pathology are located in major cities of the country and do not have automatic analysis tools that allow them to streamline their diagnosis. This article presents an application design of automatic method based on a genetic algorithm for exploration and exploitation of interest regions for diagnosis of breast cancer in whole slide images of histopathology in combination with a Convolutional Neural Network (CNN). Index Terms—Adaptive Sampling, Convolutional Neural Net- work, Digital pathology, Genetic Algorithm, Whole-Slide Imag- ing. I. I NTRODUCCI ´ ON E L c´ ancer es una de las principales causas de muerte en el mundo, solo en el 2012 se diagnosticaron 14.1 millones de casos nuevos y 8.2 millones de muertes[11]. En Colombia, durante el periodo del 2007-2011 se pre- sentaron 62.818 casos nuevos de c´ ancer por a˜ no: 29.734 en el hombre y 33.084 en mujeres [14]. El c´ ancer m´ as com´ un entre las mujeres es el c´ ancer de mama[19],[20],[18], que cuenta con una cifra del 12% sobre los casos diagnosticados hasta el 2012. El d´ eficit de pat´ ologos y la alta incidencia del ancer en Colombia, son los principales retos para lograr un diagn´ ostico precoz del c´ ancer [1], esta detecci´ on temprana es importante para llevar a cabo un tratamiento a tiempo, lo que podra producir en un mejor pron´ ostico y as´ ı aumentar el tiempo de vida de los pacientes [9]. Los avances tecnol´ ogicos en los esc´ aneres de l´ aminas virtuales de histopatolog´ ıa han dado lugar a la aparici´ on de la patolog´ ıa digital [17],[3],[4]. La patolog´ ıa digital se ha convertido en un nuevo enfoque para mejorar y apoyar los flujos de trabajo de patolog´ ıa en la cl´ ınica y investigaci´ on para llevar a cabo el an´ alisis y diagn´ ostico de aminas digitalizadas de histopatolog´ ıa [8], [21]. Esto ha dado lugar a un desarrollo creciente de m´ etodos autom´ aticos para el an´ alisis autom´ atico de las WSI [15],[25], que da auge a nuevos retos debido a su alta variabilidad visual. Este trabajo presenta el dise˜ no de un prototipo de patologa digital de un m´ etodo de muestreo para todo el an´ alisis eficiente de im´ agenes de l´ aminas de histopatolog´ ıa, basado en un algoritmo gen´ etico y una red neuronal convolucional. El trabajo se organiza de la siguiente manera: La secci´ on II presenta la metodolog´ ıa del algoritmo gen´ etico y la red neuronal convolucional describiendo el muestreo adaptativo, su proceso y la tecnolog´ ıa utilizada para la aplicaci´ on. En la secci´ on III el diseo experimental donde se describe la medida de rendimiento utilizada, la secci´ on III presenta los resultados experimentales y su discusi´ on. Finalmente, la secci ´ on V concluye las principales conclusiones y los rasgos a mejorar. II. MATERIALES Y ETODOS A. Conjunto de datos de L´ aminas digitalizadas de histopa- tolog´ ıa El conjunto de datos utilizados son l´ aminas virtuales digi- talizadas de histopatolog´ ıa, son casos an´ onimos previamente diagnosticados con alg´ un tipo de c´ ancer de mama invasivo por pat´ ologos expertos. Estas l´ aminas virtuales de histopatolog´ ıa fueron digitalizadas mediante un esc´ aner de l´ aminas en for- mato Aperio .SVS, provenientes de varias fuentes, siendo un total de 418 casos distribuidos de la siguiente manera, 239 casos provenientes de la Universidad de Pensilvania 1 utilizados para el entrenamiento de la red neuronal convolucional [8],[2] ,[7], 167 casos provenientes del proyecto The Cancer Genome Atlas (TCGA 2 ) la cual es una biblioteca de datos de acceso ublico y masivo de datos multimodales (cl´ ınicos, patol´ ogicos, gen´ eticos, etc.) para la investigaci´ on del c´ ancer y 12 casos provenientes del instituto del c´ ancer de New Jersey 3 para el proceso de validaci´ on. 1 http://www.upenn.edu/ 2 http://cancergenome.nih.gov/ 3 http://www.cinj.org/

Upload: vanhanh

Post on 26-Sep-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

1

Algoritmo genetico para la exploracion y analisis delaminas digitales de histopatologıa, basado en redes

neuronales convolucionales.Genetic Algorithm for the exploration and analysis

of digital films histopathology, based onconvolutional neural network.

Mateo Puerto, Tania Vargas, Angel Cruz Roa, Member, IEEE,{mateo.puerto, tania.vargas, aacruz}@unillanos.edu.co

Grupo de investigacion GITECX , Universidad de los llanos

Abstract—Cancer is one of the leading causes of deathsworldwide, especially in developing countries because the ratesof early diagnosis of cancer are low because of the few specialistsin pathology are located in major cities of the country and donot have automatic analysis tools that allow them to streamlinetheir diagnosis. This article presents an application design ofautomatic method based on a genetic algorithm for explorationand exploitation of interest regions for diagnosis of breast cancerin whole slide images of histopathology in combination with aConvolutional Neural Network (CNN).

Index Terms—Adaptive Sampling, Convolutional Neural Net-work, Digital pathology, Genetic Algorithm, Whole-Slide Imag-ing.

I. INTRODUCCION

EL cancer es una de las principales causas de muerte en elmundo, solo en el 2012 se diagnosticaron 14.1 millones

de casos nuevos y 8.2 millones de muertes[11].En Colombia, durante el periodo del 2007-2011 se pre-

sentaron 62.818 casos nuevos de cancer por ano: 29.734 enel hombre y 33.084 en mujeres [14]. El cancer mas comunentre las mujeres es el cancer de mama[19],[20],[18], quecuenta con una cifra del 12% sobre los casos diagnosticadoshasta el 2012. El deficit de patologos y la alta incidencia delcancer en Colombia, son los principales retos para lograr undiagnostico precoz del cancer [1], esta deteccion tempranaes importante para llevar a cabo un tratamiento a tiempo, loque podra producir en un mejor pronostico y ası aumentar eltiempo de vida de los pacientes [9]. Los avances tecnologicosen los escaneres de laminas virtuales de histopatologıa handado lugar a la aparicion de la patologıa digital [17],[3],[4].La patologıa digital se ha convertido en un nuevo enfoque paramejorar y apoyar los flujos de trabajo de patologıa en la clınicay investigacion para llevar a cabo el analisis y diagnostico delaminas digitalizadas de histopatologıa [8], [21]. Esto ha dadolugar a un desarrollo creciente de metodos automaticos para elanalisis automatico de las WSI [15],[25], que da auge a nuevosretos debido a su alta variabilidad visual. Este trabajo presenta

el diseno de un prototipo de patologa digital de un metodo demuestreo para todo el analisis eficiente de imagenes de laminasde histopatologıa, basado en un algoritmo genetico y una redneuronal convolucional. El trabajo se organiza de la siguientemanera: La seccion II presenta la metodologıa del algoritmogenetico y la red neuronal convolucional describiendo elmuestreo adaptativo, su proceso y la tecnologıa utilizada parala aplicacion. En la seccion III el diseo experimental dondese describe la medida de rendimiento utilizada, la seccionIII presenta los resultados experimentales y su discusion.Finalmente, la seccion V concluye las principales conclusionesy los rasgos a mejorar.

II. MATERIALES Y METODOS

A. Conjunto de datos de Laminas digitalizadas de histopa-tologıa

El conjunto de datos utilizados son laminas virtuales digi-talizadas de histopatologıa, son casos anonimos previamentediagnosticados con algun tipo de cancer de mama invasivo porpatologos expertos. Estas laminas virtuales de histopatologıafueron digitalizadas mediante un escaner de laminas en for-mato Aperio .SVS, provenientes de varias fuentes, siendo untotal de 418 casos distribuidos de la siguiente manera, 239casos provenientes de la Universidad de Pensilvania1 utilizadospara el entrenamiento de la red neuronal convolucional [8],[2],[7], 167 casos provenientes del proyecto The Cancer GenomeAtlas (TCGA2) la cual es una biblioteca de datos de accesopublico y masivo de datos multimodales (clınicos, patologicos,geneticos, etc.) para la investigacion del cancer y 12 casosprovenientes del instituto del cancer de New Jersey 3 para elproceso de validacion.

1http://www.upenn.edu/2http://cancergenome.nih.gov/3http://www.cinj.org/

2

B. Algoritmo genetico

Los algoritmos geneticos se basan en la codificacion de lasposibles soluciones denominadas cromosomas [10],[26],[24],las cuales corresponden a muestras aleatorias de la poblacionde estudio representado generalmente por numeros binarios[27],[23]. Cada cromosoma contiene su informacion geneticarepresentada por genes con un numero binario, lo cual permitecaracterizar y distinguir cada cromosoma (solucion) indepen-dientemente. De esta forma, la analogıa biologica incluyelos operadores de cruce y mutacion [23], apegandose a lafuncion evolutiva que se busca optimizar, usualmente llamadafuncion fitness, la cual es la que se busca bien sea minimizaro maximizar [24],[28].

1) Lectura laminas virtuales de histopatologıa: Lasimagenes digitales son obtenidas mediante los procesos de lareciente area de patologıa digital, que consiste en la digital-izacion de las laminas de histopatologıa mediante escaneresespecializados [4]. Las WSI son imagenes de alta resolucion(80.000x80.000 px) con una magnificacion de hasta 40x[21].Para la lectura de las laminas digitalizadas se usa OpenSlideuna libreria escrita en C que permite abrir las imagenesque estan en formato .svs y .tiff, para integrarlo al clientedesarrollado en Java se utilizo la version de OpenSlide Javaque mediante Java Native Interface (JNI) se accede a laslibrerıas escritas en lenguaje C.

2) Red neuronal convolucional: La red neuronal convolu-cional se encarga de darle una probabilidad a los cromosomasy ası clasificarlos [29],[5],[16]. La CNN utilizada tiene unatopologıa de red neuronal secuencial. La red neuronal con-volucional como se observa en la Figura 1 consta de 2 capas:1) una capa convolucional y de submuestreo (pooling) y 2)una capa de neuronas totalmente conectadas (fully-connected)y de clasificacion. A la red le ingresan regiones cuadradasde la imagen (parches) de 51x51 pıxeles que son extraıdosa partir de las coordenadas (cromosomas) identificadas por elalgoritmo genetico para ser clasificados por la CNN. La salidaes de dos neuronas de la capa de clasificacion de la CNN[unsupervised feature], este es un valor numerico entre 0 y 1que representa la probabilidad de que el parche pertenezca ala clase de tumor invasivo o a la clase de tejido normal. Lared neuronal convolucional fue entrenada con el conjunto dedatos de la Universidad de Pensilvania

Fig. 1. Arquitectura de la red neuronal convolucional. La CNN entrenada esuna arquitectura de 2 capas tiene 256 neuronas en la capa de convolucion ypooling, 256 neuronas en la capa fullly-connected, con dos salidas en la capade clasificacion (invasivo vs no invasivo). Adaptada de [6]

3) Diseno Algoritmo genetico: El GA se utilizo para elmuestreo adaptativo de pequenos tejidos de imagen de histopa-tologıa de gran escala, las muestras se clasifican por la CNNentre el tejido invasivo o no invasivo de acuerdo un valor deprobabilidad entre 0 y 1. Las principales etapas del algoritmogenetico implementado se ilustra en la Figura 2.

Fig. 2. Flujo algoritmo genetico.Imagen adaptada de [13]

Fase de inicializacion: La fase de inicializacion implica lageneracion de las coordenadas(x,y) aleatoriamente dentro delas dimensiones de la imagen, que es la poblacion inicial decromosomas.

Diseno del cromosoma: En esta fase se disenaron loscromosomas de manera que el material genetico de estossea una representacion binaria de las coordenadas reales dela ubicacion del cromosoma en la imagen digitalizada dehistopatologıa. Las laminas digitalizadas pueden llegar a tenerdimensiones de 80.000 x 80.000 pıxeles por lo que la longituddel cromosoma puede alcanzar hasta 34 dıgitos, donde cadauno de los dıgitos son los genes del cromosoma. La maximalongitud del cromosoma depende de la maxima dimensionde la imagen digitalizada de histopatologıa, es decir, que siuna imagen tiene una resolucion de 65.525 x 50.432 pixeles,la longitud del cromosoma sera de 32 genes (i.e. 16 x 2),dado que para representar el numero 65.525 en binario senecesitan 16 dıgitos y son 2 secciones de material genetico quecomponen el cromosoma, uno de cada coordenada (X,Y ). Encaso de que los cromosomas tengan coordenadas que requieranmenos dıgitos para su representacion binaria a estos se lesagrega ceros al lado izquierdo de cada seccion de materialgenetico representativo hasta completar la longitud maximade dıgitos.

Criterio de confianza: El criterio de confianza de un cro-mosoma dado se basa en la probabilidad de tumor invasivodel parche de tejido alrededor de una coordenada espacial.El criterio de confianza es calculado mediante la funcion defitness la cual evalua las caracteristicas del cromosoma. Sedisenaron dos funciones para evaluar el comportamiento delcromosoma. 1) La primera funcion realiza el calculo de laconfianza teniendo en cuenta la probabilidad del cromosoma yla probabilidad de los cromosomas vecinos, teniendo en cuentalo anterior se diseno la funcion de la siguiente manera:

L = α(1−CP (x, y))+β(1−CNp(x, y))+γ(1−CNu(x, y))(1)

Donde α, β y γ son pesos que determinan la importancia de laprobabilidad del cromosoma, el promedio de la probabilidadde los cromosomas del vecindario y de la desviacion estandarde la probabilidad de los cromosomas del vecindario respec-tivamente. 2) La segunda funcion evalua a los cromosomasusando la probabilidad dada por la red neuronal convolucionaly el gradiente del mapa de probabilidad en las coordenadas

3

del cromosoma que se esta evaluando, teniendo en cuenta loanterior se diseo la funcion que se observa en la ecuacion 2:

L = α(CP (x, y)) + (1− α)G(x, y) (2)

Donde CP (x, y) es la probabilidad de que el tejido que esta enlas coordenadas del cromosoma evaluado sea tumor invasivoo no invasivo, G(x, y) es el gradiente que se calcula usandooperador de sobel [22] ecuacion 3.

G =√Gx2 +Gy2 (3)

Donde Gx es la aproximacion horizontal del gradiente y Gyes la aproximacion vertical del gradiente, que se calculan desegun las ecuaciones 4 y 5:

Gx =

−1 0 1−2 0 2−1 0 1

∗ Pm (4)

Gy =

−1 −2 −10 0 01 2 1

∗ Pm (5)

Pm es el parche de dimensiones 50 x 50 pıxeles en lascoordenadas del cromosoma a evaluar, del mapa de proba-bilidad interpolado en escala de grises de la lamina virtual dehistopatologia. Este proceso se puede observar en la Figura 3

Fig. 3. Operador de sobel aplicado a un mapa de probabilidad interpoladoen escala de grises de una lamina virtual de histopatologıa. A)Lamina virtualde histopatologıa. B) Mapa de probabilidad interpolado. C) Imagen en escalade grises del mapa de probabilidad interpolado. D) Resultado del operador desobel a la imagen en escala de grises.

Seleccion: El criterio de seleccion es el encargado deseleccionar los cromosomas que son sometidos al proceso decruce y mutacion. La seleccion se realiza mediante una funciontriangular que cambia segun la funcion de fitness utilizada,

para la primera funcion de fitness se utiliza la siguienteecuacion triangular

Gx =

−2x+ 1 si 0 < x ≤ 0.5

2x− 1 si 0.5 < x < 1

0 E.O.C

(6)

Representada con la siguiente grafica.

Fig. 4. (a) Funcion triangular No 1 (b) Funcion triangular No 2

Para la segunda funcion de fitness se utilizo la funciontriangular descrita en la ecuacion 7

Gx =

2x si 0 < x ≤ 0.5

2− 2x si 0.5 < x < 1

0 E.O.C

(7)

Los cromosomas seleccionados en ambas funcionestriangulares son los que su valor de confianza previamentecalculado por la funcion de fitness se ubique en la regionsombreada de las imagenes a y b de la figura 4

Cruce: El proceso de cruce se encarga de hacer la recombi-nacion genetica de dos cromosomas a los que se les denominapadres, el resultado de esta recombinacion da origen a unoo varios cromosomas nuevos llamados hijos[26],[28],[12].En el desarrollo del trabajo Se implementaron 3 metodosde cruce en los que se busca tomar ya sea una parte delmaterial genetico para realizar el cruce o tomando las dospartes del material genetico para la recombinacion. 1) Parael primer metodo de cruce se selecciona aleatoriamente unpunto de corte en el material genetico del cromosoma el cualse ubicara de izquierda a derecha. Se realizara el corte enambos cromosomas en la misma posicion dejando ası cuatrotrozos de material genetico (A, B, C y D).

Fig. 5. Punto de corte, Metodo de cruce 1

Luego el metodo tomara los trozos de material genetico By D y los intercambiara para crear ası nuevos cromosomas.

4

Fig. 6. Intercambio de material genetico, Metodo de cruce 1

2) En el metodo de cruce 2 se selecciona de man-era aleatoria dos puntos de corte, uno en cada materialgenetico correspondiente a cada coordenada del cromosomaobteniendo de esta manera 8 trozos de material genetico(A,B,C,D,E, F,GyH).

Fig. 7. Punto de corte metodo de cruce 2

Con los trozos de material genetico resultantes se intercam-bian el material genetico B por F y D por H de esta manerase crean dos nuevos cromosomas.

Fig. 8. Punto de corte metodo de cruce 2

3) Para el metodo de cruce 3 se utilizo la representacionen numeros reales de las coordenadas de los cromosomas.Este metodo consiste en generar un nuevo cromosoma en elpunto intermedio de los 2 cromosomas padres. Para hallar elpunto intermedio entre los 2 cromosomas padres se utiliza lasecuaciones 8 y 9.

X =X1 +X2

2(8)

Y =Y1 + Y2

2(9)

Donde X es la coordenade en el eje x del cromosoma yY la coordenada en el eje y. X1 y Y1 son las coordenadasdel cromosoma padre 1 y X2 y Y2 son las coordenadas delcromosoma padre 2.

Mutacion: El proceso de mutacion consiste en modificargeneticamente los cromosomas afectando uno o varios genes[26],[28],[12], dada la representacion binaria del cromosoma,la mutacion se da al cambiar un dıgito en la secuencia paracausar una alteracin en el material genetico. El metodo de

mutacion se le aplica a cada uno de los cromosomas hijosgenerados del proceso de cruce. Se disenaron 3 metodos demutacion los cuales van a modificar a los nuevos cromosomascreados en el proceso de cruce. 1) El primer metodo demutacion escoge un punto de seleccion de manera aleatoriaen el cromosoma, este se ubica de izquierda a derecha y enla posicion que haya quedado realiza el cambio de dıgito, encaso de que el dıgito sea un 1 lo cambia a 0 y en caso deque el dıgito sea 0 lo cambia por un 1, este cambio geneticoobliga al nuevo cromosoma a desplazarse de manera verticalu horizontal.

Fig. 9. Mutacion de un gen de un cromosoma con longitud de 20 genes

2) El segundo metodo de mutacion selecciona 2 puntosde manera aleatoria, uno en cada parte del material geneticocorrespondiente a cada coordenada del cromosoma, de estamanera la mutacion se da en cada coordenada del cromosomalo que hace que el nuevo cromosoma creado tenga un desplaza-miento en cualquier direccion en referencia al cromosomaoriginal.

Fig. 10. Metodo de mutacion N2. Cambio de los genes seleccionados en cadauna de las coordenadas

3) Para el tercer metodo de mutacion se utilizaron lasrepresentaciones reales de las coordenadas del cromosoma se-leccionado. Este metodo consiste en causar una perturbacion acada una de las coordenadas del cromosoma, esta perturbacionse produce al sumar a las coordenadas un numero aleatorio conuna distribucion uniforme. Para hacer estas perturbaciones seutilizan las ecuaciones 10 y 11.

X = (U(0, 1) ∗ 1000) +X0 (10)

Y = (U(0, 1) ∗ 1000) + Y0 (11)

La perturbacion realizada desplaza el cromosoma generadoa poca distancia del cromosoma original para asegurar que sepueda explorar mejor la zona de interes.

III. EVALUCION EXPERIMENTAL

A. Medidas de desempenoLa medida de rendimiento utilizada para evaluar la precision

de la region del tumor invasivo en comparacion con las ano-

5

taciones manuales de patologos expertos fue el coeficiente deDice. Esta medida compara la coincidencia entre las mascarasbinarias de las regiones del tumor invasivo delineado por elpatologo y de la region de tumor invasivo predicha por elenfoque presentado. El coeficiente de dice se define en laecuacion 12.

Dice =2C

A+B(12)

Donde A es el numero de pıxeles de la region predicha por losmetodos propuestos, B es el numero de pıxeles de la regiondeterminada por los patologos, y C es el numero de pıxelescompartidos por ambas mascaras binarias. La evaluacion entiempo computacional del algoritmo genetico se calculo enminutos.

IV. RESULTADOS Y DISCUSION

Los metodos propuestos se evaluaron en dos fases deexperimentacion. 1) En la primera fase de experimentos seutilizo el conjunto de datos provenientes del Instituto de cancerde Nueva Jersey, un total de 12 laminas digitalizadas. En estafase se realizo 6 experimentos usando los metodos de cruce ymutacion 2, modificando los parametros del algoritmo geneticocomo se observa en la Tabla 1. Los resultados obtenidos para

TABLE IPARAMETROS DE CONFIGURACION DEL ALGORITMO GENETICO PARA LA

PRIMERA FASE DE EXPERIMENTACION

Exp M. Cruce M. Mutacion α β γ P. inicialExp 1 2 2 0.3 0.3 0.3 100Exp 2 2 2 1 0 0 100Exp 3 2 2 0 1 0 100Exp 4 2 2 0 0 1 100Exp 5 2 2 0.3 0.3 0.3 50Exp 6 2 2 0.3 0.3 0.3 200

esta fase en cuanto a tiempo computacional se observan enla Figura 11. Se observa que en los experimentos 1,2,3,4 hayuna variabilidad mayor en los tiempos de ejecucion , mientrasque en los experimentos 5 y 6 los tiempos son mas constantes.Sin embargo, a pesar de la variacion de los experimentos del1 al 4 la diferencia del tiempo promedio para la fase 1 es porsegundos.

Fig. 11. Grafica boxplot de los tiempos de ejecucion por experimento de lafase 1 de experimentacion

Para cada experimento se calculo la medida de desempenodice, los resultados se observan en la Figura 12. En la fase de

experimentacion 1 se logro un promedio del 60% de precisional detectar tejido con tumor invasivo, siendo el experimento2 el que obtuvo mejores resultados al tener una precision del89% en una de las laminas analizadas.

Fig. 12. Grafica boxplot de los valores de DICE por experimento de la fase1 de experimentacion

2) Para la segunda fase de experimentacion se realizo 10experimentos, donde se modificaron los parametros de lafuncion de fitness, los cuales se observan en la Tabla II.

TABLE IIPARAMETROS DE CONFIGURACION DEL ALGORITMO GENETICO PARA LA

SEGUNDA FASE DE EXPERIMENTACION

Exp MC MM FF α β γExp 1 1 1 1 0.3 0.3 0.3Exp 2 1 1 1 1 0 0Exp 3 1 1 1 0 1 0Exp 4 1 1 1 0 0 1Exp 5 2 2 2 0.3 0.3 0.3Exp 6 2 2 2 1 0 0Exp 7 2 2 2 0 1 0Exp 8 2 2 2 0 0 1Exp 9 3 3 2 0.3 0.3 0.3Exp 10 2 2 3 0.5 0 0

MC: Metodo de Cruce, MM: Metodo de Mutacion y FF:Funcion de Fitness

Variando los parametros del algoritmo genetico, en las 27laminas utilizadas del conjunto de datos de TCGA, se obtuvoun promedio en el tiempo de ejecucion para cada experimento,como se observa en la Figura 13. En esta fase, los promediostienen una mayor variabilidad dependiendo principalmente delos metodos de cruce y mutacion, para los experimentos del 1-4 , que fueron realizados con el mtodo de cruce y mutacin 1 eltiempo promedio oscila 10 y 14 minutos, mientras que para losexperimentos del 5 al 8 en los cuales se utilizo los mtodos decruce y mutacin 2 oscila entre 7 y 11 minutos, el experimento9 se configuro con los metodos de cruce y mutacion 3 conun tiempo de 8.3 min, finalmente para el ultimo experimento,el experimento 10 que se probo con la funcion de fitness 2es el menos eficiente en tiempo computacional, que logro untiempo promedio de 34 minutos. En tiempo computacional,el mejor metodo que arrojo resultados optimos respecto a losdemas es el experimento 7, logrando un tiempo promedio de7.39 min, el cual tiene una configuracion de parametros α=0,β=1, γ=0 ;donde tiene una mayor influencia promedio de laprobabilidad de los cromosomas del vecindario.

6

Fig. 13. Tiempo promedio de cada experimento de la segunda fase deexperimentacion

En la Figura 14, se observa los resultados de la medida derendimiento (DICE) para la segunda fase de experimentacion.En esta fase se obtuvo un valor promedio de 0.5587 equiva-lente al 55.87% de precision en la deteccion de la region deltejido con tumor invasivo, logrando el experimento 3 el mejorresultado con 58,8%, mientras que para el experimento 7 quetuvo el mejor tiempo computacional logro una precision en laregion de interes del 57,11%.

Fig. 14. Grafica boxplot de los valores de DICE por experimento de la fase2 de experimentacion

Comparando los resultados de las regiones predichas por lared neuronal con las anotaciones de los expertos patologos, seobtuvo una precision del 55.87%. La figura 15 corresponde auna imagen digital de histopatologıa donde el coeficiente dedice logra un valor del 74.8%. La presicion varıa segun sea eldetalle de la anotacion por parte del patologo.

Fig. 15. Mapa de probabilidad interpolado de una lamina virtual digitalizadapara cada uno de los experimentos de la segunda fase de experimentacion. A)Lamina virtual de histopatologıa, B) Mascara binarizada de la anotacion delexperto patologo, C-L) Mapa de probabilidad interpolado de los experimentosdel 1-10.

V. CONCLUSIONES

El metodo propuesto ha arrojado resultados aceptables aldetectar regiones de tejido con tumor invasivo que concuerdancon las anotaciones realizadas por los expertos patologos entiempos de periodos cortos (minutos). Teniendo en cuenta losresultados se determino que entre los metodos presentados, losexperimentos que obtienen los mejores resultados en cuantoa tiempo computacional son los propuestos en la configuracindel experimento 5 para la primera fase de experimentacion,con un tiempo de ejecucin de 8.72 minutos. Para la segundafase de experimentacion el experimento 7 obtuvo el mejortiempo de ejecucion que fue de 7.39 minutos. En terminosde precision para la primera fase de experimentacion elexperimento 2 logro los mejores resultados teniendo un 60,8%de precision y para la segunda fase de experimentacion elexperimento 3 obtuvo una precision del 58,8%. La precisionen la region de interes en el experimento 7 que obtuvo el mejorrendimiento en tiempos computacionales es del 57.11%.

AGRADECIMIENTO

Este trabajo fue parcialmente apoyado por el proyecto deinvestigacion ”Metodo de computacion Eficiente y Preciso demuestreo adaptativo para el analisis automatico de grandeslaminas digitalizadas de histopatologıa basado en Algorit-mos geneticos y Aprendizaje Profundo Como Apoyo a laInvestigacion y diagnostico en cancer ”(C03-F02-35-2015),financiado por la Universidad de Los Llanos.

REFERENCES

[1] Jeanette Amaya, Andres Beltran, Deisy Chavarro, German Romero,Maria Vasquez, Maria Matallana, Stephania Puerto, and FernandoRuiz. Estudio de disponibilidad y distribucion de la oferta de medicosespecialistas, en servicios de alta y mediana complejidad en Colombia.Pontificia Universidad Javeriana, page 135, 2013.

[2] Anant Madabhushi Angel Cruz-Roa, Ajay Basavanhally, Fabio Gon-zalez, Michael Feldman, Shridar Ganesan, Natalie Shih, JohnTomaszewski, Hannah Gilmore. A Feature Learning Framework forReproducible Invasive Tumor Detection of Breast Cancer in Whole-SlideImages. 95:40, 2015.

[3] Magdaleni Bellis, Shereen Metias, Christopher Naugler, Aaron Pollett,Serge Jothy, and George M Yousef. Digital pathology: Attitudes andpractices in the Canadian pathology community. Journal of pathologyinformatics, 4:3, 2013.

7

[4] Sangita Bhattacharjee, Jashojit Mukherjee, Sanjay Nag, and Indra KantaMaitra. Review on Histopathological Slide Analysis using DigitalMicroscopy. 62:65–96, 2014.

[5] Zhiqiang Chen, Chuan Li, and Rene-vinicio Sanchez. Gearbox FaultIdentification and Classification with Convolutional Neural Networks.2015, 2015.

[6] Angel Cruz-Roa. Data-driven Representation Learning fromHistopathology Image Databases to Support Digital Pathology Analysis.PhD thesis, Universidad Nacional de Colombia, 2015.

[7] Angel Cruz-Roa, Ajay Basavanhally, Fabio Gonzalez, Hannah Gilmore,Michael Feldman, Shridar Ganesan, Natalie Shih, John Tomaszewski,and Anant Madabhushi. Automatic detection of invasive ductal car-cinoma in whole slide images with convolutional neural networks.In Metin N. Gurcan and Anant Madabhushi, editors, SPIE MedicalImaging, page 904103. International Society for Optics and Photonics,mar 2014.

[8] Angel Alfonso Cruz-roa and Angel Alfonso Cruz-roa. Data-driven Rep-resentation Learning from Histopathology Image Databases to SupportDigital Pathology Analysis Data-driven Representation Learning fromHistopathology Image Databases to Support Digital Pathology Analysis.PhD thesis, University National of Colombia, 2015.

[9] ENDS. DETECCION TEMPRANA DEL CANCER DE CUELLOUTERINO Y DE MAMA, 2010.

[10] Marcos Gestal. Introduccion a los Algoritmos Geneticos. 2010.[11] GLOBOCAN. Estadısticas globales sobre el cancer, 2015.[12] Erik D. Goodman. Introduction to genetic algorithms. In Proceedings

of the fourteenth international conference on Genetic and evolutionarycomputation conference companion - GECCO Companion ’12, page671, New York, New York, USA, 2012. ACM Press.

[13] Alumno Iker, Uzin Larranaga, Tutores Javier Echanobe, and InesCampo. genetico sobre dispositivos de logica programable.

[14] INSTITUTO NACIONAL DE CANCEROLOGIA. Incidencia, mortali-dad y prevalencia de Cancer en Colombia 2007-2011, 2015.

[15] Humayun Irshad, Antoine Veillard, Ludovic Roux, and Daniel Raco-ceanu. Methods for nuclei detection, segmentation, and classificationin digital histopathology: A review-current status and future potential.IEEE Reviews in Biomedical Engineering, 7:97–114, 2014.

[16] Qing Li, Weidong Cai, Xiaogang Wang, Yun Zhou, D D Feng, andMei Chen. Medical image classification with convolutional neuralnetwork. In Control Automation Robotics Vision (ICARCV), 2014 13thInternational Conference on, pages 844–848, 2014.

[17] Anant Madabhushi. Digital pathology image analysis: opportunities andchallenges. Future Medicine Ltd, 1:7–10, 2009.

[18] R H Murillo. Incidencia De Cancer En Colombia : Cancer IncidenceEstimates in Colombia : Importance of Data Sources in the Obtention ofEstimation Numbers. Revista Colombiana de Cancerologıa, 8(9):5–14,2004.

[19] Y Musculo. TODO SOBRE EL CANCER DE MAMA. Todo sobre decancer de mama, pages 1–26, 2012.

[20] G Ojeda, M Ordonez, and L Ochoa. Deteccion temprana del cancer decuello uterino y de mama. Encuesta Nacional de Demografia y Salud,pages 439–475, 2010.

[21] Liron Pantanowitz. Digital images and the future of digital pathology.Journal of pathology informatics, 1(1):15, 2010.

[22] Melva Ramos Rivas. Sistema de pre-procesamiento de imageneselectrocardiograficas en telemedicina. PhD thesis, Universidad de lasAmericas Puebla, 2003.

[23] Nicholas Romito. New genetic algorithm with a maximal informationcoefficient based mutation. In Proceedings of the 51st ACM SoutheastConference on - ACMSE ’13, page 1, New York, New York, USA, 2013.ACM Press.

[24] Jonathan E. Rowe. Genetic algorithm theory. In Proceedings ofthe fourteenth international conference on Genetic and evolutionarycomputation conference companion - GECCO Companion ’12, page917, New York, New York, USA, 2012. ACM Press.

[25] J. D. Webster and R. W. Dunstan. Whole-slide imaging and automatedimage analysis: considerations and opportunities in the practice ofpathology. Veterinary pathology, 51(1):211–23, 2014.

[26] Darrell Whitley. A Genetic Algorithm Tutorial. Computer ScienceDepartment, Colorado State University, 1:37, 1995.

[27] Darrell Whitley. Genetic Algoritthms and Neural Networks. John Wiley& Sons Ltd, 3:203–216, 1995.

[28] Darrell Whitley. Genetic Algorithms and Evolutionary Computing. VanNostrand’s Scientific Encyclopedia, 2002.

[29] Petros-Pavlos Ypsilantis, Musib Siddique, Hyon-Mok Sohn, AndrewDavies, Gary Cook, Vicky Goh, and Giovanni Montana. Predicting

Response to Neoadjuvant Chemotherapy with PET Imaging UsingConvolutional Neural Networks, 2015.