estudio de la variabilidad genética de muestras ambientales de
TRANSCRIPT
Estudio de la variabilidad genética de
muestras ambientales de Legionella
pneumophila Tesis de Máster
Máster en Biología Molecular, Celular y Genética
Especialidad de Microbiología
Universitat de València
Alumna: María Cristina Mideros Mora
Director: Fernando González Candelas
1
Resumen
Legionella pneumophila es un patógeno intracelular que se encuentra en ambientes
acuáticos superficiales, formando parte de su microbiota. Es el causante de la Enfermedad del
Legionario o Legionelosis, la cual se presenta como una neumonía severa que puede llegar a
causar la muerte. L. pneumophila puede llegar a colonizar lugares creados por el hombre para
almacenar agua, ya que tiene una elevada capacidad de supervivencia. A partir de estos y
mediante aerosoles generados en los mismos llega a ser dispersada en el aire, siendo esta la
forma de transmisión de este patógeno del ambiente al ser humano. Al no haberse reportado
una transmisión de persona a persona, es muy importante el estudio de muestras ambientales,
ya que esto permite analizar la diversidad genética, la estructura de sus poblaciones y las
posibles fuentes de brotes de esta enfermedad.
En este trabajo se analizaron 61 aislados ambientales de L. pneumophila tomados en los
años 2009 y 2010 en distintas localidades de la Comunidad Valenciana. Siguiendo el sistema
estándar de “Sequence Based Typing” (SBT), se obtuvo un perfil haplotípico con el que
encontramos el “Sequence Type” (ST) para cada aislado. En los resultados, sólo 2 de los ST
eran compartidos en los dos años de análisis, siendo el resto exclusivos de cada año. También
se analizaron 3 regiones intergénicas para conseguir un mayor poder de discriminación.
Se estudiaron distintos parámetros de diversidad genética dentro de los aislados del
2009, de los pertenecientes al 2010 y todos ellos como población única. Además, se estudió
también su estructuración poblacional mediante Análisis Molecular de la Varianza (AMOVA),
que reveló diferencias dentro de cada año superiores a las encontradas al comparar entre los 2
años. Sin embargo, analizando la estructura poblacional a nivel genético, los datos se
clasificaron en 4 poblaciones, independientemente del año de toma de muestra.
Finalmente se buscaron posibles eventos de recombinación los que nos confirman que
L. pneumophila es un patógeno que está en constante adaptación.
Este tipo de estudios de Legionella pneumophila son importantes para determinar la
epidemiología del patógeno y así mismo dar la información necesaria para poder tomar las
medidas adecuadas en cuanto a las estrategias de control de salud pública.
Palabras clave: Legionella pneumophila, muestras ambientales, variabilidad genética
2
Introducción
El género Legionella pertenece al grupo de las Gamma-Proteobacterias y cuenta con 56
especies, subespecies y con más de 70 serogrupos (1). Es un bacilo Gram-negativo, presenta
flagelos y se encuentra en ambientes acuáticos, donde es parásito de protozoos. A través de las
construcciones hechas por el hombre para transportar el agua a las ciudades, llega a torres de
refrigeración, agua potable, plantas de tratamiento, jacuzzis, spas, etc., y, al ser liberada en
aerosoles allí generados, puede llegar a infectar el sistema respiratorio de las personas que los
inhalen (1).
Legionella es una bacteria oportunista que afecta a personas inmunodeprimidas o
susceptibles, siempre y cuando inhalen suficientes bacterias viables para producir la
enfermedad. Existen dos presentaciones clínicas de esta enfermedad, conocida en general como
legionelosis: la primera, llamada Fiebre de Pontiac, más débil y con síntomas de resfriado, y la
Enfermedad del Legionario, que se presenta como una neumonía aguda, y que puede llegar a
causar daño en varios órganos y la muerte del paciente (2).
Se ha comprobado que más de 20 de las especies del género producen legionelosis, pero
L. pneumophila es la responsable de alrededor del 90% de los casos confirmados. Dentro de
esta especie encontramos 15 serogrupos, pero es el serogrupo 1 el reconocido como el que más
casos clínicos provoca, siendo los serogrupos del 2 al 15, L. longbeachae y L. bozemanii los
siguientes en importancia (3).
L. pneumophila se puede multiplicar intracelularmente al parasitar protozoos que
encuentra en el agua, así como distintos tipos celulares al ingresar en el sistema respiratorio,
principalmente los macrófagos, pero también lo puede hacer extracelularmente formando parte
de biopelículas microbianas (4). Se ha llegado a comprobar que las bacterias liberadas después
de la multiplicación intracelular pueden parasitar macrófagos con mayor frecuencia, por lo que
se las considera más infecciosas que las que se multiplican extracelularmente (5).
Este proceso de multiplicación de L. pneumophila se inicia al ser fagocitada tanto por
los protozoos como por los macrófagos, en cuyo caso necesita la participación de la actina del
citoesqueleto para la internalización de la bacteria. Una vez dentro, permanece en el fagosoma
secretando proteínas que evitan la unión con el lisosoma y la maduración del mismo, que se
adhiere al retículo endoplasmático utilizándolo como su ribosoma. La bacteria se multiplica
por fisión binaria dentro del fagosoma y cuando los nutrientes escasean provoca la lisis celular
para salir al ambiente (1, 2).
El método estándar para tipar cepas de L. pneumophila es el propuesto por el “European
Working Group for Legionella Infections” (EWGLI), que consiste en el llamado tipado basado
3
en secuencia (“Sequence Based Typing”, SBT) de 7 genes: 5 relacionados con virulencia y 2
“house-keeping” (1), siendo esta una técnica derivada del “Multi-Locus Sequence Typing”
(MLSTs) (6). La secuencia nucleotídica de cada uno de estos genes es comparada con la de los
alelos previamente descritos para el gen y, de esta manera, se genera un perfil alélico para cada
aislado que se conoce como “sequence type” (ST).
Por estudios previos (7), donde se analizaron 13 regiones intergénicas de aislados
ambientales, se sabe que analizar estas regiones permite una mayor discriminación entre cepas
del mismo ST, siendo L2, L6 y L14 suficientes para este objetivo. Los estudios de L.
pneumophila pueden basarse tanto en muestras de origen clínico como ambiental. Al existir
una ligera dificultad con las muestras clínicas por su complejidad, ya que se encuentran con
otras bacterias del tracto respiratorio, se ha desarrollado un SBT con amplificación anidada (1).
Hasta el día de hoy se han secuenciado 7 cepas de L. pneumophila: Lens (8), Paris (8),
Philadelphia (9), Corbi (10), Alcoy (11), 130b (12), pertenecientes al serogrupo 1 y 570-CO-H
(13) perteneciente al serogrupo 12. Todas estas comparten un cromosoma circular y, en
ocasiones, la presencia de un plásmido. Se detectó una alta presencia de variabilidad genética
sobre todo en los genes que no forman parte del núcleo (core). Esto se puede haber dado por
eventos de transferencia horizontal de genes y recombinación en la evolución de cada cepa
(11).
Los estudios realizados sobre la diversidad genética de los patógenos, en este caso L.
pneumophila, ayudan a entender las fuerzas ecológicas y evolutivas que determinan la
dinámica de sus poblaciones (14). Las variaciones que se encuentren toman parte en la
respuesta de dicho patógeno a las condiciones que implementamos para intentar eliminarlo.
Hay que tener en cuenta que no ha sido descrita la transmisión de este patógeno de
persona a persona. Por esto, es muy importante el estudio de las muestras ambientales, ya que
permite analizar la diversidad genética, la estructura de sus poblaciones y, con ello, la
epidemiología de la enfermedad (15).
Los objetivos que se plantean en este trabajo van enfocados al análisis de muestras
ambientales tomadas entre los años 2009 y 2010 en la Comunidad Valenciana. Primero se
realizará el tipado de cada uno de los aislados según lo previamente descrito para poder realizar
árboles filogenéticos y observar la relación que hay entre estos, siguiendo con el estudio de su
diversidad genética. Finalmente se estudiará la estructura genético-poblacional y los
potenciales eventos de recombinación, principalmente intergénica.
4
Materiales y Métodos
Obtención de las muestras y extracción de ADN
Se analizaron un total de 61 aislados ambientales, 30 tomados en el año 2009 y 31 en el
2010, en distintos puntos de la Comunidad Valenciana. Fueron aislados y conservados en el
Laboratorio de Salud Pública de Valencia en medio LB (Luria Bertani) y glicerol al 15% en un
ultracongelador a -80°C hasta su remisión al Área de Genómica y Salud (Centro Superior de
Investigación en Salud Pública, CSISP), para la extracción del ADN y posterior análisis.
Para la extracción del ADN se utilizó un protocolo de choque térmico que consiste en:
tomar 400 µl del cultivo puro, centrifugarlo durante 1 minuto a 12.000 rpm, eliminar el
sobrenadante y añadir 400 µl de agua ultrapura para eliminar el medio LB y el glicerol. Se
agita la muestra durante 2-3 segundos para que esté homogénea antes de colocarla en el bloque
térmico a 99°C durante 5 minutos. Transcurrido este tiempo se sumerge la muestra en hielo
durante 5 minutos y se repite el ciclo 99ºC-hielo una vez más. Al terminar, se centrifuga por 3
minutos a 12.000 rpm y se pueden hacer alícuotas del ADN que ya se encuentra en el
sobrenadante. En este caso, al venir la muestra de cultivos puros se realizó una dilución 1:10
para evitar una concentración muy alta de ADN que pudiera inhibir la reacción de
amplificación.
Amplificación por Reacción en Cadena de la Polimerasa (PCR) y purificación
Para cada una de las muestras se amplificaron los 7 genes indicados por el EWGLI:
fliC, pilE, asd, mip, mompS, proA y neuA, así como también 3 regiones intergénicas para
conseguir mayor poder de discriminación: L2, L6 y L14 (7).
La reacción usada para las amplificaciones constó de: tampón 10X con MgCl2 2 mM,
dNTPs 0.1 mM, cebadores a una concentración final de 0.2 µM cada uno (16), 1 U de ADN
polimerasa (Biotools), aproximadamente 100ng de ADN y H2O ultrapura para llegar a un
volumen final de 50 µl.
El programa para la amplificación consistió en un primer paso de desnaturalización a
94°C durante 2 minutos, seguido de 35 ciclos de 30 segundos a 94°C, 30 segundos a la
temperatura de anillamiento correspondientes (16) para cada par de cebadores y 30 segundos a
72°C siendo esta la temperatura de extensión y la utilizada también para una extensión final
durante 8 minutos. Finalmente se mantuvieron las muestras a 8°C hasta ser recuperadas del
termociclador y almacenadas en refrigeración (4ºC).
5
Para comprobar la amplificación se utilizaron geles de agarosa al 1.4%, cargando los
amplicones con GelRed (Biotium) y tampón de carga 3X y visualizándolo en el
transiluminador. Después se pasó a purificar los productos de la amplificación utilizando las
placas de 96 pocillos que facilita el NucleoFast® 96 PCR Plates de MACHEREY-NAGEL,
mediante ultrafiltración en membrana colocando toda la reacción obtenida de la PCR y
centrifugando a 4.500xg por 10 minutos. A continuación, procedimos a un lavado con 100 µl
de agua ultrapura, seguido de ultracentrifugación con las mismas condiciones y tiempo que en
el paso anterior. Finalmente, los amplificados se resuspendieron en 50 µl de agua ultrapura
colocando la placa durante 10 minutos a 24°C con una agitación de 300 rpm. Los productos de
PCR purificados que se obtuvieron se almacenaron a -20°C.
Obtención y análisis de secuencias
Para conseguir las secuencias de todas las muestras siguiendo el método de Sanger se
realizó una nueva amplificación. Para esto se trabajó con el “BigDyeTM Terminator v3.0 Ready
Reaction Cycle Sequencing Kit” (Applied Biosystems), utilizando un programa de 66 ciclos
de 10 segundos a 94°C, 5 segundos a 50°C y 4 minutos a 60°C. Se utilizaron los mismos
cebadores (tanto directo como reverso) que en las amplificaciones originales, excepto en el
caso de mompS, en el que el cebador reverso fue el interno. Los productos se analizaron en un
equipo ABI PRISM 3730 Sequencer, que proporciona los cromatogramas en un formato .ab1.
Los programas pregap4 y gap4 del Staden package (17) se utilizaron para procesar los
cromatogramas correspondientes a las lecturas directa y reversa de cada muestra, obteniendo
un consenso para cada región. Estos consensos fueron alineados utilizando el programa MEGA
v5.0 (18), y en dicho alineamiento se incluyeron las secuencias de todos los alelos previamente
descritos para la región correspondiente que se encuentran en la base de datos del EWGLI (16).
Esto nos permite comparar a nivel nucleotídico nuestras secuencias objetivo con las conocidas
previamente y asignar el número de alelo correspondiente para cada uno de los 7 genes, lo que
construye el haplotipo o ST de cada muestra. En el caso de encontrar un alelo nuevo que no se
encuentra entre los descritos previamente, se someten los cromatogramas correspondientes a un
análisis “online” que nos indicará si efectivamente corresponde a un alelo no descrito y si su
calidad es buena. De ser el caso, el EWGLI se encarga de revisar los datos y asignar un número
nuevo de alelo.
Además, también se alinearon las 3 regiones intergénicas de todas las muestras y, al
igual que con los alineamientos de los 7 genes, se realizó un árbol filogenético para poder ver
la agrupación de las muestras según cada región. Para tener más información, se realizó un
6
concatenado de los 7 genes y uno de los 7 genes más las 3 regiones intergénicas para cada
muestra, para lo cual se utilizó el programa BioEdit (19).
Para el tipado de cada región junto con los alelos descritos en la base de datos, se hizo
un árbol filogenético con el método de “neighbor-joining” (20). La reconstrucción filogenética
de los concatenados de 7 y 10 genes respectivamente, se realizó mediante el método de
máxima verosimilitud, utilizando un “bootstrap” de 1000 réplicas en MEGA v5.0 (18).
Análisis de la variabilidad genética y la estructura poblacional
Basándonos en la información que nos da el concatenado de las 10 regiones se
obtuvieron los parámetros necesarios para poder analizar la diversidad genética dentro de cada
región. Para esto se utilizó el programa DnaSP v5 (21), que nos permite calcular, entre otros, el
número de sitios polimórficos (S), número de mutaciones reales (η), número de haplotipos (h),
diversidad haplotípica y nucleotídica (π), tasa de mutación poblacional por sitio a partir de S
(θ, estimador de Watterson), número de diferencias emparejadas (k) y el ratio entre el número
de sustituciones sinónimas por sitio sinónimo (dS) y no sinónimas por sitio no sinónimo (dN).
Para el análisis de una potencial estructura poblacional en nuestros datos de carácter
temporal se consideraron a priori dos poblaciones, las muestras del 2009, por una parte, y las
del 2010, por otra. Para el cálculo de las diferencias entre y dentro de las poblaciones
consideradas se realizó un Análisis Molecular de la Varianza (AMOVA) mediante el programa
Arlequin v3.0 (22). Por otra parte, se utilizó el programa Structure v2.3 (23) para tratar de
determinar, mediante métodos bayesianos y a partir de nuestros datos, cuál es el número más
probable de poblaciones (K) a nivel genético. Para ello, se modificó el archivo FASTA que
contenía el concatenado de las 10 regiones con xfma2struct (24) para obtener las secuencias en
el formato necesario para Structure v2.3 (23). Se utilizó el modelo que asume mezcla entre los
individuos, ya que existen evidencias previas de recombinación (7), con un “burn-in” de
20.000 y 100.000 iteraciones, haciendo 10 repeticiones para cada valor de K entre 2 y 8. Los
resultados fueron analizados con “Structure Harvester” (25) en línea, lo que nos dio un input
adecuado para el programa CLUMPP v1.1.6 (26), que se utilizó para obtener un consenso entre
las 10 ejecuciones para cada valor de K. Para finalizar, los datos de CLUMPP se representaron
gráficamente utilizando Distruct (27).
Estudio de recombinación
Como último análisis en este estudio se utilizó el programa RDP3 (28), que nos permite
detectar posibles eventos de recombinación tanto intragénica como intergénica. Para esto se
7
indicó al programa que el genoma utilizado es circular y se ingresaron los datos del
concatenado con las 10 regiones. Los modelos utilizados fueron: RDP, GENECONV,
BootScan, MaxChi, Chimaera, SiScan y 3Seq, y se tomaron como válidos los eventos
detectados con significación por al menos dos de los métodos.
Resultados
Amplificación y tipado
En primer lugar, se realizó la extracción del ADN de los aislados. De cada uno de ellos
se amplificaron las 7 regiones del EWGLI más los 3 intergénicas comentadas anteriormente.
La confirmación de las PCR se hizo en geles de agarosa, al 1,4%, como el que se muestra en la
Figura 1.
Figura 1. 10 regiones amplificadas del aislado 3842B. Cada gen va seguido de su respectivo control positivo. 1: pilE; 2: C+; 3: mip; 4: C+; 5: proA; 6: C+; 7: mompS; 8: C+; 9: asd; 10: C+; 11: neuA; 12: C+; 13: fliC; 14: C+; 15: L2; 16: C+; 17: L6; 18: C+; 19: L14; 20: C+; 21: C- ; 22: marcador de pesos moleculares.
Tras obtener todas las secuencias, se alineó cada región junto con las previamente
descritas (16) y se realizó la reconstrucción filogenética mediante “neighbor-joining”. Con esto
se consiguió asignar el perfil alélico correspondiente para cada aislado y, de esta forma, su ST
(Tabla 1). En los datos del año 2010 se encontró una variante nueva del gen mip, al que el
EWGLI le asignó el alelo 54.
El aislado 3842B del año 2010 presenta el alelo de neuA 207, uno de los descritos más
recientemente (29) y que se caracteriza por presentar una divergencia nucleotídica muy alta en
comparación con los demás alelos descritos para el mismo gen. Debido a esto no han sido
asignados números de ST para los aislados que los presentan, como es el caso del 3842B.
El ST 1 es el más representado en el año 2010 con una frecuencia de 51.6% (16 de 31
muestras), aunque en el 2009 sólo apareció en 7 de los 30 aislados (23.3%), siendo el ST 42 el
detectado con más frecuencia durante este año (36.7%, 11 de 30), pero sin ningún
representante en el año siguiente. Solamente los ST 1 y 1117 aparecen en los dos años en al
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
8
menos un caso, siendo propios del año 2009 los ST 2, 20, 75, 42 y 292, y del año 2010 los ST
23, 114, 378, 461, 578, 625, A, 1132 y 1133.
Tabla 1. Perfil alélico para los 61 aislados analizados. *Nuevo ST
Año ID fliC pilE asd mip mompS proA neuA ST Localidad de origen
2009
151 6 10 19 28 19 4 3 292 Valencia 5674A 1 4 3 1 1 1 1 1 Sagunto 5675 1 4 3 1 1 1 1 1 Sagunto 5677 1 4 3 1 1 1 1 1 Sagunto 5678 1 4 3 1 1 1 1 1 Sagunto 5679 1 4 3 1 1 1 1 1 Sagunto 5680 1 4 3 1 1 1 1 1 Sagunto 5682 1 4 3 1 1 1 1 1 Sagunto 6095 6 10 14 28 63 14 9 1117 Castello de la Plana 6096 6 10 14 28 63 14 9 1117 Castello de la Plana
8055A 4 7 11 3 11 12 9 42 Moixent 8056 4 7 11 3 11 12 9 42 Moixent 8057 4 7 11 3 11 12 9 42 Moixent 8058 4 7 11 3 11 12 9 42 Moixent
8059A 4 7 11 3 11 12 9 42 Moixent 8060 4 7 11 3 11 12 9 42 Moixent 8688 6 10 19 3 19 4 9 2 Xativa 8693 6 10 19 3 19 4 9 2 Xativa
8694A 6 10 19 3 19 4 9 2 Xativa 8834 4 7 11 3 11 12 9 42 Moixent 8835 4 7 11 3 11 12 9 42 Moixent
8838A 4 7 11 3 11 12 9 42 Moixent 9763 2 3 18 15 2 1 6 20 Xativa 9765 6 10 19 3 19 4 9 2 Xativa 9767 6 10 19 3 19 4 9 2 Xativa 9997 2 3 18 13 25 5 6 75 Alberic 10425 4 7 11 3 11 12 9 42 Moixent 12479 6 10 14 28 63 14 9 1117 Castello de la Plana 12359 4 7 11 3 11 12 9 42 Moixent 13841 6 10 19 3 19 4 9 2 Xativa
2010
547 2 3 9 10 2 1 6 23 Gandia 3842A 1 4 3 1 1 1 1 1 Vilajoiosa 3842B 6 10 15 28 62 14 207 A* Vilajoiosa 3843 1 4 3 1 1 1 1 1 Vilajoiosa 9096 2 3 9 10 2 1 6 23 Simat de la Valldigna
9098 2 3 9 10 2 1 6 23 Simat de la Valldigna 9099 1 4 3 1 1 1 1 1 Simat de la Valldigna 9445 6 10 14 28 63 14 9 1117 Castello de la Plana
11142A 1 4 3 1 1 1 1 1 Alcudia de Crespins 11142B 12 8 11 2 40 12 4 625 Alcudia de Crespins
9
Año ID fliC pilE asd mip mompS proA neuA ST Localidad de
origen
2010
11143A 1 4 3 1 1 1 1 1 Alcudia de Crespins 11143B 12 8 11 2 40 12 4 625 Alcudia de Crespins 11144 1 4 3 1 1 1 1 1 Alcudia de Crespins 11145 1 4 3 1 1 1 1 1 Alcudia de Crespins 11146 1 4 3 1 1 1 1 1 Alcudia de Crespins 11147 1 4 3 1 1 1 1 1 Alcudia de Crespins 11148 1 4 3 1 1 1 1 1 Alcudia de Crespins 12768 1 4 3 1 1 1 1 1 Alcudia de Crespins 12772 1 4 3 1 1 1 1 1 Alcudia de Crespins 12773 1 4 3 1 1 1 1 1 Alcudia de Crespins 12774 1 4 3 1 1 1 1 1 Alcudia de Crespins 13068 6 10 14 28 21 14 9 461 Chulilla 13836 3 6 1 6 14 11 9 114 Olleria 13837 3 6 1 6 14 11 9 114 Olleria 13838 3 13 1 17 14 9 7 378 Olleria 13839 3 4 1 54 14 9 7 1132 Olleria 13844 3 4 1 54 14 9 1 1133 Olleria 14180 1 4 3 1 1 1 1 1 Alcudia de Crespins 14181 1 4 3 1 1 1 1 1 Alcudia de Crespins 15318 6 10 15 13 9 14 6 578 Olleria
8109096 2 3 9 10 2 1 6 23 Simat de la Valldigna Análisis de las secuencias
Una vez obtenido el consenso de todas las secuencias, se realizó en primer lugar el
concatenado de los 7 genes, siguiendo su posición en el genoma, dando un alineado con 3098
posiciones. Con este se obtuvo un árbol filogenético según el método de máxima verosimilitud
(Figura 2A). Lo mismo se hizo al tener las 10 regiones amplificadas (7 genes + 3 regiones
intergénicas) con un alineamiento de 4487 posiciones (Figura 2B).
Al observar el árbol filogenético de la figura 2, se pueden ver diferencias dentro de los
aislados que pertenecen al ST 1. Esto se produce porque para los concatenados se utilizaron las
regiones amplificadas por PCR completas y éstas son más largas que las necesarias para el
tipado del EWGLI. Por esta razón se puede ver una pequeña diferencia entre aislados del
mismo ST pero que en realidad difieren en pocos nucleótidos que no son utilizados para el
tipado.
Dentro del ST 1 podemos encontrar más diferencias si comparamos la Figura 2A con la
2B ya que, al incluir la información de las 3 regiones intergénicas al concatenado de los 7
genes, conseguimos un aumento en el poder de discriminación entre cepas.
10
A. B.
Figura 2. Árboles filogenéticos a partir del concatenado de los 7 genes (A) e incluyendo las 3 regiones intergénicas (B). Los triángulos azules indican los aislados del año 2009 y cuadros rojos del 2010. Las llaves verdes indican los ST más destacados. El valor de los nodos indica el porcentaje de soporte con 1000 réplicas de bootstrap.
ST 1
ST 42
ST A
ST 461
ST 42
ST A
ST 461
ST 1
11
La cercanía de algunos ST a otros varía entre los dos árboles filogenéticos (Figura 2),
como en el caso del ST 461, que se encuentra cerca de los ST 2 y 292 al no incluir las regiones
intergénicas; pero se aleja de éstos acercándose al clado más grande de muestras cuando las
incluimos.
Finalmente, podemos observar que la muestra 3842B, asignada al ST A, en los dos
casos se mantiene alejada del resto de muestras por la gran diferencia que existe entre este
aislado y los demás debido al recientemente descubierto alelo 207 del gen neuA (Figura 2).
Análisis de variabilidad genética
La variación genética se puede analizar con los parámetros que fueron indicados en el
apartado de Materiales y Métodos. Con estos se pueden comparar la diversidad de los aislados
del año 2009, 2010 y de los 2 años juntos, cuantificar los niveles de diversidad presentes en las
7 regiones codificantes y en las intergénicas.
En la Tabla 2 se muestran los valores obtenidos para los parámetros mencionados
anteriormente de cada una de las 7 regiones codificantes. Hay que tener en cuenta que, para
pilE, su amplificación incluye una pequeña región no codificante, que se encuentra justo
delante del gen y ha sido estudiada independientemente de la región codificante para no
interferir en los análisis. En el caso de neuA, se han tomado tanto los valores sin el aislado que
presenta el alelo 207 como con éste, para mostrar la variación que supone en la diversidad
nucleotídica. Por otro lado, en la Tabla 3 encontramos los mismos parámetros calculados para
cada una de las regiones intergénicas (L2, L6, L14).
Al tomar por separado cada uno de los valores calculados se puede ver que la
diversidad haplotípica es más alta para mompS en el año 2009 y en la unión de los dos años,
pero en el año 2010 los valores más elevados los tiene neuA con la presencia del alelo 207
(Tabla 2). En las regiones intergénicas es L2 el que presenta la mayor diversidad haplotípica,
igual a la de L14 en el año 2009 (Tabla 3).
Sin embargo, la diversidad haplotípica, como otros parámetros tipo S, son dependientes
del número de secuencias y de la longitud de las mismas. Por tanto, es conveniente fijarse en
parámetros como la diversidad nucleotídica, que presenta una corrección por estos factores. En
este caso, encontramos que los valores de este parámetro son superiores en el gen pilE,
comparables con mompS en el 2010. Si tenemos en cuenta la desviación estándar, los valores
de neuA con la presencia del alelo 207 superan a los demás genes (Tabla 2). Como era de
esperar, los valores en las regiones intergénicas son mayores para este parámetro, siendo L14 el
que presenta los valores más elevados (Tabla 3).
12
Tabla 2. Parámetros para el estudio de la diversidad génica de los 7 genes analizados. pilE NC Corresponde a la sección no codificante que se encuentra previa al gen. En neuA los valores entre corchetes son los que incluyen el aislado del ST A.
proA pilE NC pilE neuA mip fliC asd mompS
2009 2010 2009 + 2010
2009 2010 2009
+ 2010
2009 2010 2009
+ 2010
2009 2010 2009 + 2010
2009 2010 2009
+ 2010
2009 2010 2009
+ 2010
2009 2010 2009
+ 2010
2009 2010 2009
+ 2010
N° secuencias 30 31 61 30 31 61 30 31 61 30 30 [31] 60
[61] 30 31 61 30 31 61 30 31 61 30 31 61
Longitud, L 443 67 350 476 520 206 527 509
N° haplotipos 5 5 7 3 5 5 4 6 7 4 9 [10] 10
[11] 5 8 10 4 5 6 5 6 8 8 8 13
Diversidad haplotípica, h (desviación estándar)
0,754 (0,04)
0,568 (0,09)
0,726 (0,04)
0,543 (0,06)
0,563 (0,09)
0,557 (0,06)
0,720 (0,04)
0,641 (0,09)
0,747 (0,03)
0,513 (0,09)
0,802 [0,81] (0,06)
[(0,05)]
0,733 [0,742] (0,04)
[(0,03)]
0,625 (0,08)
0,716 (0,08)
0,770 (0,04)
0,720 (0,04)
0,692 (0,07)
0,768 (0,03)
0,768 (0,04)
0,701 (0,07)
0,792 (0,03)
0,807 (0,05)
0,705 (0,08)
0,858 (0,03)
Diversidad nucleotídica, π
(desviación estándar)
0,013 (0,01)
0,012 (0,002)
0,013 (0,00)
0,015 (0,00)
0,013 (0,00)
0,015 (0,00)
0,029 (0,00)
0,019 (0,00)
0,026 (0,00)
0,008 (0,00)
0,012 [0,034] 0,001
[(0,02)]
0,012 [0,023] 0,0007 [(0,01)]
0,007 (0,00)
0,012 (0,00)
0,011 (0,00)
0,015 (0,00)
0,017 (0,00)
0,017 (0,00)
0,009 (0,00)
0,009 (0,00)
0,010 (0,00)
0,013 (0,00)
0,019 (0,00)
0,018 (0,00)
N° sitios polimórficos, S
13 19 19 3 4 4 23 37 38 11 27
[173] 28
[173] 10 32 34 7 11 11 12 13 14 21 36 41
N° total de mutaciones, η
13 19 19 3 4 4 23 38 39 11 27
[182] 28
[182] 10 34 36 7 11 11 12 13 14 21 36 42
θ (a partir de S) (desviación
estándar)
0,007 (0,00)
0,010 (0,00)
0,009 (0,00)
0,011 (0,01)
0,015 (0,01)
0,013 (0,01)
0,016 (0,01)
0,026 (0,09)
0,023 (0,01)
0,005 (0,00)
0,014 [0,091] 0,005
[(0,03)]
0,013 [0,078] 0,004
[(0,02)]
0,005 (0,00)
0,015 (0,00)
0,014 (0,00)
0,008 (0,00)
0,013 (0,00)
0,011 (0,00)
0,005 (0,00)
0,006 (0,00)
0,005 (0,00)
0,010 (0,00)
0,017 (0,01)
0,017 (0,00)
N° diferencias emparejadas, k
(desviación estándar)
6,051 (2,96)
5,665 (2,79)
5,954 (2,88)
1,048 (0,72)
0,899 (0,64)
0,984 (0,67)
10,09 (4,74)
6,813 (3,30)
9,026 (4,21)
4,189 (2,14)
6,129 [16,16] 2,994
[(7,40)]
5,834 [10,95] 2,828
[(5,05)]
3,616 (1,89)
6,391 (3,11)
5,739 (2,79)
3,028 (1,62)
3,665 (1,91)
3,588 (1,85)
5,113 (2,55)
4,628 (2,33)
5,202 (2,55)
7,064 (3,41)
10,12 (4,75)
9,154 (4,27)
N° mutaciones sinónimas
13 18 18 - - - 22 28 29 8 13 [86] 14
[86] 9 31 33 7 8 8 12 13 14 13 25 26
N° mutaciones no sinónimas
0 1 1 - - - 1 10 10 3 14
[80] 14
[80] 1 3 3 0 3 3 0 0 0 8 11 13
dN/dS 0,007 0,007 0,007 - - - 0,017 0,017 0,018 0,132 0,132 [0,206]
0,14 [0,217]
0,032 0,032 0,032 0,05 0,05 0,051 0 0 0 0,105 0,105 0,108
13
Tabla 3. Parámetros para el estudio de la diversidad génica de las 3 regiones intergénicas.
L2 L6 L14
2009 2010 2009 + 2010 2009 2010 2009 + 2010 2009 2010 2009 + 2010
N° secuencias 30 31 61 30 31 61 30 31 61
Longitud, L 484 446 459
N° haplotipos 5 7 9 5 4 7 5 9 12
Diversidad haplotípica, h (desviación estándar)
0,768 (0,041)
0,774 (0,056)
0,825 (0,028)
0,497 (0,102)
0,649 (0,062)
0,662 (0,044)
0,768 (0,041)
0,72 (0,081)
0,809 (0,037)
Diversidad nucleotídica, π
(desviación estándar)
0,037 (0,001)
0,023 (0,004)
0,034 (0,002)
0,013 (0,002)
0,014 (0,002)
0,015 (0,001)
0,039 (0,004)
0,043 (0,006)
0,046 (0,002)
N° sitios polimorficos,
S 40 47 52 22 19 27 42 57 59
N° total de mutaciones, η
40 48 54 22 20 28 42 59 61
θ (a partir de S) (desviación
estándar)
0,021 (0,007)
0,026 (0,009)
0,024 (0,007)
0,012 (0,004)
0,010 (0,004)
0,013 (0,004)
0,023 (0,008)
0,031 (0,01)
0,028 (0,008)
N° diferencias emparejadas,
k (desviación estándar)
17,611 (8,047)
10,692 (5,003)
15,624 (7,07)
6,115 (2,993)
6,146 (3,003)
6,693 (3,200)
17,628 (8,054)
19,325 (8,791)
20,865 (9,337)
Al comparar la tasa de mutación poblacional, los valores más elevados los presenta
pilE, que sólo es superado por neuA si incluimos el aislado de ST A, mientras que los valores
más bajos los presenta asd para todos los casos analizados (Tabla 2). Para las regiones
intergénicas, los valores más elevados los encontramos en L14, siendo nuevamente los valores
de L6 menores a los encontrados en pilE y otros genes (Tabla 3).
En el número de diferencias emparejadas se vuelve a ver que, incluyendo ST A en el
análisis de neuA hay un incremento en los valores bastante representativo, llegando a ser más
alto que todos los genes e incluso que algunas de las regiones intergénicas. Por otra parte, L14
es la región analizada que tiene los valores más altos, seguida de pilE en el 2009 y mompS en el
2010 (Tablas 2 y 3).
Los últimos valores tomados para todas las regiones fueron los números de sitios
polimórficos y de mutaciones reales, para los que las regiones intergénicas son las que tienen
los valores más elevados, seguidas de mompS, pilE y mip. Como era de esperar, una vez más,
al analizar neuA incluyendo el ST A, es el único fragmento que nos da valores mucho más
elevados que las regiones intergénicas.
Para finalizar, se tomaron los números de mutaciones sinónimas y no sinónimas sólo
para las regiones codificantes, ya que en las regiones intergénicas, al no ser codificantes, no se
14
produciría un cambio aminoacídico. Teniendo esto en cuenta, en los casos de asd y fliC en el
2009 no hay presencia de mutaciones no sinónimas y por esto nos da un ratio dN/dS igual a
cero. Por otro lado, los valores superiores de este parámetro los encontramos en mompS, neuA
y neuA con el ST A, siendo estos dos últimos los más elevados.
Estructura poblacional
En primer lugar, se realizó un AMOVA para cada una de las 10 regiones analizadas
considerando las muestras del 2009 y las del 2010 como dos poblaciones independientes, para
ver si existe algún tipo de estructuración poblacional a nivel temporal. En la Tabla 4 se
muestran los porcentajes de variación, donde se puede ver que existe más variación dentro de
las poblaciones que entre ellas para todas las regiones, siendo mip la región que presenta la
mayor variación entre las poblaciones, seguida de L6, L2 y L14.
Hasta este punto se han clasificado los aislados según el año en el que fueron tomados,
pero se quería conocer el número de poblaciones más probable tomando la información
genética como punto de partida. Según lo descrito en el apartado de Materiales y Métodos, se
utilizó el programa Structure v2.3 (23) para realizar estos cálculos considerando un intervalo
de 2 a 8 grupos (K); éste programa utiliza métodos Bayesianos para calcular el porcentaje de
similitud de cada aislado para cada población estimada.
Tabla 4. Porcentajes de variación obtenidos mediante técnica de AMOVA para las dos poblaciones analizadas (2009-2010).
Porcentaje de
variación entre
poblaciones
Porcentaje de
variación dentro de
poblaciones
L14 19,96 80,04
proA 3,25 96,75
pilE NC 2,23 97,77
pilE 12,34 87,66
L2 19,81 80,19
neuA 11,38 88,62
mip 21,78 78,22
fliC 12,19 87,81
L6 20,49 79,51
asd 11,96 88,04
mompS 11.03 88,97
MEDIA 13,53 86,69
En la Figura 3 observamos el valor de ∆K obtenido con Structure Harvester (25), que
según lo describe (30); este valor está definido por el ratio de cambio en el logaritmo de la
probabilidad de que un aislado pertenezca a un determinado grupo entre los valores de K
sucesivos. Por esta razón, en la figura se observa que el número más probable de poblaciones
que conforman los 61 aislados analizados es K=4, siendo este el valor más alto de
La representación gráfica que se obtuvo con Distruct (
de K, nos permite ver el porcentaje de cada aislado que pertenece a las distintas pob
según se esté analizando. En la Figura 4A vemos la representación gráfica de K=4 en donde se
distingue la proporción de cada aislado que pertenece a cada una de las 4 poblaciones. Esta
información puede verse con mayor claridad en el árbol filogen
Figura 3. Representación de ∆K para cada uno de los valores analizados de K. La grHarvester (25).
Figura 4. A. Representación gráfica obtenida con Distruct para K=4. información de K=4. Los cuadrados rojos representan muestras del año 2010 y los
K=4
A.
15
sucesivos. Por esta razón, en la figura se observa que el número más probable de poblaciones
e conforman los 61 aislados analizados es K=4, siendo este el valor más alto de
La representación gráfica que se obtuvo con Distruct (27) para cada uno de los valores
de K, nos permite ver el porcentaje de cada aislado que pertenece a las distintas pob
según se esté analizando. En la Figura 4A vemos la representación gráfica de K=4 en donde se
distingue la proporción de cada aislado que pertenece a cada una de las 4 poblaciones. Esta
información puede verse con mayor claridad en el árbol filogenético de la Figura 4B.
∆K para cada uno de los valores analizados de K. La gráfica se ob
Representación gráfica obtenida con Distruct para K=4. B. Agrupación de los aislados con la información de K=4. Los cuadrados rojos representan muestras del año 2010 y los triángulos
B.
sucesivos. Por esta razón, en la figura se observa que el número más probable de poblaciones
e conforman los 61 aislados analizados es K=4, siendo este el valor más alto de ∆K.
) para cada uno de los valores
de K, nos permite ver el porcentaje de cada aislado que pertenece a las distintas poblaciones
según se esté analizando. En la Figura 4A vemos la representación gráfica de K=4 en donde se
distingue la proporción de cada aislado que pertenece a cada una de las 4 poblaciones. Esta
ético de la Figura 4B.
áfica se obtuvo con Structure
Agrupación de los aislados con la triángulos azules del 2009.
G2
G1
G3
G4
16
Análisis de la recombinación
Los análisis realizados con RDP3 (28) para los 61 aislados nos indican la presencia de
posibles eventos de recombinación significativos para al menos 2 de los 7 métodos utilizados.
Pero al no tener dentro de la muestra representantes de toda la variabilidad genética que
presenta L. pneumophila, la asignación de parentales que nos da el programa no siempre es
fiable. Por esta razón, se mapeó en el árbol filogenético la correcta ubicación de los eventos de
recombinación guiándonos en la ubicación de cada ST (Figura 5).
Podemos observar claramente en la Figura 5 que la región que más eventos de
recombinación presenta es neuA, seguida de L14, mip, pilE, asd, L2 y mompS. Cada uno de los
eventos es independiente, ya que se encontraron en ramas diferentes del árbol a excepción del
evento pilE + L2 que se encuentra para ST1132 junto con uno de neuA. En total, 12 de los 16
ST encontrados en el total de la muestra presentan eventos de recombinación. No se
encontraron casos para proA, fliC ni L6.
Dentro del ST1 se encontró un evento en L14 para 2 de los aislados y uno en neuA en
sólo un aislado; a pesar de pertenecer al mismo ST se ven estas variaciones ya que en este
análisis utilizamos el concatenado de las 10 regiones, que nos da mayor discriminación.
Figura 5. Árbol filogenético en el que se indican los eventos de recombinación intergénica detectados por RDP3 (28). Entre paréntesis se encuentra el número de métodos que soportan el respectivo evento. Los cuadrados rojos representan los aislados del 2010 y los triángulos azules las del 2009.
L14 (7) neuA (4)
mip (7)
pilE (7) mip (5)
neuA (4) / pilE + L2 (7)
L14 (5)
L14 (5) neuA (5)
neuA + mip (6)
asd (7)
momps (5)
neuA (6)
17
Discusión
El uso del “Sequence Based Typing” (SBT) ha incentivado el estudio de la variabilidad
genética de Legionella pneumophila tanto de muestras clínicas como ambientales, dejando al
descubierto una mayor diversidad en las muestras que vienen del ambiente (15). Sin embargo,
el aumentar la información obtenida mediante SBT, tanto de muestras clínicas como
ambientales, con otro tipo de regiones, como por ejemplo las intergénicas utilizadas en este
trabajo, nos da la posibilidad de encontrar el origen de una infección (31).
En este estudio sólo se analizaron muestras ambientales de varias partes de la misma
región pero tomadas en distintos años. Este tipo de estudios que considera la distribución
temporal nos permite monitorizar cómo el patógeno, en este caso L. pneumophila, responde a
las condiciones que se imponen para eliminarlo (14). En el año 2009 se encontraron 7 ST
distintos, pero en el año 2010 encontramos 11, compartiendo en los dos años sólo los ST 1 y
ST 1117. Esto nos indica un cambio en la variabilidad entre un año y otro, teniendo en cuenta
que el tamaño muestral es similar. A pesar de esto, se mantiene una coincidencia con otras
investigaciones, en las que el ST1 es uno de los más representados (3).
Al estudiar la variabilidad genética se puede observar que en ninguno de los parámetros
analizados hay una gran diferencia entre años ó al considerarlos en conjunto, por lo que se ha
analizado cada región por separado. En la diversidad haplotípica se mantienen valores
equivalentes para fliC, proA y mompS, como los analizados por (14) en la provincia de
Alicante. Las demás regiones también mantienen valores similares en el presente trabajo,
siendo mompS la que presentó valores más elevados.
Al considerar parámetros independientes del número de secuencias y su longitud, como
es el caso de la diversidad nucleotídica, se pueden comparar los resultados con los obtenidos en
(15) para muestras ambientales. El mencionado trabajo reporta una diferencia entre muestras
de origen clínico y ambiental que puede deberse a la gran diversidad de este patógeno, sobre
todo en el ambiente. Además, hay que tener en cuenta que los valores del ratio dN/dS son muy
inferiores a 1 en todos los fragmentos analizados, lo que nos indica que puede haber una
selección purificadora.
Los parámetros calculados para evaluar la diversidad genética dentro del gen neuA
varían considerablemente cuando incluimos en el análisis al alelo 207 perteneciente al ST A.
Como lo describe Farhat et al. 2011 (29), este alelo pertenece a uno de las “nuevas” variantes
de neuA que presentan mayor variación y que podría estar genéticamente relacionada con la
cepa Dallas 1E (ATCC 33216). Sin embargo, no se tiene la completa seguridad del origen de
estos “nuevos” alelos, pero puede deberse a una divergencia muy antigua en la especie.
18
Cuando se consideraron las muestras de cada año (2009 y 2010) como distintas
poblaciones, obtuvimos un AMOVA que nos indica una mayor diferencia dentro que entre los
años. Esto nos demuestra que no hay una estructuración poblacional a nivel temporal y, por
esta razón, al analizar las muestras a nivel genético con Structure (23) encontramos que las
cepas analizadas podrían clasificarse en 4 grupos diferentes, bien definidos en el árbol
filogenético (Figura 4). Únicamente el Grupo 1 está conformado exclusivamente por muestras
del año 2010.
Todos estos resultados soportan la existencia de recombinación intergénica como ya ha
sido reportada (7, 15). Los resultados obtenidos con RDP3 (28) nos indican que el Grupo 1 es
el que presenta mayor número de eventos de recombinación; lo que coincide con lo descrito en
(7) sobre la alta frecuencia con la que L. pneumophila intercambia su material genético y la
habilidad que esto le da para adaptarse a los cambios ambientales, encontrándose distinta
diversidad genética para cada año.
Se han reportado eventos de recombinación de hasta 3 regiones juntas (7, 15) y en el
presente trabajo se encontraron sólo eventos individuales y uno de 2 loci juntos; pero, debido a
que las 10 regiones analizadas se encuentran bastante lejanas la una de la otra en el genoma de
la bacteria, es probable que los eventos de recombinación que incluyen más de una región sean
eventos diferentes para cada locus o que se hayan producido en distintos momentos en la
historia evolutiva de la bacteria.
En conclusión, este tipo de estudios ayuda a conocer la distribución real de L.
pneumophila en el ambiente y, de esta manera, se pueden comprender las fuerzas evolutivas
que dirigen su distribución, siendo esto lo que necesitamos para tomar las medidas adecuadas y
controlar los brotes e infecciones de esta bacteria.
Referencias
1. Gomez-Valero L, Rusniok C, Buchrieser C. Legionella pneumophila: population genetics,
phylogeny and genomics. Infection, genetics and evolution: 2009 Sep; 9(5):727-39.
2. Fields BS, Benson RF, Besser RE. Legionella and Legionnaires’ disease: 25 years of
investigation. Clinical microbiology reviews. 2002; 15(3):506.
3. Lee HK, Shim JI, Kim HE, Yu JY, Kang YH. Distribution of Legionella species from
environmental water sources of public facilities and genetic diversity of L. pneumophila sg 1
in Korea. Applied and environmental microbiology. 2010 Aug; 76(19):6547-6554.
4. Horwitz MA, Silverstein SC. Legionnaires’ disease bacterium (Legionella pneumophila)
multiplies intracellularly in human monocytes. Journal of Clinical Investigation. 1980;
66(3):441.
19
5. Cirillo JD, Falkow S, Tompkins LS. Growth of Legionella pneumophila in Acanthamoeba
castellanii enhances invasion. Infection and immunity. 1994 Aug; 62(8):3254-61.
6. Maiden MC, Bygraves JA, Feil E, Morelli G, Russell JE, et al. (1998) Multilocus sequence
typing: a portable approach to the identification of clones within populations of pathogenic
microorganisms. Proc Natl Acad Sci U S A 95: 3140–5.
7. Coscollá M, González-Candelas F. Population structure and recombination in environmental
isolates of Legionella pneumophila. Environmental microbiology. 2007 Mar; 9(3):643-56.
8. Cazalet C, Rusniok C, Brüggemann H, Zidane N, Magnier A, Ma L, et al. Evidence in the
Legionella pneumophila genome for exploitation of host cell functions and high genome
plasticity. Nature genetics. 2004 Nov; 36(11):1165-73.
9. Chien M, Morozova I, Shi S, Sheng H, Chen J, Gomez SM, et al. The genomic sequence of
the accidental pathogen Legionella pneumophila. Science. 2004; 305(5692):1966-1968.
10. Glöckner G, Albert-Weissenberger C, Weinmann E, Jacobi S, Schunder E, Steinert M, et al.
Identification and characterization of a new conjugation/type IVA secretion system (trb/tra)
of Legionella pneumophila Corby localized on two mobile genomic islands. International
journal of medical microbiology: IJMM. 2008 Jul; 298(5-6):411-28.
11. D’Auria G. JN, Francesc PB, Andrés M, Amparo L. Legionella pneumophila pangenome
reveals strain-specific virulence factors. BMC Genomics. 2010; 111-13.
12. Schroeder GN, Petty NK, Mousnier A, Harding CR, Vogrin AJ, Wee B, Fry NK, et al.
Legionella pneumophila strain 130b possesses a unique combination of type IV secretion
systems end novel Dot/Icm secretion system effector proteins. Journal of Bacteriology. 2010
Nov; 192(22):6001-6016.
13. Amaro F, Gilbert J. A, Owens S, Trimble W, Shuman H. A Whole-Genome sequence of the
human pathogen Legionella pneumophila serogroup 12 strain 570-CO-H. Journal of
Bacteriology. 2012 194(6):1613.
14. Coscollá M, Gosalbes MJ, Catalán V, González-Candelas F. Genetic variability in
environmental isolates of Legionella pneumophila from Comunidad Valenciana (Spain).
Environmental microbiology. 2006 Jun; 8(6):1056-63.
15. Coscollá M, González-Candelas F. Comparison of clinical and environmental samples of
Legionella pneumophila at the nucleotide sequence level. Infection, genetics and evolution:.
2009 Sep; 9(5):882-8.
16. EWGLI SBT Database:
www.hpa-bioinformatics.org.uk/legionella/legionella_sbt/php/sbt_homepage.php
17. Staden R. The Staden sequence analysis package. Molecular biotechnology. 1996 Jun;
5(3):233-41.
18. Tamura K, Peterson D, Peterson N, Stecher G, Nei M, and Kumar S (2011) MEGA5:
Molecular Evolutionary Genetics Analysis using Maximum Likelihood, Evolutionary
20
Distance, and Maximum Parsimony Methods. Molecular Biology and Evolution 28(10):
2731-2739.
19. Hall TA. BioEdit: a user-friendly biological sequence alignment editor and analysis program
for Windows 95/98/NT. Nucleic Acids Symposium Series. 1999; 4195-98.
20. Saitou N, Nei M. The neighbor-joining method: a new method for reconstructing
phylogenetic trees. Molecular biology and evolution. 1987 Jul; 4(4):406-25.
21. Librado P, Rozas J. DnaSP v5: a software for comprehensive analysis of DNA
polymorphism data. Bioinformatics (Oxford, England). 2009 Jun; 25(11):1451-2.
22. Excoffier L, Laval G, Schneider S. Arlequin (version 3.0): an integrated software package for
population genetics data analysis. Evolutionary bioinformatics online. 2005 Jan;147-50.
23. Pritchard JK, Stephens M, Donnelly P. Inference of population structure using multilocus
genotype data. Genetics. 2000 Jun; 155(2):945-59.
24. Didelot X, Falush D. Inference of bacterial microevolution using multilocus sequence data.
Genetics. 2007 Mar; 175(3):1251-66.
25. Structure Harvester web page: http://taylor0.biology.ucla.edu/structureHarvester/
26. Jakobsson M, Rosenberg NA. CLUMPP: a cluster matching and permutation program for
dealing with label switching and multimodality in analysis of population structure.
Bioinformatics 2007 Jul; 23(14):1801-6.
27. Rosenberg NA. DISTRUCT: a program for the graphical display of population structure.
Molecular Ecology Notes. 2004.
28. Martin DP, Lemey P, Lott M, Moulton V, Posada D, Lefeuvre P. RDP3: a flexible and fast
computer program for analyzing recombination. Bioinformatics(. 2010 Oct; 26(19):2462-3.
29. Farhat C, Mentasti M, Jacobs E, Fry N. K, Lück C. The N-acylneuraminate cytidyl
transferase gene, neuA is heterogenous in Legionella pneumophila strains but can be used as
marker for epidemiological typing in the consensus sequence-based tying scheme. Journal of
clinical microbiology. 2011 September 28.
30. Evanno G, Regnaut S, Goudet J. Detecting the number of clusters of individuals using the
software STRUCTURE: a simulation study. Molecular ecology. 2005 Jul; 14(8):2611-20.
31. Coscollá M, Fenollar J, Escribano I, González-Candelas F. Legionellosis Outbreak
Associated with Asphalt Paving Machine, Spain, 2009. Emerging Infectious Diseases. 2010
Sep; 16(9):1381-1387.