hadoop: mapreduce para procesar grandes cantidades de datos
TRANSCRIPT
![Page 1: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/1.jpg)
HadoopMapReduce para procesar grandes
cantidades de datos
Raúl Ochoa
![Page 2: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/2.jpg)
Antecedentes
![Page 3: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/3.jpg)
AntecedentesSistemas Distribuidos
![Page 4: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/4.jpg)
AntecedentesSistemas DistribuidosProgramación Funcional
![Page 5: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/5.jpg)
AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebra
![Page 6: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/6.jpg)
AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJava
![Page 7: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/7.jpg)
AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJavaGoogle
![Page 8: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/8.jpg)
AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJavaGoogle
![Page 9: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/9.jpg)
AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJavaGoogleCrédito de Libre Elección
![Page 10: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/10.jpg)
AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJavaGoogleCrédito de Libre Elección
![Page 11: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/11.jpg)
ContenidosIntroducción a HadoopMapReduceHadoop Distributed File SystemMapReduce + HDFSSubproyectosDemo
![Page 12: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/12.jpg)
ContenidosIntroducción a HadoopMapReduceHadoop Distributed File SystemMapReduce + HDFSSubproyectosDemo
![Page 13: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/13.jpg)
Introducción
![Page 14: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/14.jpg)
IntroducciónObjetivosBaseCaracterísticasHistoriaPowered byComparación con otros sistemas
![Page 15: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/15.jpg)
ObjetivosOpen SourceComputación distribuidaProcesar grandes cantidades de datos
![Page 16: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/16.jpg)
ObjetivosOpen SourceComputación distribuidaProcesar grandes cantidades de datos
![Page 17: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/17.jpg)
ObjetivosOpen SourceComputación distribuidaProcesar grandes cantidades de datos
![Page 18: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/18.jpg)
BaseMapReduceGFS
![Page 19: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/19.jpg)
CaracterísticasEscalableEconómicoEficienteFiable
![Page 20: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/20.jpg)
CaracterísticasEscalableEconómicoEficienteFiable
![Page 21: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/21.jpg)
CaracterísticasEscalableEconómicoEficienteFiable
![Page 22: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/22.jpg)
CaracterísticasEscalableEconómicoEficienteFiable
![Page 23: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/23.jpg)
HistoriaCreador: Doug Cutting2002-2004: Nutch2004-2006: GFS & MapReduce Papers2006-2008: Yahoo!
![Page 24: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/24.jpg)
HistoriaCreador: Doug Cutting2002-2004: Nutch2004-2006: GFS & MapReduce Papers2006-2008: Yahoo!
![Page 25: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/25.jpg)
HistoriaCreador: Doug Cutting2002-2004: Nutch2004-2006: GFS & MapReduce Papers2006-2008: Yahoo!
![Page 26: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/26.jpg)
HistoriaCreador: Doug Cutting2002-2004: Nutch2004-2006: GFS & MapReduce Papers2006-2008: Yahoo!
![Page 27: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/27.jpg)
Powered by Hadoop
http://wiki.apache.org/hadoop/PoweredBy
![Page 28: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/28.jpg)
ComparaciónRDBMSGrid ComputingSETI@home et al.
![Page 29: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/29.jpg)
ComparaciónRDBMSGrid ComputingSETI@home et al.
![Page 30: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/30.jpg)
ComparaciónRDBMSGrid ComputingSETI@home et al.
![Page 31: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/31.jpg)
ContenidosIntroducción a HadoopMapReduceHadoop Distributed File SystemMapReduce + HDFSSubproyectosDemo
![Page 32: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/32.jpg)
MapReduce
![Page 33: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/33.jpg)
MapReduceComputación distribuida
![Page 34: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/34.jpg)
![Page 35: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/35.jpg)
DEAD LOCK
![Page 36: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/36.jpg)
MapReduceComputación distribuidaProgramación Funcional
![Page 37: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/37.jpg)
MapReduceComputación distribuidaProgramación FuncionalFunciones Map y Reduce
![Page 38: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/38.jpg)
Map
Input
Output
map()
![Page 39: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/39.jpg)
Reduce
Input
Output
reduce()
![Page 40: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/40.jpg)
MapReduceComputación distribuidaProgramación FuncionalFunciones Map y Reducemap() y reduce() en Python
![Page 41: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/41.jpg)
ContenidosIntroducción a HadoopMapReduceHadoop Distributed File SystemMapReduce + HDFSSubproyectosDemo
![Page 42: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/42.jpg)
HDFS
![Page 43: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/43.jpg)
HDFSSuposiciones y ObjetivosArquitecturaNameNodesDataNodesOtras características
![Page 44: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/44.jpg)
Suposiciones y ObjetivosEl hardware fallaGrandes cantidades de datosMáquinas comunesMover la computación, no los datosPortabilidad
![Page 45: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/45.jpg)
Suposiciones y ObjetivosEl hardware fallaGrandes cantidades de datosMáquinas comunesMover la computación, no los datosPortabilidad
![Page 46: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/46.jpg)
Suposiciones y ObjetivosEl hardware fallaGrandes cantidades de datosMáquinas comunesMover la computación, no los datosPortabilidad
![Page 47: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/47.jpg)
Suposiciones y ObjetivosEl hardware fallaGrandes cantidades de datosMáquinas comunesMover la computación, no los datosPortabilidad
![Page 48: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/48.jpg)
Suposiciones y ObjetivosEl hardware fallaGrandes cantidades de datosMáquinas comunesMover la computación, no los datosPortabilidad
![Page 49: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/49.jpg)
Arquitectura
![Page 50: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/50.jpg)
ArquitecturaEspacio de nombres únicoEscribir una vez, leer variasArchivos divididos en bloquesAcceso directo a los datos
![Page 51: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/51.jpg)
ArquitecturaEspacio de nombres únicoEscribir una vez, leer variasArchivos divididos en bloquesAcceso directo a los datos
![Page 52: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/52.jpg)
ArquitecturaEspacio de nombres únicoEscribir una vez, leer variasArchivos divididos en bloquesAcceso directo a los datos
![Page 53: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/53.jpg)
ArquitecturaEspacio de nombres únicoEscribir una vez, leer variasArchivos divididos en bloquesAcceso directo a los datos
![Page 54: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/54.jpg)
Arquitectura
![Page 55: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/55.jpg)
NameNodeControla el espacio de nombresFicheros <> BloquesBloques <> DataNodesConfiguración de clusterMetadata
![Page 56: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/56.jpg)
NameNode MetadataEn memoriaFicherosAtributos: creación, factor de replica.BloquesBloques <> DataNodesLOG
![Page 57: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/57.jpg)
Arquitectura
![Page 58: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/58.jpg)
DataNodeServidor de bloquesReportes al NameNodeEnvió de datos a otros DataNodes
![Page 59: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/59.jpg)
DataNodeServidor de bloquesReportes al NameNodeEnvió de datos a otros DataNodes
![Page 60: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/60.jpg)
DataNodeServidor de bloquesReportes al NameNodeEnvió de datos a otros DataNodes
![Page 61: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/61.jpg)
Arquitectura
![Page 62: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/62.jpg)
Otras característicasDisposición de los bloquesHeartbeatsReplicaciónValidación de los datosBalanceoInterfaz web
![Page 63: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/63.jpg)
Otras característicasDisposición de los bloquesHeartbeatsReplicaciónValidación de los datosBalanceoInterfaz web
![Page 64: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/64.jpg)
Otras característicasDisposición de los bloquesHeartbeatsReplicaciónValidación de los datosBalanceoInterfaz web
![Page 65: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/65.jpg)
Otras característicasDisposición de los bloquesHeartbeatsReplicaciónValidación de los datosBalanceoInterfaz web
![Page 66: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/66.jpg)
Otras característicasDisposición de los bloquesHeartbeatsReplicaciónValidación de los datosBalanceoInterfaz web
![Page 67: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/67.jpg)
Otras característicasDisposición de los bloquesHeartbeatsReplicaciónValidación de los datosBalanceoInterfaz de acceso
![Page 68: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/68.jpg)
Fallos en NameNodeSingle Point of FailureLOGNameNode secundario
![Page 69: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/69.jpg)
Lectura/EscrituraLecturaEscritura
![Page 70: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/70.jpg)
Lectura/EscrituraLecturaEscritura
![Page 71: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/71.jpg)
Más HDFSHDFS APIsMountableHDFS
![Page 72: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/72.jpg)
ContenidosIntroducción a HadoopMapReduceHadoop Distributed File SystemMapReduce + HDFSSubproyectosDemo
![Page 73: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/73.jpg)
MapReduce + HDFS
![Page 74: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/74.jpg)
Nuevos componentesJobTrackerTaskTracker
![Page 75: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/75.jpg)
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
OutputFormar
![Page 76: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/76.jpg)
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
OutputFormar
![Page 77: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/77.jpg)
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
OutputFormar
![Page 78: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/78.jpg)
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
MapTask
OutputFormar
![Page 79: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/79.jpg)
Cliente JobTracker
TaskTracker
map
InputFormat
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
MapTask
OutputFormar
![Page 80: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/80.jpg)
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
MapTask
OutputFormar
![Page 81: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/81.jpg)
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
MapTask
OutputFormar
![Page 82: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/82.jpg)
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
MapTask
OutputFormar
![Page 83: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/83.jpg)
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
MapTask
OutputFormar
![Page 84: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/84.jpg)
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
MapTask
OutputFormar
![Page 85: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/85.jpg)
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
OutputFormar
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
![Page 86: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/86.jpg)
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
OutputFormar
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
![Page 87: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/87.jpg)
Hadoop StreamingUtilidadSencillezPensar en tuberías (à la POSIX)Prototipado rápidoNo JavaDemo
![Page 88: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/88.jpg)
ContenidosIntroducción a HadoopMapReduceHadoop Distributed File SystemMapReduce + HDFSSubproyectosDemo
![Page 89: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/89.jpg)
Subproyectos
![Page 90: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/90.jpg)
Subproyectos
Core
MapReduce HDFS
Pig
ZooKeeper
Hive HBase
![Page 91: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/91.jpg)
Pig
ZooKeeper
Hive HBase
Core
Core
MapReduce HDFS
![Page 92: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/92.jpg)
ZooKeeper
Core
MapReduce HDFS
Pig
ZooKeeper
Hive HBase
![Page 93: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/93.jpg)
ZooKeeperA. distribuidas: fallos parcialesSimpleExpresivoAlta disponibilidadLoosely coupledAlto rendimiento
![Page 94: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/94.jpg)
ZooKeeperA. distribuidas: fallos parcialesSimpleExpresivoAlta disponibilidadLoosely coupledAlto rendimiento
![Page 95: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/95.jpg)
ZooKeeperA. distribuidas: fallos parcialesSimpleExpresivoAlta disponibilidadLoosely coupledAlto rendimiento
![Page 96: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/96.jpg)
ZooKeeperA. distribuidas: fallos parcialesSimpleExpresivoAlta disponibilidadLoosely coupledAlto rendimiento
![Page 97: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/97.jpg)
ZooKeeperA. distribuidas: fallos parcialesSimpleExpresivoAlta disponibilidadLoosely coupledAlto rendimiento
![Page 98: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/98.jpg)
ZooKeeperA. distribuidas: fallos parcialesSimpleExpresivoAlta disponibilidadLoosely coupledAlto rendimiento
![Page 99: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/99.jpg)
Pig
Core
MapReduce HDFS
Pig
ZooKeeper
Hive HBase
![Page 100: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/100.jpg)
PigLenguaje de script: Pig LatinNivel de abstracciónOperaciones y transformacionesMapReduce JobsNo es SQL
![Page 101: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/101.jpg)
Hive
Core
MapReduce HDFS
Pig
ZooKeeper
Hive HBase
![Page 102: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/102.jpg)
HiveAnálisis de datosDatos estructuradosQuery Language (à la SQL)No es un sistema Real Time
![Page 103: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/103.jpg)
HBase
Core
MapReduce HDFS
Pig
ZooKeeper
Hive HBase
![Page 104: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/104.jpg)
HBaseBase de DatosDistribuidaOrientada a columnasBasada en BigTable
![Page 105: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/105.jpg)
Contenidos• Introducción a Hadoop• MapReduce• Hadoop Distributed File System• MapReduce + HDFS• Subproyectos• Demo
![Page 106: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/106.jpg)
Demo
![Page 107: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/107.jpg)
Documentación
• Hadoop Homepagehttp://hadoop.apache.org/
• Hadoop Wikihttp://wiki.apache.org/hadoop/
![Page 108: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/108.jpg)
Libros
• Hadoop: The Definitive GuideTom White – O’Reilly (Julio 2009)http://oreilly.com/catalog/9780596521998/
• Hadoop in ActionChuck Lam y James Warren – Manning (Octubre 2009)http://www.manning.com/lam/
• Pro HadoopJason Venner – Apress (No publicado)http://www.apress.com/book/view/1430219424
![Page 109: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/109.jpg)
Preguntas?
![Page 110: Hadoop: MapReduce para procesar grandes cantidades de datos](https://reader030.vdocuments.net/reader030/viewer/2022033018/55d555b5bb61eb101a8b45f5/html5/thumbnails/110.jpg)
Créditos imágenes
• Deadlock – Unknown Licensevia reddit: http://www.reddit.com/r/programming/comments/65pcg/deadlock_traffic_version_pic