segmentacion - departamento de...

Post on 21-Jan-2020

5 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Segmentacion

Segmentacion

•  Tecnica no supervisada que intenta particionar (segmentar) a los individuos (casos) de modo tal que los grupos formados sean heterogeneos entre si y homogeneos en si (dentro de los grupos).

Objetivos

•  Obtener una representación “compacta” de los datos, para: – Generar una clasificación – Describir los datos – Definir “prototipos” de interes. – Resumir la infprmación. – Achicar el tamaño del problema.

Sin Clusterización

X1

X2

Prototipo (centro) erroneo

Con Clusterización

X1

X2 Prototipo 1 Prototipo 2

Ejemplo: 4 clusters o 9 clusters ?

Complejidad del problema

Para K=3 y N=30 P(N,K)= 2 * 1014

Cantidad de objetos

Cantidad de clusters

Cantidad de segmentaciones posibles

Espacios Métricos

Ejemplo de Espacio Métrico

M

x

y

z

Métricas •  Datos continuos: Distancia Euclidea

•  Datos categóricos: Distancia Manhattan

Distancia Chi Cuadrado

Distancia

Proporción promedio marginal de la variable j

Las J proporciones de la observación X

Las J proporciones de la observación Y

Dos tipos de segmentacion

•  Metodos jerarquicos – Ascendentes o Aglomerativos – Decendentes o de Difusión

•  Metodos no jerarquicos o de particion – K medias – PAM

•  Métodos mixtos

Ejemplo Distancias

Sitio o localización

Definiciones Objetos

Dimensión del

espacio Cantidad de grupos

Partición

Disjuntos

Totalidad

No hay grupos vacios

Métodos Jerarquicos

•  Producen un “continuo” de particiones jerarquicas facilmente visualizable mediante un dendograma.

•  Dependen de dos nociones de similaridad : – Entre objetos. – Entre clusters.

•  No necesitan definir una cantidad de grupos “a priori”.

hclust

Métodos Jerárquicos (HC)

Descendente Ascendente

Cluster 1 Cluster 2

Jerarquia de particiones Objetos

Particiones

Método Ascendente

INICIO

1 IND. = 1 CLUST.

MATRIZ DIST.

UNIR 2 CLUSTERS

1 CLUSTER ?

SI

NO

CORTAR EL DENDOGRAMA

FIN

Matriz de Distancias C1 … Cl Ci Cj … Cn

C1 0 … Cl 0 D(Cl,Ci) D(Cl,Cj)

Ci D(Cl,Ci)

0 D(Ci,Cj)

Cj D(Cl,Ci)

… D(Cl,Cj)

D(Ci,Cj)

0 … D(Cl,Cn)

… Cn 0

Recalculo de la Matriz de Distancias

C1 … Cl Ci,j … Cn

C1 0 … Cl 0 D(Cl,Ci,j) Ci,j D(Cl,Ci,j)

D(Cl,Ci,j)

0 D(Cn,Ci,j)

… Cn 0

Distancia entre clusters: Single linkage

Distancia entre clusters: Complete Linkage

Distancia entre clusters: Centroid

Distancia entre clusters: Average

Otras distancias entre clusters

Desventajas de HC

•  Costoso en grandes bases de datos. •  Es lento.

Ventajas de HC •  Sugiere el número de clusters. •  Establece una jerarquía de clusters. •  El dendograma permite la visualización

del proceso.

Métodos de Partición o Combinatorios

•  Producen grupos (clusters) mediante el agrupamiento de objetos situados en lugares cercanos del espacio al que petenecen.

•  Dependen de la existencia de coordenadas de los objetos.

•  Requieren definir la cantidad de grupos. •  Requieren definir una función de perdida.

Criterio del ECM Dado un conjunto de objetos queremos agruparlos en La suma de errores al cuadrado se define como:

Donde

es una matriz cc

si

es la matriz de prototipos o centroides

es la media muestral

con

Otros criterios

Diametro del Cluster

Star index

Radio del Cluster

Cut index

K medias kmeans

K-Medias (Paso 0)

9 Objetos

K-Medias (Paso 1)

Dos centros tomados al azar

K-Medias (Paso 2)

Clusters determinados por los centros

K-Medias (Paso 3)

Nuevos centros calculados

K-Medias (Paso 4)

Nuevos clusters determinados por los centros

K-Medias (Paso 5)

Nuevos centros calculados

Desventajas de K-medias •  Converge a un optimo local (no global). •  La clusterización final depende de los

centros iniciales. •  Requiere fijar el número de clusters

previamente.

Ventajas de K-medias •  Es rápido. •  Válido con grandes bases de datos.

Métodos Mixtos

•  Consisten en aplicar: – Primero: Un método combinatorio (k-medias)

con una cantidad de clusters grande (K=200). – Segundo: Un método jerarquico al resultado

del método combinatorio. Es decir, se unen los clusters hallados en el primer método.

Así, los clusters finales consisten en la unión de

los objetos pertenecientes a los clusters unidos en el segundo método.

Ejemplo 1: Proteínas

Dendograma 2 Clusters

3 Clusters

4 Clusters 5 Clusters

Mapa de Europa

K medias Vs. HC con K=5

Mean Shift

•  Técnica basada en KDE •  Se originó como un método tipo “hill-

climbing” para “Bump Hunting” •  Permite captar clusters con “formas”

complejas •  Es (relativamente) lento •  Obedece a un enfoque no-paramétrico

ms

La Idea: Mean Shift como método de Bump Hunting

Media Punto inicial

Desplazamiento hacia la media

Media Punto inicial

Convergencia

Moda de la densidad

Calculando el Mean Shift

Clustering con Mean Shift

Se sigue (con MS) cada objeto hasta su convergencia

Cluster 1

Cluster 2

Todos los objetos que convergen al mismo punto pertenecen al mismo cluster

Propiedades

•  Convergencia asegurada para todos los objetos

•  Cantidad de clusters dependiente de la ventana en la KDE

Ventana grande -> 1 Cluster

Ventana chica -> 2 Clusters

Un Ejemplo Simple (Iris Data)

Usando una Ventana Grande (ventana = 50% rango)

Using unaa Ventana Chica (ventana = 35% rango)

Un poco mas chica (20%) …

Determinación del número de clusters

•  Criterio de Clusterización Cúbico de Sarle (CCC).

•  Estadístico GAP. •  Estadístico Psuedo-F (Calinkski-

Harabasz).

Validación de los clusters •  Criterios externos: Comparan la

clusterización con algúna segmentación previa de referencia.

•  Criterios internos: Analizan la significatividad de los clusters solo considerando los datos usados en la clusterización.

•  Criterios relativos: Comparan la clusterización con otras resultantes de segmentaciones alternativas.

El Estadístico Pseudo F (Calinkski-Harabasz)

Media general

Media cluster i

K clusters

Cantidad de Objetos

Estadístico GAP

Distancias WITHIN observadas

Distancias WITHIN esperadas bajo H0 (K=1)

Cantidad optima de clusters

clusGap

Feature Spaces Complejos

•  El espacio de covariables puede ser tan complejo como se quiera.

•  Se pueden definir nuevos features que capten comportamientos diferenciales del fenómeno.

•  Es fundamental la ponderación que se da a cada feature.

Automatic and Extensive Cropland Classification Based on

Satellite Data

Why Automatic Crop Classification ?

•  Crops in Argentina: ~ 34.000.000 has, ~ 400.000 fields

•  Screening of unknown regions •  Global yield estimation and tax evasion

control •  Valuable information for agro-related and

agro-insurance companies •  Precise georeference of croplands •  Global crop area assesment and yield

estimation

Some Specific Classification Goals

•  To assess crop share (relative proportions) in a large area (no georeference available of the fields)

•  To estimate yield of an specific crop/season in a large area (no georeference available of the fields)

•  To detect and to georeference fields with specific crops (no georeference available of the fields)

•  To detect kind-of-crop info from specific fields (available georeference of the fields)

Kind of Crops to be Detected

•  Arable land – Summer crops

•  Soybean •  Corn

– Winter crops •  Wheat •  Sunflower

•  Non arable land

Very easy Easy

Hard

Hard

Remote Sensing Instruments

LON LAT

NIR Band

Red Band

… … … … … … … … … …

Spatial variables Added attributes

ID Tas 3293

Estado 18

Has 8

Danio 3.4

Lat −31.8573

Lon −61.7189

Fec Sin 2012−12−19 10:10:00

ID Sin 876

Fec Siem 2012−10−30 16:33:00

Main Available Remote Sensing Instruments

•  MODIS (MODerate Imaging Spectrometer) –  250m X 250m –  2 images per day –  2 satellites (Terra and Aqua) –  36 spectral bands

•  LANDSAT 8 –  15m X 15m (interpolated)

–  1 image every 16 days –  1 satellite –  11 bands

Vegetation Indices (VIs)

•  CI •  EVI •  ENVI •  NDVI

Source: http://www.markelowitz.com

Wavelength

-1 ≤ NDVI ≤ 1 0 ≤ NDVI ≤ 1 For plants In general

Ref

lect

ed In

tens

ity

How is a Typical Phenological Crop Cycle ?

Nov Jan Mar May Jul

0.0

0.2

0.4

0.6

0.8

1.0

Evolucion del cultivo

Tiempo

NDV

I

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●●

●●

●●

●●

●●

Start of season

Time

End of season Maturity

of the plant

Daily (2) NDVI measurements

Soybean cycle

Terra measurement Aqua measurement

Double-Crop Phenological Cycle

May Jul Sep Nov Jan Mar May

0.0

0.2

0.4

0.6

0.8

1.0

Evolucion del cultivo

Tiempo

NDV

I

●●

●●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

Time

Winter crop

Summercrop

Terra measurement Aqua measurement

Landsat: Big Data ! Argentina China

Landsat tile = 185km X 185 km ~

17.500px X 14.500 px

Cropland Detection Using Landsat 8

Unsupervised Approach

−59.10 −59.09 −59.08 −59.07 −59.06

−37.73

−37.72

−37.71

−37.70

NDVI image (2014−10−16)

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Visible image from Open Street Map NDVI image

(2014-10-16)

Point of interest

●●

●●

●●

●●●

●●●●

●●

●●●●

●●●●●●●●●●

●●

●●●

●●

●●

●●

●●

●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●

●●●●●●●●●●●

●●

●●●●

●●

●●

●●●●

●●●

●●

●●

●●

●●●

●●

●●●

●●●●

●●●

●●●●

●●

●●

●●

●●

●●●●

●●

●●●●

●●●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●●

●●●

●●●●●●●●

●●

●●

●●

●●●●●

●●

●●●●●

●●

●●

●●

●●●●

●●

●●●

●●

●●

●●●●

●●●

●●

●●●●●●●●

●●

●●●●

●●●●●

●●

●●●●●

●●

●●

●●

●●

●●

●●

●●

●●●●●●●

●●●●●

●●●●

●●●●

●●

●●

●●

●●●●●●●●●

●●

●●

●●

●●●

●●

●●●

●●

●●●

●●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●●

●●●●●

●●

●●

●●●●

●●●●●

●●●●

●●●●●

●●

●●●●●

●●●●

●●

●●●●●

●●

●●

●●

●●

●●

●●

●●●

●●●●●●●●●●●●

●●●●●

●●●

●●●●●●

●●●●●●●●●●●●

●●●●

●●●●●

●●

●●●

●●●●●●●●●●

●●

●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●

●●●●●●

●●●●

●●●●●●●●●

●●●●●●●

●●●●●●●●●

●●●●●●

●●●●

●●

●●

●●

●●

●●●●

●●

●●●

●●

●●●●●●

●●●●●●●●●●●●

●●●●●●●●●

●●●

●●●●●●●●●●●●

●●

●●

●●

●●●●

●●

●●●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●●●

●●●

●●●●

●●●●●●●●●●

●●●●●●

●●

●●●●●●

●●●●●●●●

●●

●●

●●●●●●

●●●●●●●●●●

●●●●●●●●●●

●●●●●●●●●

●●

●●●●●●●●●●●

●●●

●●●

●●●●●●●●

●●●●●●●●

●●

●●●●●●●●●●●●●●●●●●●●●●●

●●●●

●●

●●●●●●●●

●●●●●

●●●

●●●

●●●

●●●●●●

●●

●●

●●

●●

●●●

●●●●

●●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●●●

●●●●●●●●●●●●●●●●●●

●●●●

●●●●

●●●●●●●●●●

●●

●●●

●●

●●●●●●●●

●●●

●●●●●●●●●●●●

●●●●●●●

●●

●●●●●●

●●●●●●●●●●●

●●●●

●●●

●●●●

●●

●●

●●

●●

●●●

●●●

●●●●

●●

●●●●●●●●

●●

●●

●●

●●

●●

●●

●●●●●

●●●●

●●●

●●●●

●●

●●

●●●●●

●●●

●●●

●●

●●●●

●●●●

●●

●●●●●

●●●

●●●●

●●●

●●●●

●●

●●●●●●●●●

●●

●●●●●●●●

●●●●●●●

●●●●●●

●●●●●●●●●

●●●●●●●

●●

●●

●●●●●●●

●●

●●●●●●●

●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●

●●●●●●

●●●●

●●●●●

●●●●

●●

●●

●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●

●●

●●●●●●●●●

●●●●

●●

●●

●●●●●●

●●●●●

●●●●●●●

●●

●●

●●●●●●●

●●●●●●●●●●

●●

●●

●●●●●

●●●

●●

●●

●●●

●●●

●●●

●●

●●●●

●●●

●●

●●

●●

●●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●●●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●●

●●●●

●●

●●●

●●●●●●●●●●●●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●●●●

●●

●●

●●

●●●

●●

●●

●●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●●

●●

●●

●●

●●●

●●

●●●●

●●

●●●

●●●●●●

●●●●●●●●●●●●

●●

●●

●●●●

●●●●

●●

●●●

●●●

●●

●●

●●

●●●●●●●●

●●●●●●●

●●●

●●

●●

●●●●●●

●●

●●●●●

●●

●●●

●●●

●●

●●

●●

●●●

●●

●●

●●●●●

●●

●●

●●

●●●

●●

●●●

● ●●●●

●●●●●●●●

●●●●

●●●●●

●●●●●●●●●●●●●●●●●●●

1 3 5 7 9 11 13 15 17 19 21 23 25

0.2

0.4

0.6

0.8

NDVI distribution

NDV

I

−59.10 −59.09 −59.08 −59.07 −59.06−37.73

−37.72

−37.71

−37.70

NDVI clustering

5

10

15

20

25

Single Image Clustering based on X + Y + NDVI

−59.10 −59.09 −59.08 −59.07 −59.06

−37.73

−37.72

−37.71

−37.70

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Feature space

25 Clusters

The Feature Space X + Y + NDVI

Field of interest

Field Detected

−59.10 −59.09 −59.08 −59.07 −59.06

−37.73

−37.72

−37.71

−37.70

5

10

15

20

25

Clusters of similar NDVI values Polygon induced by the method

Actual georeferenced field

−59.10 −59.09 −59.08 −59.07 −59.06

−37.73

−37.72

−37.71

−37.70

0.2

0.3

0.4

0.5

0.6

0.7

0.8

−59.10 −59.09 −59.08 −59.07 −59.06

−37.73

−37.72

−37.71

−37.70

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Time series of Landsat images

●●

●●

● ●

0.1

0.2

0.3

0.4

0.5

0.6

NDVI evoliution (LAndsat)

Time

NDVI

Sep 14/2014 Nov 17/2014 Jan 20/2015 Mar 25/2015 May 28/2015 Jul 31/2015 Oct 03/2015

●●

●●

−59.10 −59.09 −59.08 −59.07 −59.06

−37.73

−37.72

−37.71

−37.70

0.12

0.13

0.14

0.15

0.16

Cloudy image Freshly sowed field

Crop close to maturity

Whole image NDVI evolution

Cloudy Clear sky

Working With a Temporal Ensemble of Images

Time

ND

VI

Pixel 2

NDVI evolution

NDVIpx = µpx + αpx * Time+ βpx * Time2

Pixel-wise modelling

Added Attributes Based on Statistical Modelling of NDVI Temporal Evolution

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

NDVIpx = µpx + αpx * Time + βpx * Time2

^ ^ ^

Pixel-wise modelling

False color image

Clustering Based on Modelled NDVI Temporal Evolution

−37.75 −37.74 −37.73 −37.72 −37.71 −37.70 −37.69

−59.0

9−59.0

8−59.0

7−59.0

6

5

10

15

20

25

Time

ND

VI 25 NDVI

estimated evolutions 25 clusters

2 4 6 8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

x

1:11

Field of interest

Feature space

X +Y +µ + α + β

top related