applicazione di metodi statistici alla classificazione del traffico in reti dati
DESCRIPTION
Applicazione di metodi statistici alla classificazione del traffico in reti dati. Alessandro Finamore. Marco Mellia Fabio Neri. Relatori:. Il problema della classificazione. Traffico generico. Internet Service Provider. Qual è il protocollo della comunicazione ?. 1/17. - PowerPoint PPT PresentationTRANSCRIPT
Applicazione di metodi statistici allaclassificazione del traffico in reti dati
Alessandro Finamore
Marco MelliaFabio Neri
Relatori:
2/17
Il problema della classificazione
Porta:
Porta: 4662/4672
Porta:
Porta:
Payload: “bittorrent”
Payload: E4/E5
Payload:
Payload: protocollo RTP
Skype Bittorrent
Gtalk eMule
3/17
Classificazione statistica
Caratterizzazione statistica delle comunicazioni
Fase 1
Statistiche
Fase 3
Testing
Sviluppo del sistema di predizione
Analisi degli errori di classificazione
Fase 2
PredizioneTraffico noto
4/17
Classificazione statisticaFase 1
Statistiche
Fase 3
Testing
Fase 2
PredizioneTraffico noto
Caratterizzazione statistica delle comunicazioni Test2
5/17
Chunking e 2
Primi N bytePrimi N byte
C chunks da
b bits
21
2C[ ], … ,
Vettore di statistiche
Frequenze dei valori assunti dai chunk
Distribuzioneuniforme
8/17
Classificazione statisticaFase 1
Statistiche
Fase 3
Testing
Fase 2
PredizioneTraffico noto
Caratterizzazione statistica delle comunicazioni
Sviluppo del sistema di predizione Test
Distanza geometrica tra punti in uno spazio
2
Classificazione geometrica
9/17
21
2C[ ], … ,
Iperspazio
Regioni di classificazione
Distanza Euclidea
Support VectorMachine
2i
2j
classe
classe
classenon nota
Distanza Euclidea
10/17
2i
2j Centroide
media aritmetica
Ipersfera min { Falsi Pos. } min { Falsi Neg. }
Affidabilità distanza euclidea
Support Vector Machine
11/17
Spazio dei campioni(dim. D)
Kernel function
Spazio delle feature
(dim. ∞)
Kernel functions Clusterizzazione più
semplice
Support Vector Machine
11/17
Support vectors
Support vectors
Kernel functions Clusterizzazione più
semplice
Margine Massimizzazione Bordo di classificazione Support Vector LibSVM
Support Vector Machine
11/17
Kernel functions Clusterizzazione più
semplice
Margine Massimizzazione Bordo di classificazione Support Vector
Classificazione Distanza dal bordo
LibSVM
Probabilità
p ( classe )
12/17
Classificazione statistica
Caratterizzazione statistica delle comunicazioni
Fase 1
Statistiche
Fase 3
Testing
Sviluppo del sistema di predizione
Analisi degli errori di classificazione
Fase 2
PredizioneTraffico noto
Test
Distanza geometrica tra punti in uno spazio
2
Analisi dei Falsi Positivi e Falsi Negativi
13/17
Analisi delle tracce datiInternet
Fastweb
Training + Other Modello Traffico noto Falsi Negativi Traffico generico Falsi Positivi
Traccia
RTPeMuleDNS
Trafficonoto
other
Trafficogenerico
circa 1 giorno di cattura
20 GByte ditraffico UDP
14/17
Errori % per alcuni casi critici
Caso A Caso BRtp 0.08 0.23Edk 13.03 7.97Dns 6.57 19.19
Caso A Caso B0.01 0.083.99 0.11.39 2.36
Caso A Caso Bother 13.6 17.01
Distanza euclidea SVM
Caso A Caso B36.68 26.92
Le SVM descrivono bene la geometria delle nuvole … ma è difficile eliminare lo spazio non rappresentativo
Traf. noto(Falsi Neg.)
Traf. gen.(Falsi Pos.)
Introduzione di una classe complementare
15/17
Errori % per alcuni casi critici
Caso A Caso BRtp 0.08 0.23Edk 13.03 7.97Dns 6.57 19.19
Caso A Caso B0.01 0.083.99 0.11.39 2.36
Caso A Caso B- 0.050.98 0.540.12 2.14
Caso A Caso Bother 13.6 17.01
Distanza euclidea SVMSVM con classe complementare
Caso A Caso B36.68 26.92
Caso A Caso B- 0.18
16/17
Prestazioni
Il calcolo del può richiedere molta memoria
Effettuate solo analisi offline
Attraverso ottimizzazione mirate è possibile ottenere risultati anche online
Numero di bit per chunk Numero di chunk
2
La tempistica di predizione è lineare
Valutazione puntuale difficile
Numero di bit per chunk Numero di chunk Numero di protocolli Numero di Support Vector
17/17
Conclusioni
Il è un utile operatore di classificazione2
Le SVM danno risultati migliori ma richiedono l’uso di una classe complementare
Un semplice classificatore a distanza euclidea può essere efficace