estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados...
TRANSCRIPT
![Page 1: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/1.jpg)
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 1
Estudo comparativo entre treinamento
supervisionado e não supervisionado em
agrupamento de dados nos IDSs baseados em
anomalias.18 Maio 2016
Paulo Damasceno Barreto
![Page 2: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/2.jpg)
2
Incidentes reportados ao CERT.br
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. Fonte:http://www.cert.br/stats/incidentes/
![Page 3: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/3.jpg)
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 3
Crescimento dos ataques a servidores WEB
Incidentes de segurança caem 31% em 2015, mas ataques a servidores web aumentam 128%
Fonte: Roberta Prescott - 15/03/2016
ABRANET – Associação Braseira de Internet
http://www.abranet.org.br/Noticias/Incidentes-de-seguranca-caem-31%25-em-2015,-mas-ataques-a-servidores-web-aumentam-128%25-1010.html#.VzHR5m7R9pg
![Page 4: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/4.jpg)
4
Principais ataques a servidores web
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. Fonte: GUPTA E THILAGAN (2013)
![Page 5: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/5.jpg)
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 5
IDS – Intrusion Detection System
O objetivo do IDS é identificar ataques reais e gerar alertas
![Page 6: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/6.jpg)
6
Classificações Possíveis das requisições
VP (Verdadeiros Positivos): quantidade de ataques corretamente identificados;
FP (Falsos Positivos): Quantidade de requisições normais erroneamente classificadas como ataque;
VN (Verdadeiros Negativos): quantidade de requisições normais (que não foram erroneamente classificados como ataques);
FN (Falsos Negativos): quantidade de ataques que não foram identificados e erroneamente classificados como requisições normais. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
![Page 7: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/7.jpg)
7
Tipificação dos IDS
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
![Page 8: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/8.jpg)
8
Tipificação dos IDS
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
![Page 9: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/9.jpg)
9
Agrupamento de dados
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
Clustering ou agrupamento é a tarefa de inserir objetos dispersos em grupos de forma que objetos no mesmo cluster sejam mais similares do que objetos pertencentes a outros clusters.
![Page 10: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/10.jpg)
10
Agrupamento de dados com k-means
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
O algoritmo de agrupamento K-means utiliza o conceito de centroides, que representam o centro de um agrupamento. Este centro (centroide) é calculado de modo não supervisionado (automaticamente) durante o processo de agrupamento de acordo com os valores dos elementos que serão agrupados.
Fonte Imagem: Ricardo Prudencio - http://slideplayer.com.br/slide/1593946/
![Page 11: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/11.jpg)
11
Campos do cabeçalho HTTP usados no agrupamento.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
1. IP de Origem2. Caminho de Referência (Resource Path), 3. Métodos (Method),4. Nome de domínio ou endereço IP do site web
(Host),5. Agente do usuário. (User-Agent), 6. Cookie,7. URL de referencia (Referer)8. Conteúdo (Content).
![Page 12: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/12.jpg)
12
Transformação de dados em valores numéricos
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
A conversão precisa representar a similaridade entre os campos para que fiquem próximos no processo de agrupamento e desta forma estabelecer limiares mínimos e máximos consistentes.
Em requisições normais, os tamanhos dos campos possuem valores parecidos e os limiares mínimos e máximos num processo de agrupamento são consistentes e possuem similaridade entre si.
![Page 13: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/13.jpg)
13
Estabelecendo os limites de cada grupo
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
Determinar os limites é um dos grandes desafios no processo de agrupamento.
![Page 14: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/14.jpg)
14
Estabelecendo os limites de cada grupo
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
Os elementos que não pertencem a grupo algum (outliers) são classificados como ataque
![Page 15: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/15.jpg)
15
Treinamento de um IDS baseado em anomalia com agrupamento de dados
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
o treinamento é a observação do comportamento da rede com o objetivo de estabelecer um modelo de comportamento normal e determinar os limites dos agrupamentos.
![Page 16: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/16.jpg)
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 16
Treinamento Não Supervisionado
As requisições não possuem filtro ou controle de modo que podem conter ataques. Se a quantidade de requisições maliciosas representarem uma significativa porcentagem de conexões, o treinamento fica comprometido pois o IDS entenderá que os ataques são requisições normais.
![Page 17: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/17.jpg)
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 17
Treinamento Não Supervisionado
A fim de compensar os desvios gerados por requisições maliciosas existentes durante o treinamento, ajustes são realizados nos limites dos agrupamentos.
![Page 18: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/18.jpg)
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 18
Treinamento Supervisionado
O ambiente de rede é controlado de modo que todas as requisições HTTP são normais.
![Page 19: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/19.jpg)
19
Treinamento SupervisionadoX
Treinamento Não supervisionado
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
Qual oferece melhores resultados ?
![Page 20: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/20.jpg)
20
Treinamento SupervisionadoX
Treinamento Não supervisionado
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
O objetivo é apresentar um estudo comparativo entre treinamento supervisionado e não supervisionado em IDSs baseados em anomalias com agrupamento de dados e através das analises comparativas dos resultados, determinar qual técnica oferece melhor resultado nas taxas de detecção de intrusão (VP) e falso positivo (FP) e consequentemente determinar qual técnica oferece melhor limite de agrupamento.
![Page 21: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/21.jpg)
21
Origem dos dados testados da base CELEPAR – Tecnologia da informação e comunicação do Paraná.
Esta base formou-se de requisições a 2 servidores web em 2010 em rede puramente IPv4. Foram gerados aproximadamente 5 milhões de requisições, separados em 20 arquivos com aproximadamente 250.000 requisições cada. O primeiro servidor web (WS1) é um portal de noticias criado com a ferramenta DRUPAL baseado em PHP. O outro servidor web (WS2) também disponibiliza notícias e possui diversos fóruns, desenvolvidos com a ferramenta XOOPS, também em PHP, acessados por centenas de pessoas.Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
![Page 22: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/22.jpg)
22
Dados usados no teste
São realizados testes com um total de 2.477.693 requisições analisadas e catalogadas da base de dados CELEPAR, com 2.499.730 requisições catalogados nos primeiros 10 arquivos, sendo que 2.477.693 são requisições normais e 22.037 são anomalias ou ataques.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
![Page 23: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/23.jpg)
23
Dados usados no teste
As requisições normais foram separadas dos ataques e anomalias gerando vinte arquivos. Dez arquivos com requisições normais e dez arquivos com ataques e anomalias. Desta forma os testes são mais precisos para definir o desempenho do IDS nas taxas de FP, FN, VP e VN.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
![Page 24: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/24.jpg)
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 24
Escopo dos testes e resultados
Os testes realizados limitam-se a classificar as requisições como normais ou ataques.
![Page 25: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/25.jpg)
25
Testes com Treinamento supervisionado
O segundo arquivo (teste2) da base de dados CELEPAR possui 249.998 registros e foi escolhido para ser usado como base de dados de treinamento. Todos os 7.698 registros classificados como ataques e anomalias foram excluídos para o treinamento.
Nenhum ajuste aos limites dos agrupamentos foi realizado após o treinamento.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
![Page 26: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/26.jpg)
26
Resultado dos testes com Treinamento supervisionado nas bases de dados de requisições normais.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
![Page 27: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/27.jpg)
27
Resultado dos testes com Treinamento supervisionado nas bases de dados de ataques
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
![Page 28: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/28.jpg)
28
Testes com Treinamento não supervisionado
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
Diversas baterias de testes foram realizadas a fim de determinar qual o melhor ajuste nos limites dos agrupamentos.
Testes foram realizados, primeiro sem alterar os limites dos agrupamentos, sem seguida, os limites foram reduzidos em 3%, 7% e 10%.
Observou-se que na medida em que os limites eram reduzidos, a taxa de detecção também aumentava. Entretanto, a taxa de falsos positivos aumentava também. Portanto, na busca do melhor equilíbrio entre a taxa de detecção e de falso positivo, o melhor valor foi a redução dos limites em 7%.
![Page 29: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/29.jpg)
29
Testes com Treinamento não supervisionado
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
Foi usado a mesma base de dados (teste2) da base de dados CELEPAR que possui 249.998. Todos os 7.698 registros de ataques foram mantidos. A quantidade de requisições maliciosas representam 3,08% do total de requisições.
![Page 30: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/30.jpg)
30
Resultado dos testes em requisições normais com Treinamento não supervisionado com redução dos limites dos agrupamentos em 7%.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
![Page 31: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/31.jpg)
31
Resultado dos testes em requisições de ataques com Treinamento não supervisionado com redução dos limites dos agrupamentos em 7%.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
![Page 32: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/32.jpg)
32
Comparação dos Resultados
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
![Page 33: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/33.jpg)
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 33
Conclusão O treinamento supervisionado obteve melhor
resultado em todos os aspectos. A eficácia superior do IDs demonstra que a melhor consistência dos limites dos agrupamentos obtida é com treinamento supervisionado e reflete diretamente na capacidade de detecção e consequentemente menores taxas de falsos positivos.
Ajustes nos limites dos agrupamentos não são suficientes para compensar dados maliciosos inseridos no treinamento, mesmo estes sendo em pouca quantidade.
![Page 34: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias](https://reader036.vdocuments.net/reader036/viewer/2022062503/58acb22b1a28ab68608b58cd/html5/thumbnails/34.jpg)
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 34
Obrigado!Paulo Barreto – IPT - [email protected] 11 98635-0751