Sec4ML: anonimização de dados de incidentes de segurança da informação para tarefas de aprendizado de máquina

Silva, Madalena Lopes e

Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)

Use este identificador para citar ou linkar para este item: https://www.repositorio.mar.mil.br/handle/ripcmb/845628

Título:	Sec4ML: anonimização de dados de incidentes de segurança da informação para tarefas de aprendizado de máquina
Autor(es):	Silva, Madalena Lopes e
Orientador(es):	Cavalcanti, Maria Cláudia Reis
Palavras-chave:	Segurança da informação Anonimização Dados ligados Aprendizado de máquina Inteligência artifical. Princípios FAIR
Áreas de conhecimento da DGPM:	Segurança da informação
Data do documento:	2022
Editor:	Instituto Militar de Engenharia (IME)
Descrição:	Apesar do crescimento exponencial da World Wide Web desde sua criação, ainda há poucos conjuntos de dados disponíveis de incidentes de cibersegurança a serem reutilizados devido a várias questões, tais como preocupações de preservação da privacidade e padronização do formato de publicação de dados. Como resultado, a análise de incidentes de domínio tem um impacto precário no desenvolvimento de Sistemas de Detecção de Intrusão (IDS). As práticas LOD (Linked Open Data), que permitem o compartilhamento de dados na Web como um grafo de dados grande e interligado, juntamente com os princípios FAIR (Findable, Accessible, Interoperable, and Reusable), que orientam a publicação de dados para reutilização, podem apoiar o compartilhamento de conjuntos de dados de incidentes de segurança cibernética. Ademais, técnicas de anonimização podem ser usadas para lidar com preocupações de privacidade. Além disso, as técnicas de Aprendizado de Máquina (AM) podem ser usadas para melhorar a eficácia do IDS. Este trabalho propõe a abordagem Sec4ML que apoia a preparação de conjuntos de dados de incidentes de cibersegurança para técnicas de AM usando práticas LOD e seguindo os princípios FAIR, envolvendo, entre outros, subprocessos de anonimização e pré-processamento, que são ilustrados usando dados de conjuntos de dados públicos.
Abstract:	Despite the exponential growth of the World Wide Web since its creation, there are still few available datasets of cybersecurity incidents to be reused due to several issues, such as privacy-preserving concerns and data publication format standardization. As a result, the domain incidents analysis are precarious impacting on the Intrusion Detection Systems (IDS) development. The LOD (Linked Open Data) practices, which allows the sharing of data on the Web as a large and interconnected data graph, together with the FAIR (Findable, Accessible, Interoperable, and Reusable) principles, which guides the publication of data for reuse, can support the sharing of cybersecurity incidents datasets. Furthermore, anonymization techniques can be used to handle privacy concerns. Moreover, Machine Learning (ML) techniques can be used to improve IDS effectiveness. This work proposes the Sec4ML approach which supports the preparation of cybersecurity incident datasets for ML techniques using LOD practices and following FAIR principles, involving, among others, anonymization and preprocessing subprocesses, which are illustrated using public datasets.
Tipo de Acesso:	Acesso aberto
URI:	https://www.repositorio.mar.mil.br/handle/ripcmb/845628
Tipo:	Dissertação
Aparece nas coleções:	Tecnologia da Informação: Coleção de Dissertações

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Dissertacao-Madalena-Lopes.pdf		8,89 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas