Use este identificador para citar ou linkar para este item:
https://www.repositorio.mar.mil.br/handle/ripcmb/846311
Título: | Análise Híbrida de Ransomware para Sistema Operacional Windows |
Autor(es): | Gusmão Neto, Augusto Parisot de |
Orientador(es): | Machado, Raphael Carlos Santos |
Palavras-chave: | Ransomware Cuckoo Sandbox Análise dinâmica |
Áreas de conhecimento da DGPM: | Tecnologia da Informação |
Data do documento: | 2023 |
Editor: | Universidade Federal Fluminense (UFF) |
Descrição: | O crescimento do acesso a dispositivos computacionais aumentou sobremaneira desde o início dos anos 2000. A miniaturização de componentes eletrônicos, os avanços na tecnologia de baterias e telas barateou esses dispositivos, permitindo que uma mesma pessoa possua vários desses em uso (tablets, telefones, computadores e dispositivos domésticos inteligentes). Esse grande crescimento não é necessariamente acompanhado de aumento de mentalidade de segurança e ainda, a massa de dados gerada pela interação com esses dispositivos gera interesse de grupos com intenções maliciosas de lucro e todo tipo de software malicioso é criado diariamente para subverter e acessar esses dispositivos. Dentre esses muitos softwares maliciosos, temos os ransomwares: armas capazes de cifrar todos os arquivos da vítima para que esta se veja obrigada a pagar um resgate sob o risco de não conseguir recuperar seus dados. Neste trabalho, realizamos um conjunto de experimentos para avaliar dinamicamente técnicas de Aprendizado de Máquina para detecção de malware e sua classificação em suas respectivas famílias. Para executar os experimentos, coletamos um total de 989 amostras de ransomwares das oito famílias mais proeminentes em 2021 e 2022, baixadas de repositórios públicos : Conti, Ryuk, Revil, Egregor, LockBit, Clop, Netwalker e MountLocker além de 90 amostras de software benignos. Primeiro, montamos um ambiente controlado/isolado para registrar o comportamento do ransomware para avaliação de técnicas de Aprendizado de Máquina em termos de métricas de desempenho comumente usadas na literatura (Accuracy, Precision, Recall e Fi-Mesure). Para executar as análises utilizamos o Cuckoo Sandbox. Foram criadas ferramentas na linguagem Python para automatização de tarefas como busca das amostras nos repositórios públicos e mineração de dados para composição dos conjuntos de dados de detecção. A partir dos relatórios de execução salvos na forma de relatórios JSON, utilizamos técnicas de mineração de texto e de chamadas de API aplicadas em ferramentas que construímos especialmente para extrairmos um conjunto promissor de dados que representam o comportamento de uma amostra de ransomware e submetemos os conjuntos de dados à classificação utilizando seis algoritmos de Aprendizado de Máquina: Decision Tree, Random Forest, K-Nearest Neighbors, Naive Bayes, Support Vector Machines e Multilayer Perceptron. A principal motivação para elaboração dos experimentos é que diferentes técnicas foram projetadas para otimizar diferentes critérios, que se comportam de maneira diferente, mesmo em condições semelhantes. Os resultados experimentais mostram que o métodos propostos podem alcançar um bom desempenho de classificação ao usar o algoritmos Random Forest e Decision Tree. Os melhores resultados de classificação foram alcançados com esses classificadores em três situações: a primeira e a segunda, utilizando-se o conjunto de dados minerados ao utilizar a técnica de mineração de texto TF-IDF nas seções Signatures e Memory dos relatórios de análise e a terceira, no conjunto de dados minerado a partir da contagem de chamadas de API. Além da classificação, revelamos as diretrizes utilizadas para proteção do ambiente de análise das ferramentas anti-VM, tanto para a configuração do Sistema Operacional quanto para a conectividade de rede utilizada. |
Abstract: | The growth of access to computing devices has greatly increased since the early 2000s. The miniaturization of electronic components, advances in battery technology and screens have made these devices more affordable, allowing individuals to own multiple devices (such as tablets, phones, computers, and smart home devices). However, this rapid growth does not necessarily come with an increased security mindset. The massive amount of data generated by interacting with these devices has attracted the interest of groups with malicious intent, and all sorts of malicious software are created daily to exploit and gain access to these devices. Among these malicious software, ransomware stands out as a weapon capable of encrypting all of a victim’s files, forcing them to pay a ransom in order to regain access to their data. In this work, we conducted a series of experiments to dynamically evaluate Machine Learning techniques for malware detection and classification into their respective families. To perform the experiments, we collected a total of 989 samples of ransomware from the eight most prominent families in 2021 and 2022, downloaded from public repositories: Conti, Ryuk, Revil, Egregor, LockBit, Clop, Netwalker, and MountLocker, in addition to 90 samples of benign software. First, we set up a controlled/isolated environment to record the behavior of the ransomware for evaluating Machine Learning techniques in terms of commonly used performance metrics such as Accuracy, Precision, Recall, and F1-Measure. We used the Cuckoo Sandbox to execute the analyses. We developed Python tools to automate tasks such as searching for samples in public repositories and data mining to compose the detection datasets. From the execution reports saved in the form of JSON reports, we employed text mining and API call techniques applied in tools we specifically built to extract a promising set of data representing the behavior of a ransomware sample. We then subjected the datasets to classification using six Machine Learning algorithms: Decision Tree, Random Forest, K-Nearest Neighbors, Naive Bayes, Support Vector Machines, and Multilayer Perceptron. The main motivation for conducting the experiments is that different techniques were designed to optimize different criteria, which behave differently even under similar conditions. The experimental results show that the proposed methods can achieve good classification performance when using the Random Forest and Decision Tree algorithms. The best classification results were achieved with these classifiers in three situations: the first and second using the mined dataset by applying the TF-IDF text mining technique to the Signatures and Memory sections of the analysis reports, and the third using the mined dataset based on the API call count. In addition to classification, we revealed the guidelines used to protect the analysis environment from anti-VM tools, both for configuring the operating system and network connectivity used. |
Tipo de Acesso: | Acesso aberto |
URI: | https://www.repositorio.mar.mil.br/handle/ripcmb/846311 |
Tipo: | Dissertação |
Aparece nas coleções: | Tecnologia da Informação: Coleção de Dissertações |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Dissertacao-Parisot.pdf | 3,21 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.