logo-ri

Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)

Use este identificador para citar ou linkar para este item: https://www.repositorio.mar.mil.br/handle/ripcmb/844785
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorCarvalho, Alexandre Plastino de-
dc.contributor.authorGuimarães, Eliseu Paz e Silva de-
dc.date.accessioned2022-07-05T18:13:35Z-
dc.date.available2022-07-05T18:13:35Z-
dc.date.issued2021-
dc.identifier.citationGUIMARÃES, Eliseu Paz e Silva de. Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets. 2021. 75 f. masterThesis (Mestrado em Computação)-Universidade Federal Fluminense, Niterói, 2021.pt_BR
dc.identifier.urihttp://www.repositorio.mar.mil.br/handle/ripcmb/844785-
dc.descriptionCom o advento e a popularização das redes sociais, cada vez mais pessoas sentem-se li- vres para expressarem suas opiniões sobre assuntos variados naqueles ambientes. Esse tipo de atitude gera um volume crescente de dados, cuja análise constitui importante ferramenta no processo de tomada de decisão de instituições, governos ou pessoas, que podem aferir seu desempenho em relação a um público-alvo desejado. O campo de estudo computacional que visa a atender este objetivo é a análise de sentimentos, que tem a classificação de polaridade de textos como uma de suas tarefas de maior destaque. Para atender à necessidade de classificar textos como positivos ou negativos, destaca-se o uso de abordagens baseadas em aprendizado de máquina supervisionado, nas quais um clas- sificador é treinado com um conjunto de dados de um determinado domínio cujos rótulos (positivos ou negativos) são conhecidos. A ideia por trás dessa abordagem é que este classificador seja capaz de predizer os rótulos de novos dados deste mesmo domínio. No entanto, dados rotulados nem sempre estão disponíveis, pois o domínio de interesse pode ser raro e ter dados escassos, ou ainda rotular manualmente os dados pode ser proibitivo. Nesse cenário, surgem estratégias de transferência de aprendizado, que buscam aprovei- tar o conhecimento adquirido em um determinado domínio-fonte para adaptar ou reusar classificadores para um determinado domínio-alvo. Uma das abordagens utilizadas se ba- seia na seleção ou enriquecimento de dados a partir de um domínio-fonte, o que tem sido amplamente proposto na literatura. No entanto, há carência de estudos específicos para a seleção de instâncias no desafiador cenário do Twitter. Esta masterThesis se propõe a inves- tigar técnicas de seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets. Para isso, são realizados experimentos utilizando um conjunto de 22 bases de dados de tweets em inglês. Nestes experimentos, são propostas técnicas: (i.) de seleção de bases-fonte para treinar classificadores para uma base-alvo não-rotulada, (ii.) de seleção de instâncias da união das bases-fonte para treinar classificadores para uma base-alvo não-rotulada e (iii.) de seleção de instâncias da união das bases-fonte para treinar classificadores para uma base-alvo rotulada. Com as técnicas propostas, observa-se que o tamanho do conjunto de treinamento desempenha um papel fundamental na capa- cidade preditiva dos classificadores e que utilizar conjuntos de treinamento balanceados e diversos constitui-se uma boa decisão para os métodos de transferência de aprendizado que se baseiam em seleção de instâncias e reuso de classificadores.pt_BR
dc.description.abstractThe advent and popularization of social networks have been leading more and more people to feel free to express their opinions on various issues in those environments. This type of attitude generates a growing volume of data, whose analysis is an important tool in the decision-making process of institutions, governments or people, that can assess their performance related to a desired target audience. The computational field of study that aims to meet this objective is called sentiment analysis, which has the polarity classification of texts as one of its most prominent tasks. To meet the need to classify texts as positive or negative, the use of approaches based on supervised machine learning is promising, in which a classifier is trained with a dataset from a given domain whose labels (positive or negative) are known. The idea behind this approach is that this classifier can predict the labels of new data from this same domain. However, labeled data are not always available as the domain of interest can be rare and data scarse, or manually labeling the data can be prohibitive. In this scenario, transfer learning strategies arise, seeking to take advantage of the knowledge acquired in a given source domain to adapt or reuse classifiers for a given target domain. One of the approaches used is based on data selection or enrichment from a source domain - which has been widely proposed in the literature. However, there is a lack of specific studies for instance selection in the challenging scenario of Twitter. This dissertation seeks to investigate data selection techniques for transfer learning in the scenario of sentiment analysis in tweets. For this, experiments are conducted using a set of 22 tweets datasets in English. These experiments propose techniques: (i.) to select source datasets to train classifiers for an unlabeled target dataset, (ii.) to select instances of the union of source datasets to train classifiers for an unlabeled target dataset and (iii.) to select instances of the union of source datasets to train classifiers for a labeled target dataset. With the proposed techniques, it is observed that the size of training set plays a fundamental role in the predictive capability of the classifiers and that using balanced and diverse training sets constitutes a good decision for transfer learning methods based on instance selection and reuse of classifiers.pt_BR
dc.language.isoporpt_BR
dc.publisherUniversidade Federal Fluminense (UFF)pt_BR
dc.rightsopenAccesspt_BR
dc.subjectAnálise de sentimentospt_BR
dc.subjectTransferência de aprendizadopt_BR
dc.subjectSeleção de dadospt_BR
dc.subjectAprendizado de Máquinapt_BR
dc.subjectTwitterpt_BR
dc.subjectSentiment analysispt_BR
dc.subjectTransfer learningpt_BR
dc.subjectData selectionpt_BR
dc.subjectMachine Learningpt_BR
dc.subjectTwitterpt_BR
dc.titleSeleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweetspt_BR
dc.typemasterThesispt_BR
dc.location.countryBrasilpt_BR
dc.subject.dgpmTecnologia da Informaçãopt_BR
dc.subject.dgpmCiência da computaçãopt_BR
Aparece nas coleções:Tecnologia da Informação: Coleção de Dissertações

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
CT_ELISEU_Autorizacao.pdf57,94 kBAdobe PDFThumbnail
Visualizar/Abrir
CT_ELISEU_Dissertacao.pdf1,41 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.