Please use this identifier to cite or link to this item: http://repositoriosenaiba.fieb.org.br/handle/fieb/1918
Title: Computational method for grouping and reducing representative metrics for identification and mitigation of bias and unfairness in machine learning models
Other Titles: Método computacional para agrupamento e redução de métricas representativas para identificação e mitigação de viés e injustiça em modelos de aprendizado de máquina
Authors: Loureiro, Rafael Bessa
metadata.dc.contributor.advisor: Nascimento, Erick Giovani Sperandio
metadata.dc.contributor.advisor-co: Winkler, Ingrid
Oliveira, Ewerton de
metadata.dc.contributor.referees: Pereira-Guizzo, Camila
Keywords: Bias;Unfairness;Representative metric;Correlation
Issue Date: 5-Sep-2024
Publisher: Centro Universitário SENAI CIMATEC
Citation: LOUREIRO, Rafael Bessa. Método computacional para agrupamento e redução de métricas representativas para identificação e mitigação de viés e injustiça em modelos de aprendizado de máquina. Orientador: Erick Giovani Sperandio Nascimento. 2024. 137 f. Dissertação (Mestreado em Modelagem Computacional e Tecnologia Industrial) – Centro Universitário SENAI CIMATEC, Salvador, 2024.
metadata.dc.description.resumo: O viés e a injustiça em modelos de aprendizado de máquina ocorrem quando esses tomam decisões enviesadas ou injustas que perpetuam e amplificam a discriminação e exclusão injusta de pessoas. Identificar e abordar o viés e a injustiça desses modelos em diferentes domínios de aplicação é um desafio multifacetado. Apesar de várias métricas de injustiça terem sido propostas, determinar um conjunto ideal de métricas para avaliar a injustiça de um modelo continua sendo uma questão em aberto na literatura devido à natureza diversa dessas métricas e a falta de métodos abrangentes que garantam a justiça em múltiplas aplicações. Consequentemente, existe uma necessidade imediata de restringir a quantidade de métricas e identificar as métricas representativas para a avaliação da in justiça algorítmica. A literatura atual apresenta um número limitado de estudos voltados para a redução do número de métricas de injustiça utilizadas ao avaliar um modelo, com as técnicas disponíveis enfrentam limitações, incluindo a restrição a áreas específicas de aplicação, a dependência do entendimento do usuário sobre o problema, e o elevado custo computacional. Portanto, este estudo tem como objetivo propor um método computa cional que permita a seleção das métricas mais representativas para avaliação de viés e injustiça, em pós-processamento, para modelos de aprendizado de máquina de classifi cação binária em diferentes contextos. Para alcançar esse objetivo, são utilizados quatro estudos de casos, nas áreas de julgamento criminal, empréstimo bancário, censo demográ fico e publicidade, com injustiças identificadas contra os atributos sensíveis: raça, gênero, raça e faixa etária. Além disso, foi utilizado uma estratégia baseada em correlação como uma heurística para a seleção de métricas de injustiça. Em seguida, foram analisados os potenciais problemas da abordagem, propondo soluções para atenuar esses problemas e avaliar a sua eficácia. O método inicia o procedimento utilizando uma amostragem por bootstrap em conjunto com a técnica de Monte Carlo via cadeias de Markov. Modifi cações e estratégias de validação são propostas, como a transição para um método de amostragem estratificada para representar melhor os vieses dos dados, incorporação de um critério de parada para reduzir o custo computacional, substituição da correlação de Pearson para a de Kendall para obter estimativas mais robustas, e a validação do método por meio da análise de diferentes aspectos das métricas selecionadas. Foi constatado uma redução substancial no custo computacional, com uma diminuição média de 64,37% no número de modelos necessários e de 20,00% no tempo de processamento. Além disso, o método proposto mantém a consistência dos resultados ao agrupar efetivamente métricas com comportamento semelhante. O experimento proposto foi capaz de agrupar métricas com equações semelhantes com mais frequência, tornando a presença de um termo semel hante na equação um forte indicador de uma relação direta entre duas métricas. Embora não surja nenhuma métrica que se destaque em todos os contextos, certas métri cas se destacam em modelos ou conjuntos de dados específicos. Para os casos analisados, a métrica de Paridade Preditiva se destacou nos cenários de julgamento criminal, censo demográfico e publicidade, enquanto que a métrica de Taxa de Erro foi destaque no censo demográfico, e a métrica de Probabilidades Equalizadas foi evidenciada no julgamento criminal. De modo geral, o método proposto seleciona com sucesso as métricas mais rep resentativas, com considerável ganho em custo computacional.
Abstract: Bias and unfairness in machine learning models happen when they make biassed or unfair decisions that perpetuate and amplify the unfair discrimination and exclusion of people. Identifying and addressing bias and unfairness in those models in different application domains is a multifaceted challenge. While numerous unfairness metrics have been pro posed, determining an optimal set of metrics for assessing a model’s unfairness remains an open question in the literature due to the diverse nature of these metrics and the lack of comprehensive approaches to ensure fairness across multiple applications. Consequently, there is a pressing need to narrow down the metric space and identify representative metrics for algorithmic unfairness evaluation. The current literature presents a limited number of studies aimed at reducing the number of fairness metrics used when evaluating a model, with the available techniques facing limitations, including restriction to spe cific application areas, dependence on the user’s understanding of the problem, and high computational cost. Therefore, this study aims to propose a computational method that allows the selection of the most representative metrics for bias and unfairness assessment in post-processing for binary classification machine learning models in different contexts. To achieve this goal, four case studies were used in the fields of criminal judgement, bank loans, demographic census, and advertisement, with unfairness identified against the sen sitive attributes: race, gender, race, and age group. Furthermore, a correlation-based strategy was used as a heuristic for selecting unfairness metrics. The potential problems with the approach were then analysed, and solutions were proposed to mitigate these problems and evaluate its effectiveness. The method starts the procedure using bootstrap sampling in conjunction with the Markov chain Monte Carlo method. Modifications and validation strategies are proposed, such as transitioning to a stratified sampling method to better represent the data biases, incorporating a stopping criterion to reduce the com putational cost, shifting from Pearson to Kendall correlation for more robust estimations, and validating the method by examining different aspects of the selected metrics. A sub stantial reduction in computational cost was noted, with an average decrease of 64.37% in the number of models required and of 20.00% in processing time. Moreover, the pro posed method maintains result consistency by effectively pairing metrics with similar behaviour. The proposed experiment was able to group metrics with similar equations more frequently, making the presence of a similar term in the equation a strong indicator of a direct relationship between two metrics. While no standout metric emerges across all contexts, within specific models or datasets, certain metrics consistently stand out. For the analysed cases, the Predictive Parity met ric was highlighted in the criminal judgement, demographic census, and advertisement scenarios, while the Error Ratio metric was highlighted for the demographic census, and Equalized Odds was in evidence in criminal judgment. Overall, the proposed method suc cessfully selects the representative metric with a considerable gain in computational costs
URI: http://repositoriosenaiba.fieb.org.br/handle/fieb/1918
Appears in Collections:Dissertações de Mestrado (PPG MCTI)

Files in This Item:
File Description SizeFormat 
Rafael Bessa Loureiro.pdf5.14 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.