Identificação e Classificação de Dados Sensíveis Usando Técnicas de Processamento de Linguagem Natural (PLN)
2024; Volume: 3; Issue: 12 Linguagem: Português
10.23925/ddem.v.3.n.12.68378
ISSN2675-7648
AutoresEdilson dos Passos, Lisleandra Machado, Domingos Sávio da Cunha Garcia, Leonardo Amorim de Araújo, Samuel Freitas, Ana Paula Lima dos Santos, Gustavo José Santiago Rosseti, Silvana Rodrigues Pires Moreira,
Tópico(s)Speech and dialogue systems
ResumoEste estudo investiga a aplicação de técnicas de Processamento de Linguagem Natural (PLN) e Machine Learning (ML) na identificação e classificação de dados sensíveis, com ênfase na conformidade com a Lei Geral de Proteção de Dados (LGPD). O processo inclui o pré-processamento de dados textuais, a vetorização com TF-IDF, e a implementação dos algoritmos Naive Bayes e Random Forest, com otimização de hiperparâmetros utilizando Grid Search. O desempenho dos modelos é avaliado por análises como acurácia, matriz de confusão e curva ROC. A abordagem proposta tem como objetivo auxiliar as empresas na proteção e gerenciamento de dados, garantindo o cumprimento das exigências de privacidade e segurança determinadas pela legislação.
Referência(s)