Artigo Acesso aberto Produção Nacional

Desidentificação de narrativas clínicas com modelos generativos de código aberto

2024; Volume: 16; Issue: Especial Linguagem: Português

10.59681/2175-4411.v16.iespecial.2024.1365

ISSN

2175-4411

Autores

Elisa Terumi Rubel Schneider, Fernando Henrique Schneider, Yohan Bonescki Gumiel, Lilian Mie Mukai Cintho, Adriana Silvina Pagano, Emerson Cabrera Paraíso, Marina de Sa Rebelo, Marco A. Gutiérrez, José Eduardo Krieger, Cláudia Maria Cabral Moro,

Tópico(s)

Natural Language Processing Techniques

Resumo

Objetivos: A desidentificação de narrativas clínicas é essencial para proteger a privacidade dos pacientes e garantir a conformidade com as regulamentações. No entanto, é uma tarefa complexa devido aos distintos tipos de entidades a serem desidentificadas e à necessidade de processar os textos localmente, por questões de segurança e privacidade. Métodos: Este artigo apresenta um estudo experimental sobre desidentificação de narrativas clínicas utilizando modelos generativos de código aberto, que podem ser executados localmente. Resultados: Avaliamos a eficácia de cinco modelos de linguagem, comparando-os ao GPT-4, um modelo proprietário. Os modelos foram avaliados com base na precisão, recall e F-score. Nossos resultados preliminares indicam que, embora o GPT-4 tenha atingido o melhor desempenho, o modelo aberto Llama3, da Meta, demonstrou robustez e eficácia nesta tarefa. Conclusão: O estudo contribui para o campo ao fornecer insights sobre o desempenho de diferentes modelos na anonimização de narrativas clínicas.

Referência(s)
Altmetric
PlumX