Artigo Acesso aberto

Classificação de documentos jurídicos utilizando a arquitetura transformer: uma análise comparativa com algoritmos tradicionais de Machine Learning e ChatGPT

2023; Brazilian Journal of Development; Volume: 9; Issue: 6 Linguagem: Português

10.34117/bjdv9n6-97

ISSN

2525-8761

Autores

Fernando Maurilio Bento, Raimundo Celeste Ghizoni Teive,

Tópico(s)

Artificial Intelligence in Law

Resumo

Pronunciamentos judiciais são textos jurídicos que contém declarações de juízes no intuito de resolver questões ou dar uma solução a um processo judicial. A interpretação e classificação correta destes pronunciamentos são essenciais para que advogados e suas partes representadas cumpram aquilo que foi determinado pelo juiz ou definam o próximo passo a ser dado na defesa dos seus direitos. No Brasil, o Código de Processo Civil denomina três classificações possíveis para os pronunciamentos: sentenças, decisões interlocutórias e despachos. Considerando que a justiça brasileira conta com cerca de 75 milhões de processos ativos e que a classificação de cada pronunciamento acarreta no custo de um profissional especializado, pode-se inferir que a automatização da tarefa de classificação por meio do Processamento de Linguagem Natural (PLN) pode ser um importante aliado na otimização de recursos. O PLN teve avanços recentes impulsionados pela inovação trazida em 2017 com a arquitetura chamada Transformer, que proporcionou a criação de modelos de linguagem como BERT e GPT-3. Nos dois últimos anos, alguns estudos sobre a aplicação de Transformer ao contexto jurídico focaram na criação de modelos de linguagem especializados na área e na comparação dos resultados com modelos genéricos, selecionando tarefas específicas para um grupo de documentos. Neste trabalho foi selecionada a tarefa de classificação de pronunciamentos judiciais da justiça brasileira como objeto de estudo, aplicando técnicas de PLN para aplicação e comparação entre o modelo LegalNLP, que utiliza Transformer/BERT como base (Polo 2021), e os algoritmos clássicos Naive Bayes, Árvore de Decisão, Random Forest e SVM, utilizando para estes as representações em Bag of Words e TF-IDF. Os resultados obtidos demonstram que o modelo baseado em Transformer obtém resultados melhores, alcançando uma acurácia acima de 70% na classificação de textos jurídicos.

Referência(s)
Altmetric
PlumX