Classificação de documentos jurídicos utilizando a arquitetura transformer: uma análise comparativa com algoritmos tradicionais de Machine Learning e ChatGPT
2023; Brazilian Journal of Development; Volume: 9; Issue: 6 Linguagem: Português
10.34117/bjdv9n6-97
ISSN2525-8761
AutoresFernando Maurilio Bento, Raimundo Celeste Ghizoni Teive,
Tópico(s)Artificial Intelligence in Law
ResumoPronunciamentos judiciais são textos jurídicos que contém declarações de juízes no intuito de resolver questões ou dar uma solução a um processo judicial. A interpretação e classificação correta destes pronunciamentos são essenciais para que advogados e suas partes representadas cumpram aquilo que foi determinado pelo juiz ou definam o próximo passo a ser dado na defesa dos seus direitos. No Brasil, o Código de Processo Civil denomina três classificações possíveis para os pronunciamentos: sentenças, decisões interlocutórias e despachos. Considerando que a justiça brasileira conta com cerca de 75 milhões de processos ativos e que a classificação de cada pronunciamento acarreta no custo de um profissional especializado, pode-se inferir que a automatização da tarefa de classificação por meio do Processamento de Linguagem Natural (PLN) pode ser um importante aliado na otimização de recursos. O PLN teve avanços recentes impulsionados pela inovação trazida em 2017 com a arquitetura chamada Transformer, que proporcionou a criação de modelos de linguagem como BERT e GPT-3. Nos dois últimos anos, alguns estudos sobre a aplicação de Transformer ao contexto jurídico focaram na criação de modelos de linguagem especializados na área e na comparação dos resultados com modelos genéricos, selecionando tarefas específicas para um grupo de documentos. Neste trabalho foi selecionada a tarefa de classificação de pronunciamentos judiciais da justiça brasileira como objeto de estudo, aplicando técnicas de PLN para aplicação e comparação entre o modelo LegalNLP, que utiliza Transformer/BERT como base (Polo 2021), e os algoritmos clássicos Naive Bayes, Árvore de Decisão, Random Forest e SVM, utilizando para estes as representações em Bag of Words e TF-IDF. Os resultados obtidos demonstram que o modelo baseado em Transformer obtém resultados melhores, alcançando uma acurácia acima de 70% na classificação de textos jurídicos.
Referência(s)