WEBSINC: UMA FERRAMENTA WEB PARA BUSCAS SINTÁTICAS E MORFOSSINTÁTICAS EM CORPORA ANOTADOS - ESTUDO DE CASO DO CORPUS DOVIC - BAHIA
2015; Volume: 3; Issue: 1 Linguagem: Português
10.54221/rdtdppglinuesb.2015.v3i1.51
ISSN1808-7760
Autores Tópico(s)Linguistic Studies and Language Acquisition
ResumoAs necessidades de quantidade de dados, agilidade e automação, itensificaram a produção de corpora de línguas naturais, computacionalmente trabalháveis, anotados morfológica e sintaticamente, para pesquisas na área de Gramática. Com isso, a ciência Linguística passou a contar com a possibilidade de utilização de recursos para buscas automáticas por categorias sintáticas ou morfossintáticas em textos de corpora anotados. A utilização de softwares que realizem tais buscas é fundamental, uma vez que permitem a análise de grandes corpora, com grande volume de dados textuais. No entanto, grande parte das pesquisas que utilizam recursos automatizados para a busca de dados em corpora anotados não contam com ferramentas com interface gráfica, tendo, o pesquisador, que aprender uma linguagem de consulta que exige certo conhecimento de programação para aplicá-la em interface texto. O uso de um software que forneça o recurso de buscas automáticas com interface gráfica facilita o processo de busca, dispensando o aprendizado de comandos ou linguagens de consulta pelo linguista, contribuindo, desta maneira, com os estudos gramaticais, sobretudo da área de sintaxe. Consideramos que um esquema de anotação linguística baseado em padrões, como a linguagem XML (Extensible Markup Language), aliado a um aparato tecnológico para essa mesma linguagem, propicia mais flexibilidade às buscas, além de reuso e independência de tecnologias. Nesse contexto, o presente trabalho teve como objetivo o desenvolvimento de um sistema web de buscas morfossintáticas e sintáticas, denominado de WebSinC, para ser utilizado em corpora digitais com anotação XML baseados na metodologia do Corpus Tycho Brahe, seguido de aplicação e testes no corpus digital DOViC. O software provê também o gerenciamento e a publicação do corpus, disponibilizando-o na Internet para pesquisadores interessados. A metodologia de pesquisa utilizada no trabalho caracteriza-se como pesquisa aplicada. O WebSinC foi modelado utilizando-se da Linguagem de Modelagem Unificada (UML) e sua implementação utilizou a linguagem de programação Java e o framework Java Server Faces (JSF). O banco de dados utilizado no software foi o PostgreSQL. Os testes das buscas sintáticas e morfossintáticas implementadas no software foram realizados utilizando-se como dados uma carta do corpus DOViC, entitulada Carta de Alforria da cabra de nome Sofia, escrita em 1845, e um texto do corpus Tycho Brahe, escrito em 1502 por Pero Magalhães de Gandavo. Os testes foram realizados comparando os resultados do sistema WebSinC com os resultados produzidos pela ferramenta de busca Corpus Search, já utilizada em muitas outras pesquisas. Foi possível demonstrar a adequação dos resultados das buscas produzidos pelo WebSinC aos resultados esperados e/ou a igualdade com os resultados produzidos pelo Corpus Search. A utilização da linguaguem XML para todo o esquema de anotação e buscas conferiu maior possibilidade de recuperação de informação dos textos, explorando potencialidades de extração de dados em diferentes versões nas buscas, contribuindo assim para a possibilidade de garantia de fidedignidade das versões e controle das edições dos documentos. Também foi demonstrada a aplicabilidade da ferramenta em pesquisas realizadas em corpora anotados, dando exemplos de buscas automáticas que poderiam ser feitas com este recurso do WebSinC, o que leva à conclusão de que o WebSinC é uma ferramenta singular que trará possibilidades que até então não haviam sido exploradas no mundo dos corpora anotados para a pesquisa linguística. Como citar: COSTA, Aline Silva. WebSinc: uma ferramenta Web para buscas sintáticas e morfossintáticas em corpora anotados – estudo de caso do corpus DOViC – Bahia. Orientadora: Cristiane Namiuti. Coorientador: Jorge Viana Santos. 2015. 187f. Dissertação (mestrado em Linguística) – Universidade Estadual do Sudoeste da Bahia, Programa de Pós-graduação em Linguística, Vitória da Conquista, 2015. DOI: https://doi.org/10.54221/rdtdppglinuesb.2015.v3i1.51 . Acesso em: xxxxxxxx
Referência(s)