MOTOR MULTIFUNÇÕES: pesquisa terminológica bilíngue e assistente de escrita académica com base em dados científicos abertos

  • Administrador admin
Palavras-chave: Dados científicos abertos, literacia académica, motor de pesquisa, repositórios

Resumo

Neste artigo, exploraremos o processo de construção de um motor multifunções que está a ser desenvolvido no âmbito do projeto de investigação PortLinguE (ref. PTDC/LLT-LIG/31113/2017) e que parte da reutilização de dados científicos disponíveis em regime de acesso aberto. Daremos conta da arquitetura geral do motor que assenta numa framework Django e do modelo lógico do motor que funcionará em modelos de BERT, pois permitem efetuar pesquisas que consideram o contexto e as semelhanças semânticas. O motor tem duas funções principais que apresentamos em detalhe: (1) a função de  pesquisa bilíngue de terminologia, capaz de identificar equivalentes de tradução de textos comparáveis retirados de repositórios científicos (útil a tradutores e investigadores que trabalhem com línguas de especialidade) e (2) a função de assistente de escrita académica, que parte da constituição de um banco de frases para o português académico europeu, através da recolha, anotação e análise de artigos científicos retirados de repositórios nacionais (útil a estudantes que procurem melhorar a sua escrita em contextos académicos).

Referências

CRIBB, J.; SARI, T. Open Science: Sharing Knowledge in the Global Century. Collingwood: Victoria, 2010. DOI: 10.1071/9780643097643
DEVLIN, J. et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. ArXiv:1810.04805 [Cs], 2019. https://doi.org/10.48550/arXiv.1810.04805
ESTRELA, A.; SOUSA, O. C. Competência textual à entrada no Ensino Superior. Revista de Estudos da Linguagem, v,19 (1), pp. 247-267, 2011.
MORLEY, J. Academic Phrasebank. 2004. Disponível em: https://www.phrasebank.manchester.ac.uk/about-academic-phrasebank/. Acesso: 4 abril de 2023
POGIATZIS, A.: NLP: Contextualized word embeddings from BERT. 2019. Disponível em: https://towardsdatascience.com/nlp-extract-contextualized-word-embeddings-from-bert-keras-tf-67ef29f60a7b. Acesso: 4 abril de 2023
PRETO-BAY, A. M. The Social-Cultural Dimension of Academic Literacy Development and the Explicit Teaching of Genres as Community Heuristics. The Reading Matrix, v. 4, n. 3, 2004. https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.621.8717&rep=rep1&type=pdf.
VARUN. Calculating Document Similarities using BERT, word2vec, and other models. 2020. Disponível em: https://towardsdatascience.com/calculating-document-similarities-using-bert-and-other-models-b2c1a29c9630. Acesso em: 4 abril de 2023
Publicado
2025-04-12