Termos do mercado financeiro: um estudo do corpus DANTEStocks
DOI:
https://doi.org/10.11606/issn.2317-9511.v46p6-30Palavras-chave:
Terminologia, Mercado financeiro, Recursos linguísticos, Processamento de Línguas NaturaisResumo
Neste artigo, são apresentados os procedimentos de extração e validação de termos do domínio do mercado financeiro em Português Brasileiro (PB) com base no corpus DANTEStocks. Para tanto, tem-se como pressuposto teórico a Teoria Comunicativa da Terminologia, que preconiza que os termos e suas propriedades só podem ser identificados e descritos no seu ambiente natural de ocorrência. Para a extração de candidatos a termos, foram aplicados padrões lexicais, resultando numa lista de 527 candidatos. Em seguida, os termos foram analisados e validados por especialistas, culminando em uma lista de 380 termos. Além disso, fez-se a verificação em outros glossários do campo semântico da Economia, em que se constatou a ausência de muitos termos do mercado financeiro. Assim, considerando a relevância dos estudos terminológicos para a Linguística e o Processamento de Línguas Naturais, a lista terminológica construída no presente trabalho possibilita a identificação dos termos da área de domínio (mercado financeiro) e sua separação (e quantificação) em relação às palavras de língua geral.
Downloads
Referências
AGBABO, A., Barrière, C. Corpus construction for Terminology. In: Proceedings of the Corpus Linguistics Conference, Birmingham, 2005. p. 14-17.
ALM, C. O.; ROTH, D.; SPROAT, R. Emotions from text: Machine learning for text-based emotion prediction. In: Proceedings of HLT/EMNLP 2005, Vancouver/Canada: Association for Computational Linguistics, 2005, p.579-586.
ALMEIDA, G. M. B. A Teoria Comunicativa da Terminologia e a sua prática. Revista ALFA, [s.l.], v. 50, n. 2, 2006.
ALMEIDA, G. M. B.; OLIVEIRA, L. H. M. Terminology and computational linguistics: new praxes in terminography. Cahiers de Lexicologie, [s.l.], v. 101, p. 139-153, 2012.
ALVES, I. M. Glossário de termos neológicos da economia. Cadernos de Terminologia, 3 (Reimpressão). São Paulo: Humanitas, 2001.
BARROS, L. A. Curso básico de Terminologia. São Paulo: EDUSP. 296p, 2004.
BIDERMAN, M. T. C. Dicionário de termos financeiros e bancários. Disal Editora-Bantim, Canato e Guazzelli Editora Ltda, 2013.
CABRÉ M. T. Hacia una teoría comunicativa de la terminología: Aspectos metodológicos. In: CABRÉ, M. T. La Terminología: Representación y Comunicación: Elementos para una teoría de base comunicativa y otros artículos. Barcelona: Universitat Pompeu Fabra, 1999, p.129-150.
CABRÉ M. T. La terminología, una disciplina en evolución: pasado, presente y algunos elementos de futuro. Revista Debate Terminológico, [s.l.], n. 1, 2005.
DI FELIPPO, A.; POSTALI, C.; CEREGATTO, G.; GAZANA, L. S.; SILVA, E. H.; ROMAN, N. T.; PARDO, T. A. S. Descrição preliminar do corpus dantestocks: Diretrizes de segmentação para anotação segundo universal dependencies. In: Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. SBC, 2021.
DI FELIPPO, A.; POSTALI, C.; CEREGATTO, G.; GAZANA, L. S.; ROMAN, N. T. Diretrizes de Anotação de PoS Tags em Tweets do Mercado Financeiro: Orientações para anotação em língua portuguesa segundo a abordagem Universal Dependencies (UD). Relatório Técnico do ICMC 438. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. São Carlos-SP, 2022.
DROUIN, P.; GRABAR, N.; HAMON, T.; KAGEURA, K.; TAKEUCHI, K. Introduction. In: Proceedings of the 5th International Workshop on Computational Terminology, Osaka/Japan: The COLING 2016 Organizing Committee, 2016.
DURAN, M. S. Manual de anotação de PoS tags: orientações para anotação de etiquetas morfossintáticas em Língua Portuguesa, seguindo as diretrizes da abordagem Universal Dependencies. Relatório Técnico do ICMC, 434. ICMC, USP, São Carlos, 2021.
EISENSTEIN, J. What to do about bad language on the internet. In: Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Atlanta/Georgia: Association for Computational Linguistics, 2013, p. 359-369.
FINATTO, M. J. B. Acessibilidade textual e terminológica, o que é isso? In: FINATTO, M. J. B.; PARAGUASSU, L. B. (Org.). Acessibilidade Textual e Terminológica. 1ed. Uberlândia: EDUFU, 2022.
FUKUTOME, N.; HARADA, Y. Flavor Wheel Terminology and Challenges in Translation – Focusing on English and Japanese Vocabulary for Wine, Sake and Soy sauce. In: Proceedings of the 32nd Pacific Asia Conference on Language, Information and Computation. Hong Kong: Association for Computational Linguistics. 2018.
JURAFSKY, D.; MARTIN, J. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. 2a edição. Prentice Hall. 2008.
LANG, C.; WACHOWIAK, L.; HEINISCH, B.; GROMANN, D. Transforming Term Extraction: Transformer-Based Approaches to Multilingual Term Extraction Across Domains. In: Findings of the Association for Computational Linguistics. [s.l.]: Association for Computational Linguistics, 2021.
LIMA, E. B. A. A tradução de siglas e acrônimos em textos acadêmicos de ciências da saúde. Trabalho de conclusão de curso (Bacharelado em Tradução). João Pessoa: Universidade Federal da Paraíba, 2019.
LOPES, L.; VIEIRA, R.; FINATTO, M. J.; MARTINS, D.; ZANETTE, A.; RIBEIRO JR, L. C. Extração automática de termos compostos para construção de ontologias: um experimento na área da saúde. RECIIS: Revista eletrônica de comunicação, informação & inovação em saúde. Rio de Janeiro/RJ., vol. 3, n. 1, 2009.
NASCIMENTO, M. F. B. O papel dos corpora especializados na criação de bases terminológicas. In: CASTRO, I.; DUARTE, I. (orgs.). Razões e emoções, miscelânea de estudos em homenagem a Maria Helena Mateus. Lisboa: Imprensa Nacional-Casa da Moeda, vol. II, 2003.
NIVRE, J. Towards a universal grammar for natural language processing. In: Proceedings of Computational Linguistics and Intelligent Text Processing – Part 1, Cairo/Egypt: Springer International Publishing, 2015.
NIVRE, J.; MARNEFFE, M.; GINTER, F.; HAJIE, J.; MANNING, C.D.; PYYSALO, S.; SCHUSTER, S.; TYRES, F.; ZEMAN, D. Universal Dependencies v2: An evergrowing multilingual treebank collection. arXiv preprint arXiv:2004.10643, 2020.
PARDO, T. A. S.; DURAN, M. S.; LOPES, L.; DI FELIPPO, A.; ROMAN, N. T.; NUNES, M. G. P. Porttinari - a Large Multi-genre Treebank for Brazilian Portuguese. In: Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL). Porto Alegre: Sociedade Brasileira de Computação, 2021.
PENG, B.; CHERSONI, E.; HSU, Y-Y.; HUANG, C-R. Discovering Financial Hypernyms by Prompting Masked Language Models. In: Proceedings of the 4th Financial Narrative Processing Workshop. Marseille/France: European Language Resources Association, 2022.
RODRIGUES, R.; VALE, O. A. Falsos Diminutivos do Português Brasileiro e seu Reconhecimento em um Dicionário Computacional de Livre Acesso. Revista do GELNE, vol. 25, 2023.
SANGUINETTI, M.; BOSCO, C.; CASSIDY, L.; ÇETINOĞLU, Ö.; CIGNARELLA, A. T.; LYNN, T.; REHBEIN, I.; RUPPENHOFER, J.; SEDDAH, D.; ZELDES, A. Treebanking user-generated content: a proposal for a unified representation in universal dependencies. In: Proceedings of the 12th International Language Resources and Evaluation Conference. Marseille/France: European Language Resources Association, 2020.
SEIFEE, L.; MARTEN, O.; MIKHAILOV, M.; SCHMEIER, S.; MÖLLER, S.; ROLLER, R. From Witch’s Shot to Music Making Bones - Resources for Medical Laymen to Technical Language and Vice Versa. In: Proceedings of the Twelfth Language Resources and Evaluation Conference. Marseille/France: European Language Resources Association, 2020.
SILVA, E. H.; PARDO, T. A. S.; ROMAN, N. T.; DI FELIPPO, A. Universal Dependencies for Tweets in Brazilian Portuguese: Tokenization and Part of Speech Tagging. In: Encontro Nacional de Inteligência Artificial e Computacional (ENIAC). Porto Alegre: Sociedade Brasileira de Computação, 2021.
SILVA, F. J. V.; ROMAN, N. T.; CARVALHO, A. M. B. R. Stock market tweets annotated with emotions. Corpora, v. 15, n. 3, 2020.
TURNEY, P.; LITTMAN, M. Measuring praise and criticism: Inference of semantic orientation from association. ACM Transactions on Information Systems, [s.l.], v. 21, n.4, 2003.
WU, S.; IRSOY, O.; LU, S.; DABRAVOLSKI, V.; DREDZE, M.; GEHRMANN, S.; KAMBADUR, P.; ROSENBERG, D.; MANN, G. BloombergGPT: A Large Language Model for Finance. arXiv:2303.17564, [s.l.], 2023.
Downloads
Publicado
Edição
Seção
Licença
Copyright (c) 2024 Roana Rodrigues, Ariani Di Felippo, Norton Roman, Pedro Semcovici , Jackson Souza, Thiago Pardo
Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Autores que publicam nesta revista concordam com os seguintes termos:
- Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution BY-NC-SA que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista.
- Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.
- Autores têm permissão e são estimulados a publicar e distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) a qualquer ponto antes ou durante o processo editorial, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado (Veja O Efeito do Acesso Livre).