Termos do mercado financeiro: um estudo do corpus DANTEStocks

Autores

DOI:

https://doi.org/10.11606/issn.2317-9511.v46p6-30

Palavras-chave:

Terminologia, Mercado financeiro, Recursos linguísticos, Processamento de Línguas Naturais

Resumo

Neste artigo, são apresentados os procedimentos de extração e validação de termos do domínio do mercado financeiro em Português Brasileiro (PB) com base no corpus DANTEStocks. Para tanto, tem-se como pressuposto teórico a Teoria Comunicativa da Terminologia, que preconiza que os termos e suas propriedades só podem ser identificados e descritos no seu ambiente natural de ocorrência. Para a extração de candidatos a termos, foram aplicados padrões lexicais, resultando numa lista de 527 candidatos. Em seguida, os termos foram analisados e validados por especialistas, culminando em uma lista de 380 termos. Além disso, fez-se a verificação em outros glossários do campo semântico da Economia, em que se constatou a ausência de muitos termos do mercado financeiro. Assim, considerando a relevância dos estudos terminológicos para a Linguística e o Processamento de Línguas Naturais, a lista terminológica construída no presente trabalho possibilita a identificação dos termos da área de domínio (mercado financeiro) e sua separação (e quantificação) em relação às palavras de língua geral.

Downloads

Os dados de download ainda não estão disponíveis.

Biografia do Autor

  • Roana Rodrigues, Universidade Federal de Sergipe

    É doutora em Linguística pela Universidade Federal de São Carlos. Atualmente é professora do Departamento de Letras Estrangeiras (DLES) e do Programa de Pós-Graduação em Letras (PPGL) da Universidade Federal de Sergipe (UFS). Pesquisa e compara o comportamento sintático-semântico de construções verbais de variantes das línguas portuguesa e espanhola, além de ter interesse nas áreas de linguística computacional e estudos do léxico. E-mail: roana@academico.ufs.br ORCID: https://orcid.org/0000-0002-7748-8716 

  • Ariani Di Felippo, Universidade Federal de São Carlos

    É doutora em Linguística e Língua Portuguesa pela Universidade Estadual Paulista Júlio de Mesquita Filho. Atualmente, é professora associada do Departamento de Letras da Universidade Federal de São Carlos (UFSCar), atuando na área de Processamento Automático das Línguas Naturais (ou Linguística Computacional), com ênfase em Semântica Lexical Computacional e Sumarização Automática. E-mail: arianid@ufscar.br ORCID: https://orcid.org/0000-0002-4566-9352 

  • Norton Trevisan Roman, Universidade de São Paulo. Escola de Artes, Ciências e Humanidades

    Possui doutorado em Ciência da Computação pela Universidade Estadual de Campinas  e atualmente é Professor Livre-Docente e Pesquisador da Escola de Artes, Ciências e Humanidades da Universidade de São Paulo (EACH/USP), na área de Inteligência Artificial (com ênfase em Linguística Computacional). Email: norton@usp.br ORCID: https://orcid.org/0000-0002-0563-2045 

  • Pedro Semcovici , Universidade de São Paulo. Escola de Artes, Ciências e Humanidades

    É graduando em Sistemas de Informação pela Escola de Artes, Ciências e Humanidades (EACH) da Universidade de São Paulo. E-mail: pedrosemcovici@usp.br ORCID: https://orcid.org/0009-0008-8455-8509 

  • Jackson Wilke da Cruz Souza, Universidade Federal da Bahia

    É doutor em Linguística pela Universidade Federal de São Carlos. Atualmente é professor adjunto na Universidade Federal da Bahia (UFBA), no Instituto de Ciência, Tecnologia e Inovação (ICTI) e no Programa de Pós-Graduação em Língua e Cultura (PPGLinC) da UFBA. Atua na área de PLN, principalmente nas subáreas de Linguística de corpus, Semântica computacional, Terminologia, Sumarização automática e Análise textual.E-mail: jackcruzsouza@gmail.com ORCID: https://orcid.org/0000-0003-1881-6780 

  • Thiago Alexandre Salgueiro Pardo, Universidade de São Paulo. Instituto de Ciências Matemáticas e de Computação

    É doutor em Ciências da Computação e Matemática Computacional pela Universidade de São Paulo (2005). Atualmente é professor associado da Universidade de São Paulo. Tem experiência na área de Inteligência Artificial, atuando principalmente nos temas de processamento de linguagem natural. E-mail: taspardo@icmc.usp.br ORCID: https://orcid.org/0000-0003-2111-1319 

Referências

AGBABO, A., Barrière, C. Corpus construction for Terminology. In: Proceedings of the Corpus Linguistics Conference, Birmingham, 2005. p. 14-17.

ALM, C. O.; ROTH, D.; SPROAT, R. Emotions from text: Machine learning for text-based emotion prediction. In: Proceedings of HLT/EMNLP 2005, Vancouver/Canada: Association for Computational Linguistics, 2005, p.579-586.

ALMEIDA, G. M. B. A Teoria Comunicativa da Terminologia e a sua prática. Revista ALFA, [s.l.], v. 50, n. 2, 2006.

ALMEIDA, G. M. B.; OLIVEIRA, L. H. M. Terminology and computational linguistics: new praxes in terminography. Cahiers de Lexicologie, [s.l.], v. 101, p. 139-153, 2012.

ALVES, I. M. Glossário de termos neológicos da economia. Cadernos de Terminologia, 3 (Reimpressão). São Paulo: Humanitas, 2001.

BARROS, L. A. Curso básico de Terminologia. São Paulo: EDUSP. 296p, 2004.

BIDERMAN, M. T. C. Dicionário de termos financeiros e bancários. Disal Editora-Bantim, Canato e Guazzelli Editora Ltda, 2013.

CABRÉ M. T. Hacia una teoría comunicativa de la terminología: Aspectos metodológicos. In: CABRÉ, M. T. La Terminología: Representación y Comunicación: Elementos para una teoría de base comunicativa y otros artículos. Barcelona: Universitat Pompeu Fabra, 1999, p.129-150.

CABRÉ M. T. La terminología, una disciplina en evolución: pasado, presente y algunos elementos de futuro. Revista Debate Terminológico, [s.l.], n. 1, 2005.

DI FELIPPO, A.; POSTALI, C.; CEREGATTO, G.; GAZANA, L. S.; SILVA, E. H.; ROMAN, N. T.; PARDO, T. A. S. Descrição preliminar do corpus dantestocks: Diretrizes de segmentação para anotação segundo universal dependencies. In: Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. SBC, 2021.

DI FELIPPO, A.; POSTALI, C.; CEREGATTO, G.; GAZANA, L. S.; ROMAN, N. T. Diretrizes de Anotação de PoS Tags em Tweets do Mercado Financeiro: Orientações para anotação em língua portuguesa segundo a abordagem Universal Dependencies (UD). Relatório Técnico do ICMC 438. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. São Carlos-SP, 2022.

DROUIN, P.; GRABAR, N.; HAMON, T.; KAGEURA, K.; TAKEUCHI, K. Introduction. In: Proceedings of the 5th International Workshop on Computational Terminology, Osaka/Japan: The COLING 2016 Organizing Committee, 2016.

DURAN, M. S. Manual de anotação de PoS tags: orientações para anotação de etiquetas morfossintáticas em Língua Portuguesa, seguindo as diretrizes da abordagem Universal Dependencies. Relatório Técnico do ICMC, 434. ICMC, USP, São Carlos, 2021.

EISENSTEIN, J. What to do about bad language on the internet. In: Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Atlanta/Georgia: Association for Computational Linguistics, 2013, p. 359-369.

FINATTO, M. J. B. Acessibilidade textual e terminológica, o que é isso? In: FINATTO, M. J. B.; PARAGUASSU, L. B. (Org.). Acessibilidade Textual e Terminológica. 1ed. Uberlândia: EDUFU, 2022.

FUKUTOME, N.; HARADA, Y. Flavor Wheel Terminology and Challenges in Translation – Focusing on English and Japanese Vocabulary for Wine, Sake and Soy sauce. In: Proceedings of the 32nd Pacific Asia Conference on Language, Information and Computation. Hong Kong: Association for Computational Linguistics. 2018.

JURAFSKY, D.; MARTIN, J. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. 2a edição. Prentice Hall. 2008.

LANG, C.; WACHOWIAK, L.; HEINISCH, B.; GROMANN, D. Transforming Term Extraction: Transformer-Based Approaches to Multilingual Term Extraction Across Domains. In: Findings of the Association for Computational Linguistics. [s.l.]: Association for Computational Linguistics, 2021.

LIMA, E. B. A. A tradução de siglas e acrônimos em textos acadêmicos de ciências da saúde. Trabalho de conclusão de curso (Bacharelado em Tradução). João Pessoa: Universidade Federal da Paraíba, 2019.

LOPES, L.; VIEIRA, R.; FINATTO, M. J.; MARTINS, D.; ZANETTE, A.; RIBEIRO JR, L. C. Extração automática de termos compostos para construção de ontologias: um experimento na área da saúde. RECIIS: Revista eletrônica de comunicação, informação & inovação em saúde. Rio de Janeiro/RJ., vol. 3, n. 1, 2009.

NASCIMENTO, M. F. B. O papel dos corpora especializados na criação de bases terminológicas. In: CASTRO, I.; DUARTE, I. (orgs.). Razões e emoções, miscelânea de estudos em homenagem a Maria Helena Mateus. Lisboa: Imprensa Nacional-Casa da Moeda, vol. II, 2003.

NIVRE, J. Towards a universal grammar for natural language processing. In: Proceedings of Computational Linguistics and Intelligent Text Processing – Part 1, Cairo/Egypt: Springer International Publishing, 2015.

NIVRE, J.; MARNEFFE, M.; GINTER, F.; HAJIE, J.; MANNING, C.D.; PYYSALO, S.; SCHUSTER, S.; TYRES, F.; ZEMAN, D. Universal Dependencies v2: An evergrowing multilingual treebank collection. arXiv preprint arXiv:2004.10643, 2020.

PARDO, T. A. S.; DURAN, M. S.; LOPES, L.; DI FELIPPO, A.; ROMAN, N. T.; NUNES, M. G. P. Porttinari - a Large Multi-genre Treebank for Brazilian Portuguese. In: Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL). Porto Alegre: Sociedade Brasileira de Computação, 2021.

PENG, B.; CHERSONI, E.; HSU, Y-Y.; HUANG, C-R. Discovering Financial Hypernyms by Prompting Masked Language Models. In: Proceedings of the 4th Financial Narrative Processing Workshop. Marseille/France: European Language Resources Association, 2022.

RODRIGUES, R.; VALE, O. A. Falsos Diminutivos do Português Brasileiro e seu Reconhecimento em um Dicionário Computacional de Livre Acesso. Revista do GELNE, vol. 25, 2023.

SANGUINETTI, M.; BOSCO, C.; CASSIDY, L.; ÇETINOĞLU, Ö.; CIGNARELLA, A. T.; LYNN, T.; REHBEIN, I.; RUPPENHOFER, J.; SEDDAH, D.; ZELDES, A. Treebanking user-generated content: a proposal for a unified representation in universal dependencies. In: Proceedings of the 12th International Language Resources and Evaluation Conference. Marseille/France: European Language Resources Association, 2020.

SEIFEE, L.; MARTEN, O.; MIKHAILOV, M.; SCHMEIER, S.; MÖLLER, S.; ROLLER, R. From Witch’s Shot to Music Making Bones - Resources for Medical Laymen to Technical Language and Vice Versa. In: Proceedings of the Twelfth Language Resources and Evaluation Conference. Marseille/France: European Language Resources Association, 2020.

SILVA, E. H.; PARDO, T. A. S.; ROMAN, N. T.; DI FELIPPO, A. Universal Dependencies for Tweets in Brazilian Portuguese: Tokenization and Part of Speech Tagging. In: Encontro Nacional de Inteligência Artificial e Computacional (ENIAC). Porto Alegre: Sociedade Brasileira de Computação, 2021.

SILVA, F. J. V.; ROMAN, N. T.; CARVALHO, A. M. B. R. Stock market tweets annotated with emotions. Corpora, v. 15, n. 3, 2020.

TURNEY, P.; LITTMAN, M. Measuring praise and criticism: Inference of semantic orientation from association. ACM Transactions on Information Systems, [s.l.], v. 21, n.4, 2003.

WU, S.; IRSOY, O.; LU, S.; DABRAVOLSKI, V.; DREDZE, M.; GEHRMANN, S.; KAMBADUR, P.; ROSENBERG, D.; MANN, G. BloombergGPT: A Large Language Model for Finance. arXiv:2303.17564, [s.l.], 2023.

Downloads

Publicado

2024-02-24

Edição

Seção

Artigos

Como Citar

Rodrigues, R., Di Felippo, A., Roman, N. T. ., Semcovici , P., Souza, J. W. da C., & Pardo, T. A. S. . (2024). Termos do mercado financeiro: um estudo do corpus DANTEStocks. Tradterm, 46, 6-30. https://doi.org/10.11606/issn.2317-9511.v46p6-30