Termos do mercado financeiro:  um estudo do corpus DANTEStocks

Roana Rodrigues; Ariani Di  Felippo; Norton Trevisan  Roman; Pedro Semcovici; Jackson Wilke da Cruz Souza; Thiago Alexandre Salgueiro  Pardo

doi:10.11606/issn.2317-9511.v46p6-30

Autores/as

Roana Rodrigues Universidade Federal de Sergipe https://orcid.org/0000-0002-7748-8716 (no autenticado)
Ariani Di Felippo Universidade Federal de São Carlos https://orcid.org/0000-0002-4566-9352 (no autenticado)
Norton Trevisan Roman Universidade de São Paulo. Escola de Artes, Ciências e Humanidades https://orcid.org/0000-0002-0563-2045 (no autenticado)
Pedro Semcovici Universidade de São Paulo. Escola de Artes, Ciências e Humanidades https://orcid.org/0009-0008-8455-8509 (no autenticado)
Jackson Wilke da Cruz Souza Universidade Federal da Bahia https://orcid.org/0000-0003-1881-6780 (no autenticado)
Thiago Alexandre Salgueiro Pardo Universidade de São Paulo. Instituto de Ciências Matemáticas e de Computação https://orcid.org/0000-0003-2111-1319 (no autenticado)

DOI:

https://doi.org/10.11606/issn.2317-9511.v46p6-30

Palabras clave:

Terminologia, Mercado financeiro, Recursos linguísticos, Processamento de Línguas Naturais

Resumen

Neste artigo, são apresentados os procedimentos de extração e validação de termos do domínio do mercado financeiro em Português Brasileiro (PB) com base no corpus DANTEStocks. Para tanto, tem-se como pressuposto teórico a Teoria Comunicativa da Terminologia, que preconiza que os termos e suas propriedades só podem ser identificados e descritos no seu ambiente natural de ocorrência. Para a extração de candidatos a termos, foram aplicados padrões lexicais, resultando numa lista de 527 candidatos. Em seguida, os termos foram analisados e validados por especialistas, culminando em uma lista de 380 termos. Além disso, fez-se a verificação em outros glossários do campo semântico da Economia, em que se constatou a ausência de muitos termos do mercado financeiro. Assim, considerando a relevância dos estudos terminológicos para a Linguística e o Processamento de Línguas Naturais, a lista terminológica construída no presente trabalho possibilita a identificação dos termos da área de domínio (mercado financeiro) e sua separação (e quantificação) em relação às palavras de língua geral.

Descargas

Los datos de descarga aún no están disponibles.

Biografía del autor/a

Roana Rodrigues, Universidade Federal de Sergipe

Referencias

AGBABO, A., Barrière, C. Corpus construction for Terminology. In: Proceedings of the Corpus Linguistics Conference, Birmingham, 2005. p. 14-17.

ALM, C. O.; ROTH, D.; SPROAT, R. Emotions from text: Machine learning for text-based emotion prediction. In: Proceedings of HLT/EMNLP 2005, Vancouver/Canada: Association for Computational Linguistics, 2005, p.579-586.

ALMEIDA, G. M. B. A Teoria Comunicativa da Terminologia e a sua prática. Revista ALFA, [s.l.], v. 50, n. 2, 2006.

ALMEIDA, G. M. B.; OLIVEIRA, L. H. M. Terminology and computational linguistics: new praxes in terminography. Cahiers de Lexicologie, [s.l.], v. 101, p. 139-153, 2012.

ALVES, I. M. Glossário de termos neológicos da economia. Cadernos de Terminologia, 3 (Reimpressão). São Paulo: Humanitas, 2001.

BARROS, L. A. Curso básico de Terminologia. São Paulo: EDUSP. 296p, 2004.

BIDERMAN, M. T. C. Dicionário de termos financeiros e bancários. Disal Editora-Bantim, Canato e Guazzelli Editora Ltda, 2013.

CABRÉ M. T. Hacia una teoría comunicativa de la terminología: Aspectos metodológicos. In: CABRÉ, M. T. La Terminología: Representación y Comunicación: Elementos para una teoría de base comunicativa y otros artículos. Barcelona: Universitat Pompeu Fabra, 1999, p.129-150.

CABRÉ M. T. La terminología, una disciplina en evolución: pasado, presente y algunos elementos de futuro. Revista Debate Terminológico, [s.l.], n. 1, 2005.

DI FELIPPO, A.; POSTALI, C.; CEREGATTO, G.; GAZANA, L. S.; SILVA, E. H.; ROMAN, N. T.; PARDO, T. A. S. Descrição preliminar do corpus dantestocks: Diretrizes de segmentação para anotação segundo universal dependencies. In: Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. SBC, 2021.

DI FELIPPO, A.; POSTALI, C.; CEREGATTO, G.; GAZANA, L. S.; ROMAN, N. T. Diretrizes de Anotação de PoS Tags em Tweets do Mercado Financeiro: Orientações para anotação em língua portuguesa segundo a abordagem Universal Dependencies (UD). Relatório Técnico do ICMC 438. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. São Carlos-SP, 2022.

DROUIN, P.; GRABAR, N.; HAMON, T.; KAGEURA, K.; TAKEUCHI, K. Introduction. In: Proceedings of the 5th International Workshop on Computational Terminology, Osaka/Japan: The COLING 2016 Organizing Committee, 2016.

DURAN, M. S. Manual de anotação de PoS tags: orientações para anotação de etiquetas morfossintáticas em Língua Portuguesa, seguindo as diretrizes da abordagem Universal Dependencies. Relatório Técnico do ICMC, 434. ICMC, USP, São Carlos, 2021.

EISENSTEIN, J. What to do about bad language on the internet. In: Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Atlanta/Georgia: Association for Computational Linguistics, 2013, p. 359-369.

FINATTO, M. J. B. Acessibilidade textual e terminológica, o que é isso? In: FINATTO, M. J. B.; PARAGUASSU, L. B. (Org.). Acessibilidade Textual e Terminológica. 1ed. Uberlândia: EDUFU, 2022.

FUKUTOME, N.; HARADA, Y. Flavor Wheel Terminology and Challenges in Translation – Focusing on English and Japanese Vocabulary for Wine, Sake and Soy sauce. In: Proceedings of the 32nd Pacific Asia Conference on Language, Information and Computation. Hong Kong: Association for Computational Linguistics. 2018.

JURAFSKY, D.; MARTIN, J. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. 2a edição. Prentice Hall. 2008.

LANG, C.; WACHOWIAK, L.; HEINISCH, B.; GROMANN, D. Transforming Term Extraction: Transformer-Based Approaches to Multilingual Term Extraction Across Domains. In: Findings of the Association for Computational Linguistics. [s.l.]: Association for Computational Linguistics, 2021.

LIMA, E. B. A. A tradução de siglas e acrônimos em textos acadêmicos de ciências da saúde. Trabalho de conclusão de curso (Bacharelado em Tradução). João Pessoa: Universidade Federal da Paraíba, 2019.

LOPES, L.; VIEIRA, R.; FINATTO, M. J.; MARTINS, D.; ZANETTE, A.; RIBEIRO JR, L. C. Extração automática de termos compostos para construção de ontologias: um experimento na área da saúde. RECIIS: Revista eletrônica de comunicação, informação & inovação em saúde. Rio de Janeiro/RJ., vol. 3, n. 1, 2009.

NASCIMENTO, M. F. B. O papel dos corpora especializados na criação de bases terminológicas. In: CASTRO, I.; DUARTE, I. (orgs.). Razões e emoções, miscelânea de estudos em homenagem a Maria Helena Mateus. Lisboa: Imprensa Nacional-Casa da Moeda, vol. II, 2003.

NIVRE, J. Towards a universal grammar for natural language processing. In: Proceedings of Computational Linguistics and Intelligent Text Processing – Part 1, Cairo/Egypt: Springer International Publishing, 2015.

NIVRE, J.; MARNEFFE, M.; GINTER, F.; HAJIE, J.; MANNING, C.D.; PYYSALO, S.; SCHUSTER, S.; TYRES, F.; ZEMAN, D. Universal Dependencies v2: An evergrowing multilingual treebank collection. arXiv preprint arXiv:2004.10643, 2020.

PARDO, T. A. S.; DURAN, M. S.; LOPES, L.; DI FELIPPO, A.; ROMAN, N. T.; NUNES, M. G. P. Porttinari - a Large Multi-genre Treebank for Brazilian Portuguese. In: Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL). Porto Alegre: Sociedade Brasileira de Computação, 2021.

PENG, B.; CHERSONI, E.; HSU, Y-Y.; HUANG, C-R. Discovering Financial Hypernyms by Prompting Masked Language Models. In: Proceedings of the 4th Financial Narrative Processing Workshop. Marseille/France: European Language Resources Association, 2022.

RODRIGUES, R.; VALE, O. A. Falsos Diminutivos do Português Brasileiro e seu Reconhecimento em um Dicionário Computacional de Livre Acesso. Revista do GELNE, vol. 25, 2023.

SANGUINETTI, M.; BOSCO, C.; CASSIDY, L.; ÇETINOĞLU, Ö.; CIGNARELLA, A. T.; LYNN, T.; REHBEIN, I.; RUPPENHOFER, J.; SEDDAH, D.; ZELDES, A. Treebanking user-generated content: a proposal for a unified representation in universal dependencies. In: Proceedings of the 12th International Language Resources and Evaluation Conference. Marseille/France: European Language Resources Association, 2020.

SEIFEE, L.; MARTEN, O.; MIKHAILOV, M.; SCHMEIER, S.; MÖLLER, S.; ROLLER, R. From Witch’s Shot to Music Making Bones - Resources for Medical Laymen to Technical Language and Vice Versa. In: Proceedings of the Twelfth Language Resources and Evaluation Conference. Marseille/France: European Language Resources Association, 2020.

SILVA, E. H.; PARDO, T. A. S.; ROMAN, N. T.; DI FELIPPO, A. Universal Dependencies for Tweets in Brazilian Portuguese: Tokenization and Part of Speech Tagging. In: Encontro Nacional de Inteligência Artificial e Computacional (ENIAC). Porto Alegre: Sociedade Brasileira de Computação, 2021.

SILVA, F. J. V.; ROMAN, N. T.; CARVALHO, A. M. B. R. Stock market tweets annotated with emotions. Corpora, v. 15, n. 3, 2020.

TURNEY, P.; LITTMAN, M. Measuring praise and criticism: Inference of semantic orientation from association. ACM Transactions on Information Systems, [s.l.], v. 21, n.4, 2003.

WU, S.; IRSOY, O.; LU, S.; DABRAVOLSKI, V.; DREDZE, M.; GEHRMANN, S.; KAMBADUR, P.; ROSENBERG, D.; MANN, G. BloombergGPT: A Large Language Model for Finance. arXiv:2303.17564, [s.l.], 2023.

Termos do mercado financeiro: um estudo do corpus DANTEStocks

Autores/as

DOI:

Palabras clave:

Resumen

Descargas

Biografía del autor/a

Referencias

Descargas

Publicado

Número

Sección

Licencia

Cómo citar

Enviar un artículo

Idioma