<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE article
  PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.1 20151215//EN" "https://jats.nlm.nih.gov/publishing/1.1/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.1" specific-use="sps-1.9" xml:lang="pt" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink">
	<front>
		<journal-meta>
			<journal-id journal-id-type="publisher-id">tradterm</journal-id>
			<journal-title-group>
				<journal-title>Revista de Tradução e Terminologia</journal-title>
				<abbrev-journal-title abbrev-type="publisher">Revista de Tradução e Terminologia</abbrev-journal-title>
			</journal-title-group>
			<issn pub-type="ppub">2317-9511</issn>
			<issn pub-type="epub">2317-9511</issn>
			<publisher>
				<publisher-name>Centro Interdepartamental de Tradução e Terminologia da Universidade de São Paulo</publisher-name>
			</publisher>
		</journal-meta>
		<article-meta>
			<article-id pub-id-type="doi">10.11606/issn.2317-9511.v42p125-138</article-id>
			<article-categories>
				<subj-group subj-group-type="heading">
					<subject>Articles</subject>
				</subj-group>
			</article-categories>
			<title-group>
				<article-title>Extração de contextos definitórios do <italic>Corpus COVID-19</italic> com CQL</article-title>
				<trans-title-group xml:lang="en">
					<trans-title>Definition context extraction from the COVID-19 corpus with CQL</trans-title>
				</trans-title-group>
			</title-group>
			<contrib-group>
				<contrib contrib-type="author">
					<name>
						<surname>Bocorny</surname>
						<given-names>Ana Eliza Pereira</given-names>
					</name>
					<xref ref-type="aff" rid="aff1">*</xref>
				</contrib>
				<contrib contrib-type="author">
					<name>
						<surname>Rebechi</surname>
						<given-names>Rozane</given-names>
					</name>
					<xref ref-type="aff" rid="aff2">**</xref>
				</contrib>
				<contrib contrib-type="author">
					<name>
						<surname>Kilian</surname>
						<given-names>Cristiane Krause</given-names>
					</name>
					<xref ref-type="aff" rid="aff3">***</xref>
				</contrib>
			</contrib-group>
			<aff id="aff1">
				<label>*</label>
				<institution content-type="original">Professora no Instituto de Letras da Universidade Federal do Rio Grande do Sul. E-mail: ana.bocorny@gmail.com</institution>
				<institution content-type="orgdiv1">Instituto de Letras</institution>
				<institution content-type="orgname">Universidade Federal do Rio Grande do Sul</institution>
				<email>ana.bocorny@gmail.com</email>
			</aff>
			<aff id="aff2">
				<label>**</label>
				<institution content-type="original">Professora no Instituto de Letras da Universidade Federal do Rio Grande do Sul. E-mail: rozane.rebechi@ufrgs.br</institution>
				<institution content-type="orgdiv1">Instituto de Letras</institution>
				<institution content-type="orgname">Universidade Federal do Rio Grande do Sul</institution>
				<email>rozane.rebechi@ufrgs.br</email>
			</aff>
			<aff id="aff3">
				<label>***</label>
				<institution content-type="original">Professora no Instituto Superior de Educação Ivoti. E-mail: cristianekkilian@gmail.com</institution>
				<institution content-type="orgname">Instituto Superior de Educação Ivoti</institution>
				<email>cristianekkilian@gmail.com</email>
			</aff>
			<pub-date date-type="pub" publication-format="electronic">
				<day>20</day>
				<month>04</month>
				<year>2023</year>
			</pub-date>
			<pub-date date-type="collection" publication-format="electronic">
				<season>Jul-Dec</season>
				<year>2022</year>
			</pub-date>
			<volume>42</volume>
			<fpage>125</fpage>
			<lpage>137</lpage>
			<permissions>
				<license license-type="open-access" xlink:href="https://creativecommons.org/licenses/by-nc-sa/4.0/" xml:lang="pt">
					<license-p>Este é um artigo publicado em acesso aberto sob uma licença Creative Commons</license-p>
				</license>
			</permissions>
			<abstract>
				<title>Resumo</title>
				<p>Termos representam os conceitos de um domínio e sua compreensão permite o acesso aos saberes contidos nos textos especializados. Entender o significado dos termos, portanto, é de grande importância não apenas para que pesquisadores possam socializar seus estudos e descobertas, mas também para que profissionais e estudantes de várias áreas possam se valer da informação especializada em contextos de estudo e de trabalho. A evolução rápida do conhecimento muitas vezes não permite que a terminologia criada para designar conceitos seja dicionarizada com a necessária rapidez. Tal fato pode representar um grande desafio para aqueles que necessitam ter acesso ao conhecimento especializado. Tendo em vista o contexto descrito, este estudo parte da revisão de abordagens utilizadas para a extração automática de traços definitórios (TDs) e contextos definitórios (CDs) e propõe a utilização da ferramenta <italic>Corpus Query Language</italic> (<italic>CQL</italic>) para a extração de informações que auxiliem no entendimento da terminologia empregada em textos especializados. Em especial, verificamos a utilidade das sintaxes de busca construídas com a <italic>CQL</italic> para esse propósito, aplicando-as ao <italic>Corpus COVID-19</italic>. O percurso apresentado neste estudo poderá auxiliar não apenas especialistas da área médica, mas também tradutores, lexicógrafos e professores a processarem, de forma mais rápida e precisa, o conhecimento contido em textos especializados.</p>
			</abstract>
			<trans-abstract xml:lang="en">
				<title><italic>Abstract</italic></title>
				<p>Terms represent the concepts of a domain and by comprehending them readers have access to the knowledge contained in specialized texts. Therefore, understanding the meaning of terms is of great importance not only for researchers to share the results of their studies, but also for professionals and students from various areas to apply specialized information in their learning and working contexts. The fast- evolving knowledge does not always permit that the terminology created to designate new concepts is quickly inserted in dictionaries, and this may represent a great challenge for those who need access to specialized knowledge. After presenting approaches used in the last twenty years for the automatic extraction of definition traits (DT) and definition contexts (DC), we propose the use of the Corpus Query Language (CQL) tool to retrieve information that helps in understanding the terminology used in specialized texts. In particular, we attested the usefulness of search syntaxes built with CQL for this purpose, applying them to the COVID-19 Corpus. The path presented in this study can help not only specialists in the medical field, but also translators, lexicographers and teachers to process, in a faster and more accurate way, the knowledge contained in specialized texts.</p>
			</trans-abstract>
			<kwd-group xml:lang="pt">
				<title>Palavras-chave:</title>
				<kwd>COVID-19</kwd>
				<kwd>terminologia</kwd>
				<kwd>Linguística de <italic>Corpus</italic></kwd>
				<kwd>extração automática de contextos definitórios (CDs)</kwd>
				<kwd>traços definitórios (TDs)</kwd>
			</kwd-group>
			<kwd-group xml:lang="en">
				<title><italic>Keywords:</italic></title>
				<kwd>COVID-19</kwd>
				<kwd>terminology</kwd>
				<kwd><italic>corpus</italic> linguistics</kwd>
				<kwd>definition context (DC) extraction</kwd>
				<kwd>definitional segments (DS)</kwd>
			</kwd-group>
			<counts>
				<fig-count count="8"/>
				<table-count count="9"/>
				<equation-count count="0"/>
				<ref-count count="23"/>
				<page-count count="13"/>
			</counts>
		</article-meta>
	</front>
	<body>
		<sec sec-type="intro">
			<title>Introdução</title>
			<p>Termos, ou unidades terminológicas, entendidos aqui como unidades lexicais com sentido especializado, são vetores de conhecimento. Eles representam os conceitos de um domínio e sua compreensão permite o acesso aos saberes contidos nos textos especializados. Ter domínio da terminologia correta é de grande importância para os pesquisadores que compartilham seus estudos e descobertas, e também para os profissionais de diversas áreas que se valem da informação especializada em seus contextos de trabalho. Novos conceitos, e, consequentemente, novos termos, são cunhados constantemente e os materiais terminográficos não são atualizados com a necessária rapidez, o que pode dificultar o acesso ao conhecimento especializado.</p>
			<p>A pandemia do novo coronavírus é um exemplo da situação descrita. Pressionados pela evolução rápida da doença, pela publicação de um grande volume de pesquisas e pela necessidade de encontrar tratamento, prevenção e cura, pesquisadores e profissionais envolvidos com a pandemia deparam-se com necessidades terminológicas específicas que precisam ser atendidas de forma rápida e precisa. Tais necessidades, via de regra, estão relacionadas à compreensão do significado de termos e unidades terminológicas. Além dos pesquisadores e profissionais mencionados, outros sujeitos, como tradutores, lexicógrafos, professores universitários e alunos de graduação e pós-graduação, também apresentam necessidades terminológicas específicas que surgem em função da pandemia.</p>
			<p>As necessidades terminológicas variam, pois estão atreladas a vários fatores, como, por exemplo, ao perfil de cada sujeito, aos seus conhecimentos prévios e aos seus contextos de atuação. Um pesquisador com muito conhecimento especializado na área e um alto nível de proficiência na língua inglesa, por exemplo, possivelmente terá necessidades lexicográficas diferentes de um tradutor que atue em uma agência governamental e que não seja especializado na área em questão, mas que tenha um alto nível de proficiência em língua inglesa. Da mesma forma, um professor universitário da área de Letras que trabalhe leitura e escrita acadêmicas com alunos de graduação do curso de Medicina em uma instituição de ensino superior brasileira, tendo, supostamente, um baixo nível de conhecimento especializado e um alto nível de proficiência em língua inglesa geral e para fins acadêmicos, terá necessidades lexicográficas diferentes das de seus alunos, que, por outro lado, estão em fase de aquisição de conhecimento especializado da área médica e possuem níveis variados de proficiência em língua inglesa.</p>
			<p>Como mencionado, todos esses sujeitos têm necessidades terminológicas diversas e processam a informação obtida de maneira diferente em função de saberes prévios e experiências variadas que constituem seu perfil. Todos eles, no entanto, poderiam se beneficiar de um recurso que, de forma intuitiva, ágil, rápida e precisa pudesse apresentar uma compilação de fragmentos de textos autênticos que contivessem informações sobre características, funções e aspectos relevantes para a construção e entendimento do significado dos termos relacionados a suas necessidades (<italic>cf</italic>. <xref ref-type="bibr" rid="B20">SIERRA 2009</xref>).</p>
			<p>Após a discussão de algumas abordagens utilizadas para a extração automática de traços e contextos definitórios, visamos, neste estudo, apresentar estratégias de busca de informações que auxilie especialistas, profissionais e estudantes no entendimento do significado de termos e unidades terminológicas de forma rápida e precisa. Em especial, buscou-se verificar a utilidade das sintaxes de busca (SB) construídas com a ferramenta <italic>Corpus Query Language</italic> (<italic>CQL</italic>) (<xref ref-type="bibr" rid="B11">KILGARRIFF <italic>et al</italic>. 2004</xref>) para esse propósito, a partir de um <italic>corpus</italic> especializado em língua inglesa. Para tanto, a partir da revisão dos conceitos de definição (D), traço definitório (TD) e contexto definitório (CD), e do levantamento de diferentes abordagens para a extração automática de definições, utilizou-se o <italic>Corpus COVID-19</italic> para testar a utilidade das sintaxes mencionadas. Esse <italic>corpus</italic> de artigos científicos escritos em inglês sobre a temática COVID-19, com aproximadamente 156.756.091 de palavras, é parte do <italic>COVID-19 Open Research Dataset (CORD-19)</italic>, e está disponível na ferramenta <italic>Sketch Engine</italic> (<xref ref-type="bibr" rid="B11">KILGARRIFF <italic>et al</italic>. 2004</xref>).</p>
			<p>O estudo proposto nos levou a três questões de pesquisa: (i) Quais são os padrões definitórios mais produtivos do <italic>corpus</italic> de estudo? (ii) É possível construir SBs a partir dos padrões definitórios mais produtivos de uma área de especialidade? (iii) As SBs construídas com a <italic>CQL</italic> da ferramenta <italic>Sketch Engine</italic> (SE) são capazes de extrair TDs e CDs de <italic>corpora</italic> especializados, de forma a contribuir para o entendimento de termos e de unidades terminológicas?</p>
			<p>Após esta introdução, o restante do artigo está organizado em quatro seções principais. A seção 1 inicia com a revisão da literatura relativa aos conceitos de D, CD e TD e às estruturas discursivas dos CDs. Na seção 2 são apresentadas algumas abordagens utilizadas para a extração automática de TDs e CDs. Em seguida, na seção 3, descrevemos os <italic>corpora</italic> utilizados na pesquisa e as etapas metodológicas seguidas. Na seção 4, apresentamos os resultados e a discussão referentes ao uso de SBs construídas a partir de padrões definitórios produtivos do <italic>corpus</italic> de estudo para extração de TDs e CDs do <italic>Corpus COVID-19</italic>. Por fim, trazemos as considerações finais e propostas de trabalhos futuros.</p>
		</sec>
		<sec sec-type="discussion">
			<title>1. Conceitos de definição, contexto definitório e traço definitório</title>
			<p>Nesta seção, trazemos algumas considerações sobre os conceitos de definição (D), contexto definitório (CD) e traço definitório (TD) e refletimos sobre as formas como os TDs e CDs podem auxiliar na compreensão da terminologia de uma área de especialidade. Em seguida, tratamos da identificação e descrição de algumas das estruturas discursivas possíveis dos CDs.</p>
			<p>A elaboração de definições, uma das etapas mais complexas do processo lexicográfico, envolve muitas decisões metodológicas. Há, basicamente, três processos possíveis para a construção de definições. Elas podem ser: (i) criadas por especialistas; (ii) copiadas de outras obras de referência; ou (iii) extraídas de textos autênticos, como artigos acadêmicos, teses, dissertações, normas, leis, textos jornalísticos etc.</p>
			<p>Em um entendimento amplo, pode-se dizer que a definição é o conjunto de informações dadas sobre o termo ou palavra. Trata-se, portanto, da explicação de um item lexical por meio de outros, possibilitando o entendimento do significado do item definido. Segundo <xref ref-type="bibr" rid="B9">Finatto (1998</xref>), as definições podem ser lexicográficas, enciclopédicas ou terminológicas. Suas características são guiadas tanto pelo tipo de dicionário do qual fazem parte - dicionário de língua geral, dicionário enciclopédico e dicionário especializado - quanto pela “instância” a qual se referem, seja uma palavra, um referente ou uma porção de conhecimento sobre coisas ou fenômenos.</p>
			<p>Na definição lexicográfica, há predominância de informações linguísticas. Nos dicionários de língua geral, supostamente são elencadas todas as acepções de uma palavra, seu uso mais geral, mas também mais específico, regional e, por vezes, como parte de expressões idiomáticas. A definição enciclopédica “se ocupa mais de referentes e de descrição de ‘coisas’” (<xref ref-type="bibr" rid="B9">FINATTO 1998</xref>: 135), apresentando informações de diversos tipos. Já a definição terminológica privilegia uma das acepções, apresenta o significado específico de um termo como parte de um sistema conceitual, de uma área específica, delimitando-o e distinguindo-o das outras noções do mesmo sistema conceitual. Segundo <xref ref-type="bibr" rid="B9">Finatto (1998</xref>), esse tipo de definição “surge da complexa combinação de uma série de fatores, tais como as necessidades de veiculação de determinada porção de conhecimento e o perfil epistemológico e textual da área de especialidade” (<xref ref-type="bibr" rid="B9">FINATTO 1998</xref>: 138).</p>
			<p>Vale ressaltar que a definição apresenta diferenças dependendo do tipo de obra na qual será incluída e de seus propósitos. Como aponta <xref ref-type="bibr" rid="B1">Barros (2004</xref>), “não existe uma definição válida para dois dicionários, uma vez que a cada tipo de obra correspondem algumas características específicas que determinam o conteúdo e a organização do enunciado definicional” (<xref ref-type="bibr" rid="B1">BARROS 2004</xref>: 159).</p>
			<p>Quanto ao uso de definições em textos, <xref ref-type="bibr" rid="B18">Pearson (1996</xref>) ressalta que, quando especialistas escrevem artigos acadêmicos, eles podem definir (usando “definições originais”<xref ref-type="fn" rid="fn1"><sup>1</sup></xref>) ou redefinir (usando “definições relatadas”<xref ref-type="fn" rid="fn2"><sup>2</sup></xref>) termos. A autora afirma ainda que,</p>
			<disp-quote>
				<p>se [os especialistas] criam e nomeiam um novo conceito, provavelmente definirão o termo quando o apresentarem pela primeira vez. Se um conceito e um termo já existem dentro de um domínio específico, um autor pode desejar expandir ou redefinir o conceito subjacente ao termo, alterando assim a definição.<xref ref-type="fn" rid="fn3"><sup>3</sup></xref> (<xref ref-type="bibr" rid="B18">PEARSON 1996</xref>: 818).</p>
			</disp-quote>
			<p>Alguns autores fazem a distinção entre D e CD. Geralmente, entende-se contexto como porção de texto extraída de textos autênticos. Segundo <xref ref-type="bibr" rid="B6">De Besse (1991</xref>), contexto corresponde ao entorno linguístico de um termo e é constituído pelo enunciado ao seu redor. O CD possui duas funções: esclarecer o significado de um termo e exemplificar seu uso. O autor menciona vários tipos de contextos, distribuídos em dois grupos: os contextos que se referem ao conceito e os contextos que se referem ao termo, ou seja, à forma. O CD se encontra no primeiro grupo e “é formado por um certo número de elementos úteis e necessários para a descrição do conceito, mas insuficientes para a redação de uma definição”<xref ref-type="fn" rid="fn4"><sup>4</sup></xref> (<xref ref-type="bibr" rid="B6">DE BESSE 1991</xref>: 112).</p>
			<p>
				<xref ref-type="bibr" rid="B6">De Besse (1991</xref>) considera CD o que <xref ref-type="bibr" rid="B17">Pavel e Nolet (2002</xref>) denominam contexto explicativo: “Os CDs apresentam características essenciais do conceito em estudo, enquanto que os contextos explicativos fornecem informação sobre algumas das características” (<xref ref-type="bibr" rid="B17">PAVEL &amp; NOLET 2002</xref>: 48). Em TERMIUM Plus®<xref ref-type="fn" rid="fn5"><sup>5</sup></xref>, banco de dados linguísticos e terminológicos do Governo Canadense, o contexto explicativo esclarece um ou mais de um aspecto da unidade terminológica, mas não contém elementos suficientes para constituir uma definição. Essa distinção também é feita em <xref ref-type="bibr" rid="B7">De Lucca (2006</xref>). Para o autor, o CD “apresenta descritores essenciais do conceito” (<xref ref-type="bibr" rid="B7">DE LUCCA 2006</xref>: 8).</p>
			<p>
				<xref ref-type="bibr" rid="B19">Pearson (1998</xref>) menciona que, ao produzirem textos em contextos especializados, os autores possivelmente expliquem o significado de alguns termos usados. A quantidade de informação que constituirá essas explicações dependerá da disparidade existente entre o conhecimento do autor e do (suposto) leitor. Segundo a autora, as explicações podem ser fragmentos de informações presentes nos textos e necessitam ser recuperadas e organizadas para a formulação de definições dos termos.</p>
			<p>Segundo <xref ref-type="bibr" rid="B20">Sierra (2009</xref>), o CD é uma estrutura discursiva formada por, no mínimo, dois elementos, o termo (T) e uma definição (D), os quais são conectados por um padrão definitório (PD)<xref ref-type="fn" rid="fn6"><sup>6</sup></xref>, que pode ser tipográfico (por exemplo, dois pontos, parênteses) ou sintático (por exemplo, ‘se define como’, ‘é um’). Há também o elemento optativo, chamado de padrão pragmático (PPR), que apresenta informação metalinguística ou pragmática referente a forma, condições de uso ou alcance operativo (<xref ref-type="bibr" rid="B20">SIERRA 2009</xref>). Reproduzimos abaixo a <xref ref-type="fig" rid="f1">figura</xref> que corresponde a essa estrutura:</p>
			<p>
				<fig id="f1">
					<label>Figura 1</label>
					<caption>
						<title>Estrutura de um CD</title>
					</caption>
					<graphic xlink:href="2317-9511-tradterm-42-125-gf1.jpg"/>
					<attrib>Fonte: <xref ref-type="bibr" rid="B20">Sierra (2009</xref>: 17).</attrib>
				</fig>
			</p>
			<p>Em nosso estudo, a partir do entendimento de <xref ref-type="bibr" rid="B19">Pearson (1998</xref>) e adaptando a proposta de <xref ref-type="bibr" rid="B20">Sierra (2009</xref>), chamamos de contexto definitório (CD) fragmentos de texto autêntico, contendo traços definitórios (TDs) e escritos por especialistas, ou seja, informações sobre características, funções e aspectos relevantes que auxiliam o leitor na construção do entendimento do significado dos termos. Diferentemente da definição, o CD não é um texto especialmente construído por lexicógrafos ou especialistas para compor uma obra lexicográfica ou terminográfica. Consideramos traço definitório (TD) a informação extraída de um contexto definitório que pode auxiliar na construção de uma definição ou na construção do significado do termo. Fornecem dados sobre características do termo, como composição, estrutura, função ou relação com outros termos. Como exemplo, apresentamos o seguinte contexto definitório: <italic>Novel coronavirus is a respiratory disease caused by a viral infection</italic>. Ele contém dois traços definitórios - (i) <italic>a respiratory disease</italic> (doença respiratória) e (ii) <italic>caused by a viral infection</italic> (causada por uma infecção viral). O primeiro indica um hiperônimo e o segundo expressa uma causa.</p>
			<p>Os desafios científicos e técnicos para a extração de CDs a partir de um <italic>corpus</italic> especializado são muitos. É necessário, em primeiro lugar, descrever as diferentes estruturas discursivas dos CDs para, só então, tratar das estratégias para sua extração. A metodologia proposta por <xref ref-type="bibr" rid="B22">Triki (2019</xref>) mostra a importância de se ter dados linguísticos precisos antes de iniciar o processo de extração de CDs. A autora parte de um processo manual de extração de segmentos definitórios (<italic>definitional segments</italic>), equivalentes ao que chamamos neste estudo de traços definitórios (TDs), realizado por especialistas a partir de um <italic>corpus</italic> de 40 artigos (317.000 palavras) de duas áreas de especialidade: Ciência da Computação e Linguística. O processo de codificação, descrito por <xref ref-type="bibr" rid="B22">Triki (2019</xref>), iniciou com a leitura detalhada dos textos, durante a qual todas as definições foram marcadas. Em seguida, segmentos definitórios foram categorizados quanto a sua estrutura. Por fim, foi feita uma classificação do aspecto funcional das unidades definitórias (<italic>defining units</italic>) conforme as categorias estabelecidas por <xref ref-type="bibr" rid="B21">Triki (2014</xref>): nomeação, classificação, composição, função ou explicação.</p>
			<p>Com base em <xref ref-type="bibr" rid="B20">Sierra (2009</xref>), classificamos os padrões definitórios em dois grupos: (i) padrões definitórios formais, que se referem a algum elemento formal - por exemplo, uso de dois pontos (:), de fonte diferente ou marcação em itálico ou negrito diferente para o termo e definição ou contexto definitório; e (ii) padrões definitórios linguísticos, relacionados ao uso de estruturas com verbos como <italic>define, know</italic> ou <italic>call</italic> (por exemplo, <italic>x is defined as</italic>) ou uso de marcadores reformulativos (por exemplo, <italic>that is</italic>). Para nossa análise, utilizamos os padrões definitórios sugeridos por <xref ref-type="bibr" rid="B15">Kovář, Močiariková e Rychlý (2016</xref>), como será demonstrado na próxima seção.</p>
		</sec>
		<sec sec-type="discussion">
			<title>2. Abordagens para a extração automática de CDs</title>
			<p>Como afirmam <xref ref-type="bibr" rid="B14">Kosem <italic>et al</italic>. (2019</xref>), a extração de exemplos para a construção de produtos lexicográficos pode ser baseada em três tipos de <italic>input</italic>: humano, por máquina ou ainda uma combinação de ambos. O mesmo acontece com a extração de CDs. Nesta seção, revisamos a literatura quanto às abordagens para a extração automática desses contextos. Não é nossa intenção fazer uma revisão exaustiva de todas as abordagens existentes, mas sim um levantamento dos principais estudos conduzidos entre 2000 e 2020 que tiveram como objetivo principal o desenvolvimento de processos para a extração automática de CDs.</p>
			<p>As pesquisas em extração automática de Ds e CDs empregam diferentes métodos de identificação de informações em um texto. Entre 2000 e 2020, alguns estudos (por exemplo, <xref ref-type="bibr" rid="B13">KLAVANS &amp; MURESAN 2000</xref>; <xref ref-type="bibr" rid="B4">CUI, KAN &amp; CHUA 2004</xref> e <xref ref-type="bibr" rid="B5">2005</xref>; <xref ref-type="bibr" rid="B8">FAHMI &amp; BOUMA 2006</xref>; <xref ref-type="bibr" rid="B10">JIN <italic>et al</italic>. 2013</xref>; <xref ref-type="bibr" rid="B15">KOVÁŘ, MOČIARIKOVÁ &amp; RYCHLÝ 2016</xref>; e <xref ref-type="bibr" rid="B23">VEYSEH <italic>et al</italic>. 2020</xref>) desenvolveram e aprimoraram esses processos. <xref ref-type="bibr" rid="B23">Veyseh <italic>et al</italic>. (2020</xref>) sugerem que tais abordagens sejam divididas em três categorias, conforme o tipo de extração: (i) abordagem baseada em regras; (ii) abordagem baseada em engenharia de atributos (<italic>feature engineering</italic>); e (iii) abordagem baseada em aprendizagem profunda (<italic>deep learning</italic>). O <xref ref-type="table" rid="t1">Quadro 1</xref> elenca os estudos citados, listando o nome dos pesquisadores que conduziram o projeto, o ano de publicação do artigo que apresenta o estudo e a abordagem adotada para a extração de Ds e CDs do <italic>corpus.</italic></p>
			<p>
				<table-wrap id="t1">
					<label>Quadro 1</label>
					<caption>
						<title>Abordagens de extração automática de Ds e CDs</title>
					</caption>
					<table>
						<colgroup>
							<col/>
							<col/>
							<col/>
						</colgroup>
						<thead>
							<tr>
								<th align="center"><bold>Pesquisadores<italic>/</italic>Desenvolvedores</bold></th>
								<th align="center">Ano de publicação do artigo</th>
								<th align="center">Abordagem adotada para extração das Ds e CDs</th>
							</tr>
						</thead>
						<tbody>
							<tr>
								<td align="center">Klavans e Muresan</td>
								<td align="center">2000</td>
								<td align="center">Abordagem baseada em regras</td>
							</tr>
							<tr>
								<td align="center">Cui, Kan e Chua</td>
								<td align="center">2004 e 2005</td>
								<td align="center">Abordagem baseada em regras</td>
							</tr>
							<tr>
								<td align="center">Fahmi e Bouma</td>
								<td align="center">2006</td>
								<td align="center">Abordagem baseada em regras</td>
							</tr>
							<tr>
								<td align="center">Jin <italic>et al</italic>.</td>
								<td align="center">2013</td>
								<td align="center">Abordagem baseada em engenharia de atributos</td>
							</tr>
							<tr>
								<td align="center">Kovář, Močiariková e Rychlý</td>
								<td align="center">2016</td>
								<td align="center">Abordagem baseada em regras</td>
							</tr>
							<tr>
								<td align="center">Veyseh <italic>et al</italic>.</td>
								<td align="center">2020</td>
								<td align="center">Abordagem baseada em aprendizagem profunda</td>
							</tr>
						</tbody>
					</table>
					<table-wrap-foot>
						<fn id="TFN1">
							<p>Fonte: Elaborado pelas autoras.</p>
						</fn>
					</table-wrap-foot>
				</table-wrap>
			</p>
			<p>O <italic>Definder</italic>, desenvolvido por <xref ref-type="bibr" rid="B13">Klavans e Muresan (2000</xref>), foi um dos primeiros sistemas de extração automática de termos e CDs. Baseado em um sistema de regras, ele busca artigos completos e deles extrai termos e definições. Em um estudo posterior, <xref ref-type="bibr" rid="B12">Klavans e Muresan (2001</xref>) propõem uma avaliação quantitativa e qualitativa do recurso. <xref ref-type="bibr" rid="B15">Kovář, Močiariková e Rychlý (2016</xref>) sugerem uma forma automática de extração de definições também baseada em regras. Utilizando a linguagem de consulta de <italic>corpus</italic> (<italic>CQL)</italic>, os autores construíram SBs que representam padrões definitórios recorrentes no <italic>corpus</italic> analisado para localizar e armazenar candidatos a definições no <italic>corpus</italic>. <italic>Corpus Query Language</italic> (<italic>CQL</italic>) é a linguagem utilizada para extrair informações de um <italic>corpus</italic>. Na composição do termo <italic>CQL</italic>, a palavra <italic>query</italic> significa questionamento, consulta ou busca. Os questionamentos realizados por meio da <italic>CQL</italic> utilizam uma série de atributos que, combinados, resultam em uma sintaxe de busca (por exemplo, [word=&quot;<italic>coronavirus</italic>&quot;]) que extrairá do <italic>corpus</italic> todas as linhas de concordância que contêm a informação solicitada. O <xref ref-type="table" rid="t2">Quadro 2</xref> mostra alguns exemplos desses padrões de forma simplificada.</p>
			<p>
				<table-wrap id="t2">
					<label>Quadro 2</label>
					<caption>
						<title>Forma simplificada dos padrões definitórios usados no SE para identificar candidatos à definição.</title>
					</caption>
					<table>
						<colgroup>
							<col span="2"/>
						</colgroup>
						<tbody>
							<tr>
								<td align="left" colspan="2">• <bold>TERM</bold> “is/are/means/was/were” “a/an”, including:</td>
							</tr>
							<tr>
								<td align="left"/>
								<td align="left">- <bold>TERM</bold>” (in quotes)</td>
							</tr>
							<tr>
								<td align="left"/>
								<td align="left">- <bold>TERM</bold> parenthesis “is/are/...” “a/an” (parenthesis expressed by commas, dashes or brackets)</td>
							</tr>
							<tr>
								<td align="left"/>
								<td align="left">- <bold>TERM</bold> prepositional-phrase “is/are/...” “a/an”</td>
							</tr>
							<tr>
								<td align="left"/>
								<td align="left">- optional “a/an” in selected cases</td>
							</tr>
							<tr>
								<td align="left" colspan="2">• What” “is” <bold>TERM</bold>, with a definition in the following sentence</td>
							</tr>
							<tr>
								<td align="left" colspan="2">• <bold>TERM</bold> “refers” “to”, plus variants with parentheses and prepositional phrases, as above</td>
							</tr>
							<tr>
								<td align="left" colspan="2">• <bold>TERM</bold> “is/are” “defined” “as”, plus variants with parentheses and prepositional phrases, as above</td>
							</tr>
							<tr>
								<td align="left" colspan="2">• ... “is/are” “known/called/referred to” “as” <bold>TERM</bold></td>
							</tr>
							<tr>
								<td align="left" colspan="2">• <bold>TERM</bold> “is/are” “used” “to” “describe/denote/mean/refer to”, plus variants with parentheses</td>
							</tr>
							<tr>
								<td align="left" colspan="2">• <bold>TERM</bold> “is” “a” “term” “for/referring to”, plus variants with parentheses</td>
							</tr>
							<tr>
								<td align="left" colspan="2">• <bold>TERM</bold> “is/are” “understood” “to”, plus variants with parentheses</td>
							</tr>
							<tr>
								<td align="left" colspan="2">• <bold>TERM</bold> “consists” “of”, plus variants with parentheses</td>
							</tr>
						</tbody>
					</table>
					<table-wrap-foot>
						<fn id="TFN2">
							<p>Fonte: <xref ref-type="bibr" rid="B15">Kovář, Močiariková e Rychlý (2016</xref>: 391).</p>
						</fn>
					</table-wrap-foot>
				</table-wrap>
			</p>
			<p>
				<xref ref-type="bibr" rid="B15">Kovář, Močiariková e Rychlý (2016</xref>) ressaltam que, em todos os padrões apresentados no <xref ref-type="table" rid="t2">Quadro 2</xref>, <bold>TERM</bold> é um sintagma nominal. Os autores também mencionam que os padrões, em <italic>CQL</italic>, são bastante complexos. Um exemplo de padrão definitório em <italic>CQL</italic> é mostrado na <xref ref-type="fig" rid="f2">Figura 2</xref>.</p>
			<p>
				<fig id="f2">
					<label>Figura 2</label>
					<caption>
						<title>Exemplo de padrão definitório em CQL para <bold>TERM</bold> “is/are” “understood” “to”.</title>
					</caption>
					<graphic xlink:href="2317-9511-tradterm-42-125-gf2.jpg"/>
					<attrib>Fonte: <xref ref-type="bibr" rid="B15">Kovář, Močiariková e Rychlý (2016</xref>).</attrib>
				</fig>
			</p>
			<p>A partir da identificação de padrões definitórios recorrentes, um link chamado <italic>Definitions</italic> foi incluído no SE<italic>.</italic> Tal link filtra os resultados de qualquer concordância a partir dos parâmetros estabelecidos nas SBs construídas com base nos padrões definitórios recorrentes identificados pelos autores. A <xref ref-type="fig" rid="f3">Figura 3</xref> mostra os padrões definitórios sugeridos por <xref ref-type="bibr" rid="B15">Kovář, Močiariková e Rychlý (2016</xref>), bem como o número de vezes que o padrão definitório descrito aparece no <italic>corpus</italic> (<italic>No. of hits</italic>), o percentual de linhas de concordância (LCs), em uma amostra de 50 linhas, que contêm definições (<italic>Prec. on sample</italic>) e, por fim, uma estimativa do número de definições contidas no <italic>corpus</italic> a partir do percentual identificado na amostra observada (<italic>Estimated no. definitions</italic>).</p>
			<p>
				<fig id="f3">
					<label>Figura 3</label>
					<caption>
						<title>Padrões definitórios sugeridos por <xref ref-type="bibr" rid="B15">Kovář, Močiariková e Rychlý (2016</xref>).</title>
					</caption>
					<graphic xlink:href="2317-9511-tradterm-42-125-gf3.jpg"/>
					<attrib>Fonte: <xref ref-type="bibr" rid="B15">Kovář, Močiariková e Rychlý (2016</xref>).</attrib>
				</fig>
			</p>
			<p>Até a publicação deste artigo, a funcionalidade <italic>Definitions</italic> estava disponível apenas para os <italic>corpora English Wikipedia Corpus</italic> e <italic>enTenTen 13</italic>. Nesses <italic>corpora</italic>, essa funcionalidade é identificada pelo ícone de uma lâmpada, como mostra a <xref ref-type="fig" rid="f4">Figura 4</xref>:</p>
			<p>
				<fig id="f4">
					<label>Figura 4</label>
					<caption>
						<title>Funcionalidade <italic>Definitions</italic> do SE.</title>
					</caption>
					<graphic xlink:href="2317-9511-tradterm-42-125-gf4.jpg"/>
					<attrib>Fonte: <italic>Sketch Engine</italic> (<xref ref-type="bibr" rid="B11">KILGARRIFF <italic>et al</italic>. 2004</xref>)<italic>.</italic></attrib>
				</fig>
			</p>
			<p>Tendo em vista o objetivo deste trabalho, que é oferecer aos especialistas estratégias de busca de informações que permitam o entendimento do significado de termos e unidades terminológicas, e considerando que muitos desses especialistas possivelmente não têm conhecimentos mais aprofundados de informática e de programação, é importante que a alternativa de busca proposta seja acessível e de fácil implementação. Por essa razão, optou-se por testar a metodologia sugerida por <xref ref-type="bibr" rid="B15">Kovář, Močiariková e Rychlý (2016</xref>) de forma a verificar sua aplicabilidade para a extração de CDs e TDs de termos presentes em um <italic>corpus</italic> especializado.</p>
		</sec>
		<sec sec-type="methods">
			<title><bold>3. O <italic>corpus</italic> e as etapas metodológicas</bold></title>
			<p>Nesta seção, a partir da aplicação de elementos da metodologia proposta por <xref ref-type="bibr" rid="B15">Kovář, Močiariková e Rychlý (2016</xref>) e de dados extraídos do <italic>Corpus COVID- 19</italic>, exemplificamos análises realizadas para a identificação dos padrões definitórios mais produtivos no <italic>corpus</italic> de estudo, que pudessem ser usados para a extração de TDs e CDs. Para tanto, iniciamos descrevendo os <italic>corpora</italic>, e, em seguida, apresentamos os procedimentos metodológicos adotados.</p>
			<sec>
				<title><bold>3.1 Constituição do <italic>corpus</italic> de estudo</bold></title>
				<p>Os CDs e TDs foram coletados do <italic>corpus</italic> de estudo COVID-19. Tal <italic>corpus</italic> possui aproximadamente 156.756.091 de palavras e é composto de artigos científicos escritos em língua inglesa sobre a temática COVID-19. Tais artigos foram publicados em periódicos internacionais de livre acesso, após terem sido revisados por pares. Esse <italic>corpus</italic> é disponibilizado como parte do <italic>COVID-19 Open Research Dataset (CORD-19)</italic><xref ref-type="fn" rid="fn7"><sup>7</sup></xref><italic>.</italic> O <xref ref-type="table" rid="t3">quadro</xref> abaixo apresenta a descrição do <italic>corpus</italic> de estudo:</p>
				<p>
					<table-wrap id="t3">
						<label>Quadro 3</label>
						<caption>
							<title>Descrição do <italic>corpus</italic> de estudo.</title>
						</caption>
						<table>
							<colgroup>
								<col/>
								<col/>
							</colgroup>
							<tbody>
								<tr>
									<td align="left" style="background-color:#dbdbdb"><bold>Registro</bold></td>
									<td align="left">Acadêmico</td>
								</tr>
								<tr>
									<td align="left" style="background-color:#dbdbdb"><bold>Gênero</bold></td>
									<td align="left">Artigos</td>
								</tr>
								<tr>
									<td align="left" style="background-color:#dbdbdb"><bold>Meio de publicação</bold></td>
									<td align="left">Periódicos revisados por pares e de acesso aberto da plataforma <italic>CORD-19</italic></td>
								</tr>
								<tr>
									<td align="left" style="background-color:#dbdbdb"><bold>Língua de publicação</bold></td>
									<td align="left">Inglês</td>
								</tr>
								<tr>
									<td align="left" style="background-color:#dbdbdb"><bold>Domínio</bold></td>
									<td align="left">Medicina e ciências da saúde</td>
								</tr>
							</tbody>
						</table>
						<table-wrap-foot>
							<fn id="TFN3">
								<p>Fonte: Elaborado pelas autoras.</p>
							</fn>
						</table-wrap-foot>
					</table-wrap>
				</p>
				<p>O <xref ref-type="table" rid="t4">Quadro 4</xref> mostra o número de <italic>tokens</italic>, <italic>types</italic> e textos do <italic>corpus</italic> de estudo:</p>
				<p>
					<table-wrap id="t4">
						<label>Quadro 4</label>
						<caption>
							<title><italic>Corpus</italic> de estudo em números.</title>
						</caption>
						<table>
							<colgroup>
								<col/>
								<col/>
								<col/>
								<col/>
								<col/>
							</colgroup>
							<thead>
								<tr>
									<th align="center">Domínio</th>
									<th align="center"><bold>
 <italic>Corpus</italic> de estudo</bold></th>
									<th align="center"><bold>Número total de palavras (<italic>tokens</italic>
</bold><xref ref-type="fn" rid="fn9"><sup>9</sup></xref><bold>)</bold></th>
									<th align="center"><bold>Número total de palavras sem repetição (<italic>types</italic>)</bold></th>
									<th align="center">Textos</th>
								</tr>
							</thead>
							<tbody>
								<tr>
									<td align="center">Medicina e áreas da saúde</td>
									<td align="center">Artigos científicos</td>
									<td align="center">224.061.570</td>
									<td align="center">1.783.529</td>
									<td align="center">50.754</td>
								</tr>
							</tbody>
						</table>
						<table-wrap-foot>
							<fn id="TFN4">
								<p>Fonte: Elaborado pelas autoras.</p>
							</fn>
						</table-wrap-foot>
					</table-wrap>
				</p>
				<p>O <italic>corpus</italic> de estudo está disponibilizado no SE. A ferramenta foi utilizada para a extração das linhas de concordância contendo CDs e TDs de termos com alto índice de chavicidade no <italic>Corpus COVID-19.</italic> O <italic>corpus</italic> de referência usado foi o <italic>English Web 2013 (enTenTen13)</italic>, sugerido por <italic>default</italic> pelo SE<italic>.</italic> Esse <italic>corpus</italic> faz parte da família <italic>TenTen corpus</italic> e é composto de textos de língua geral coletados da internet.</p>
				<p>O <xref ref-type="table" rid="t5">Quadro 5</xref> mostra o número de <italic>tokens</italic>, <italic>types</italic> e textos do <italic>corpus</italic> de referência.</p>
				<p>
					<table-wrap id="t5">
						<label>Quadro 5</label>
						<caption>
							<title><italic>Corpus</italic> de referência em números</title>
						</caption>
						<table>
							<colgroup>
								<col/>
								<col/>
								<col/>
								<col/>
								<col/>
							</colgroup>
							<thead>
								<tr>
									<th align="center">Domínio</th>
									<th align="center"><bold>
 <italic>Corpus</italic> de estudo</bold></th>
									<th align="center"><bold>Número total de palavras (<italic>tokens</italic>)</bold></th>
									<th align="center"><bold>Número total de palavras sem repetição (<italic>types</italic>)</bold></th>
									<th align="center">Textos</th>
								</tr>
							</thead>
							<tbody>
								<tr>
									<td align="center">Língua geral</td>
									<td align="center">Textos extraídos da WEB</td>
									<td align="center">19.685.733.337</td>
									<td align="center">44.909.567</td>
									<td align="center">37.061.719</td>
								</tr>
							</tbody>
						</table>
						<table-wrap-foot>
							<fn id="TFN5">
								<p>Fonte: Elaborado pelas autoras.</p>
							</fn>
						</table-wrap-foot>
					</table-wrap>
				</p>
			</sec>
			<sec>
				<title>3.2 Etapas metodológicas</title>
				<p>As etapas metodológicas adotadas neste estudo foram: (i) seleção de um <italic>corpus</italic> de estudo e um <italic>corpus</italic> de referência; (ii) identificação de termos e unidades terminológicas com maior índice de chavicidade e frequência normalizada (pmp)<xref ref-type="fn" rid="fn10"><sup>10</sup></xref> no <italic>corpus</italic> de estudo; (iii) identificação de padrões definitórios apresentados na literatura (<xref ref-type="bibr" rid="B15">KOVÁŘ, MOČIARIKOVÁ &amp; RYCHLÝ 2016</xref>); (iv) identificação dos padrões definitórios mais produtivos do <italic>corpus</italic> de estudo; (v) construção de sintaxes de busca, a partir dos padrões definitórios mais produtivos do <italic>corpus</italic> de estudo; (vi) extração de LCs com CDs e TDs de termos com alto índice de chavididade no <italic>corpus</italic> de estudo; e, por fim, (vii) observação e análise dos dados obtidos.</p>
			</sec>
		</sec>
		<sec sec-type="results|discussion">
			<title>4. Resultados e discussão</title>
			<p>Os procedimentos metodológicos para a extração dos CDs e TDs iniciaram com a identificação de termos do <italic>Corpus COVID-19</italic> com maior índice de chavicidade<xref ref-type="fn" rid="fn11"><sup>11</sup></xref> e frequência normalizada (pmp). As palavras-chave identificadas são mostradas no <xref ref-type="table" rid="t6">Quadro 6</xref>:</p>
			<p>
				<table-wrap id="t6">
					<label>Quadro 6</label>
					<caption>
						<title>Termos simples e termos compostos com maior chavicidade e frequência normalizada (pmp) do <italic>Corpus COVID-19</italic>.</title>
					</caption>
					<table>
						<colgroup>
							<col/>
							<col/>
							<col/>
						</colgroup>
						<thead>
							<tr>
								<th align="center">Termos simples</th>
								<th align="center">Índice de chavicidade</th>
								<th align="center">Frequência (pmp)</th>
							</tr>
						</thead>
						<tbody>
							<tr>
								<td align="center"><italic>RNA</italic></td>
								<td align="center">277.490</td>
								<td align="center">933,48</td>
							</tr>
							<tr>
								<td align="center"><italic>coronavirus</italic></td>
								<td align="center">231.190</td>
								<td align="center">229,76</td>
							</tr>
							<tr>
								<td align="center"><italic>SARS</italic></td>
								<td align="center">207.470</td>
								<td align="center">327,58</td>
							</tr>
							<tr>
								<td align="center"><bold>Termos compostos</bold></td>
								<td align="center"/>
								<td align="center"/>
							</tr>
							<tr>
								<td align="center"><italic>influenza virus</italic></td>
								<td align="center">110.740</td>
								<td align="center">128,34</td>
							</tr>
							<tr>
								<td align="center"><italic>viral replication</italic></td>
								<td align="center">93.530</td>
								<td align="center">97,95</td>
							</tr>
							<tr>
								<td align="center"><italic>respiratory tract</italic></td>
								<td align="center">82.040</td>
								<td align="center">118,61</td>
							</tr>
						</tbody>
					</table>
					<table-wrap-foot>
						<fn id="TFN6">
							<p>Fonte: Elaborado pelas autoras.</p>
						</fn>
					</table-wrap-foot>
				</table-wrap>
			</p>
			<p>Uma vez identificados os termos e as unidades terminológicas com maior chavicidade e frequência normalizada (pmp) do <italic>corpus</italic> de estudo<italic>,</italic> o termo <italic>coronavirus</italic> foi escolhido para exemplificar o tipo de análise proposto, a partir dos padrões definitórios sugeridos por <xref ref-type="bibr" rid="B15">Kovář, Močiariková e Rychlý (2016</xref>).</p>
			<p>Diferentemente das metodologias descritas nas pesquisas citadas, neste estudo não buscamos o percentual de LCs com ocorrência de definições, mas sim a ocorrência de LCs que contivessem TDs e CDs. O <xref ref-type="table" rid="t7">Quadro 7</xref> mostra os resultados extraídos do <italic>Corpus COVID-19</italic> para os padrões definitórios sugeridos por <xref ref-type="bibr" rid="B15">Kovář, Močiariková e Rychlý (2016</xref>) com o termo <italic>coronavirus</italic>:</p>
			<p>
				<table-wrap id="t7">
					<label>Quadro 7</label>
					<caption>
						<title>Padrões definitórios com o termo <italic>coronavirus</italic>.</title>
					</caption>
					<table>
						<colgroup>
							<col/>
							<col/>
							<col/>
							<col/>
						</colgroup>
						<thead>
							<tr>
								<th align="center">Padrão definitório</th>
								<th align="center"><bold>Número total de ocorrências no <italic>corpus</italic>
</bold></th>
								<th align="center">Percentual de LC com TDs na amostra<xref ref-type="fn" rid="fn12"><sup>12</sup></xref> (%)</th>
								<th align="center"><bold>Número estimado de LC com TDs no <italic>corpus</italic>
</bold></th>
							</tr>
						</thead>
						<tbody>
							<tr>
								<td align="center"><bold>
 <italic>coronavirus is a</italic>
</bold> /<italic>an</italic></td>
								<td align="center">127 (0,45 pmp)</td>
								<td align="center">94%</td>
								<td align="center">119</td>
							</tr>
							<tr>
								<td align="left"><italic>what is coronavirus</italic></td>
								<td align="center">0</td>
								<td align="center">0%</td>
								<td align="center">0</td>
							</tr>
							<tr>
								<td align="left"><bold>
 <italic>coronavirus refers</italic>
</bold> /<italic>referred to</italic></td>
								<td align="center">10</td>
								<td align="center">100%</td>
								<td align="center">10</td>
							</tr>
							<tr>
								<td align="left"><bold>
 <italic>coronavirus is defined as</italic>
</bold></td>
								<td align="center">1</td>
								<td align="center">0%</td>
								<td align="center">0</td>
							</tr>
							<tr>
								<td align="left"><bold>
 <italic>coronavirus is known as</italic>
</bold></td>
								<td align="center">5 (0,02 pmp)</td>
								<td align="center">100%</td>
								<td align="center">5</td>
							</tr>
							<tr>
								<td align="left"><bold>
 <italic>coronavirus is used to describe</italic>
</bold></td>
								<td align="center">0</td>
								<td align="center">0%</td>
								<td align="center">0</td>
							</tr>
							<tr>
								<td align="left"><bold>
 <italic>coronavirus is a term for</italic>
</bold></td>
								<td align="center">0</td>
								<td align="center">0%</td>
								<td align="center">0</td>
							</tr>
							<tr>
								<td align="left"><bold>
 <italic>coronavirus is understood to</italic>
</bold></td>
								<td align="center">0</td>
								<td align="center">0%</td>
								<td align="center">0</td>
							</tr>
							<tr>
								<td align="left"><bold>
 <italic>coronavirus consists of</italic>
</bold></td>
								<td align="center">5 (0,02 pmp)</td>
								<td align="center">100%</td>
								<td align="center">5</td>
							</tr>
						</tbody>
					</table>
					<table-wrap-foot>
						<fn id="TFN7">
							<p>Fonte: Elaborado pelas autoras.</p>
						</fn>
					</table-wrap-foot>
				</table-wrap>
			</p>
			<p>Para a identificação dos padrões definitórios mais produtivos do <italic>corpus</italic> de estudo, a partir dos padrões sugeridos por <xref ref-type="bibr" rid="B15">Kovář, Močiariková e Rychlý (2016</xref>), construímos as SBs usando a funcionalidade <italic>CQL builder</italic> disponível no <italic>SE</italic>. Exemplificamos a construção das sintaxes mostrando os atributos usados para o padrão definitório <bold>
 <italic>TERM is</italic>
</bold> /<italic>are a</italic>/<italic>an: [tag=&quot;N.*&quot;] [word=&quot;is&quot; | word=&quot;are&quot;] [word=&quot;a&quot; | word=&quot;an&quot;]</italic>. O atributo <italic>tag</italic> indica a classe gramatical da palavra que se quer extrair - no caso, <italic>noun</italic> (substantivo); e <italic>word</italic> indica a palavra exata que se busca - <italic>is</italic>. A barra vertical (<italic>|</italic>) também foi usada, indicando que se quer uma das opções que se encontram antes ou depois da marcação vertical.</p>
			<p>Uma vez construídas todas as SBs, verificou-se a frequência absoluta e a frequência normalizada dos padrões, bem como o percentual de LCs com TDs em uma amostra de 50 LCs. Por fim, o número estimado de LCs com TDs foi calculado, como mostra o <xref ref-type="table" rid="t8">Quadro 8</xref>:</p>
			<p>
				<table-wrap id="t8">
					<label>Quadro 8</label>
					<caption>
						<title>Padrões definitórios extraídos do <italic>Corpus COVID-19</italic>.</title>
					</caption>
					<table>
						<colgroup>
							<col/>
							<col/>
							<col/>
							<col/>
							<col/>
						</colgroup>
						<thead>
							<tr>
								<th align="center">Padrão definitório</th>
								<th align="center">Sintaxe de busca (SB)</th>
								<th align="center"><bold>Número total e pmp de LC extraídas do <italic>corpus</italic> com a <italic>CQL</italic> genérica</bold></th>
								<th align="center">Percentual de LC com TDs na amostra (%)</th>
								<th align="center"><bold>Número estimado de LC com TDs no <italic>corpus</italic>
</bold></th>
							</tr>
						</thead>
						<tbody>
							<tr>
								<td align="center" style="background-color:#f4cccc"><bold>
 <italic>TERM is</italic>
</bold> /are <italic>a</italic>/<italic>an</italic></td>
								<td align="center" style="background-color:#f4cccc"><italic>[tag=&quot;N.*&quot;] [word=&quot;is&quot; | word=&quot;are&quot;] [word=&quot;a&quot; | word=&quot;an&quot;]</italic></td>
								<td align="center" style="background-color:#f4cccc">88.617 (315,6 pmp)</td>
								<td align="center" style="background-color:#f4cccc">86%</td>
								<td align="center" style="background-color:#f4cccc">74.490</td>
							</tr>
							<tr>
								<td align="center" style="background-color:#cfe2f3"><italic>what is TERM</italic></td>
								<td align="center" style="background-color:#cfe2f3"><italic>[word=&quot;what&quot;] [word=&quot;is&quot; | word=&quot;are&quot;] [tag=&quot;N.*&quot;]</italic></td>
								<td align="center" style="background-color:#cfe2f3">44 (0,1 pmp)</td>
								<td align="center" style="background-color:#cfe2f3">5%</td>
								<td align="center" style="background-color:#cfe2f3">2</td>
							</tr>
							<tr>
								<td align="center" style="background-color:#f4cccc"><bold>
 <italic>TERM refers</italic>
</bold> /<italic>referred to</italic></td>
								<td align="center" style="background-color:#f4cccc"><italic>[tag=&quot;N.*&quot;] [lemma=&quot;refer&quot;] [word=&quot;to&quot;]</italic></td>
								<td align="center" style="background-color:#f4cccc">3.342 (11,9 pmp)</td>
								<td align="center" style="background-color:#f4cccc">84%</td>
								<td align="center" style="background-color:#f4cccc">2.807</td>
							</tr>
							<tr>
								<td align="center" style="background-color:#f4cccc"><bold>
 <italic>TERM is defined as</italic>
</bold></td>
								<td align="center" style="background-color:#f4cccc"><italic>[tag=&quot;N.*&quot;] [word=&quot;is&quot;] [word=&quot;defined&quot;] [word=&quot;as&quot;]</italic></td>
								<td align="center" style="background-color:#f4cccc">3.003 (10,7 pmp)</td>
								<td align="center" style="background-color:#f4cccc">100%</td>
								<td align="center" style="background-color:#f4cccc">3.003</td>
							</tr>
							<tr>
								<td align="center" style="background-color:#d9ead3"><bold>
 <italic>TERM is known as</italic>
</bold></td>
								<td align="center" style="background-color:#d9ead3"><italic>[tag=&quot;N.*&quot;] [word=&quot;is&quot;] [word=&quot;known&quot;] [word=&quot;as&quot;]</italic></td>
								<td align="center" style="background-color:#d9ead3">888 (3,1 pmp)</td>
								<td align="center" style="background-color:#d9ead3">100%</td>
								<td align="center" style="background-color:#d9ead3">888</td>
							</tr>
							<tr>
								<td align="center" style="background-color:#d9ead3"><bold>
 <italic>TERM is used to describe</italic>
</bold></td>
								<td align="center" style="background-color:#d9ead3"><italic>[tag=&quot;N.*&quot;] [word=&quot;is&quot;] [word=&quot;used&quot;] [word=&quot;to&quot;] [word=&quot;describe&quot;]</italic></td>
								<td align="center" style="background-color:#d9ead3">71 (0,2 pmp)</td>
								<td align="center" style="background-color:#d9ead3">100%</td>
								<td align="center" style="background-color:#d9ead3">71</td>
							</tr>
							<tr>
								<td align="center" style="background-color:#d9ead3"><bold>
 <italic>TERM is a term for</italic>
</bold></td>
								<td align="center" style="background-color:#d9ead3"><italic>[tag=&quot;N.*&quot;] [word=&quot;is&quot;] [word=&quot;a&quot;] [word=&quot;term&quot;] [word=&quot;for&quot;]</italic></td>
								<td align="center" style="background-color:#d9ead3">7 (0,02 pmp)</td>
								<td align="center" style="background-color:#d9ead3">100%</td>
								<td align="center" style="background-color:#d9ead3">7</td>
							</tr>
							<tr>
								<td align="center" style="background-color:#d9ead3"><bold>
 <italic>TERM is understood to</italic>
</bold></td>
								<td align="center" style="background-color:#d9ead3"><italic>[tag=&quot;N.*&quot;] [word=&quot;is&quot;] [word=&quot;understood&quot;] [word=&quot;to&quot;]</italic></td>
								<td align="center" style="background-color:#d9ead3">24 (0,09 pmp</td>
								<td align="center" style="background-color:#d9ead3">100%</td>
								<td align="center" style="background-color:#d9ead3">24</td>
							</tr>
							<tr>
								<td align="center" style="background-color:#f4cccc"><bold>
 <italic>TERM consists of</italic>
</bold></td>
								<td align="center" style="background-color:#f4cccc"><italic>[tag=&quot;N.*&quot;] [word=&quot;consists&quot;] [word=&quot;of&quot;]</italic></td>
								<td align="center" style="background-color:#f4cccc">8.468 (30,1 pmp)</td>
								<td align="center" style="background-color:#f4cccc">100%</td>
								<td align="center" style="background-color:#f4cccc">8.468</td>
							</tr>
						</tbody>
					</table>
					<table-wrap-foot>
						<fn id="TFN8">
							<p>Fonte: Elaborado pelas autoras.</p>
						</fn>
					</table-wrap-foot>
				</table-wrap>
			</p>
			<p>De todos os padrões analisados, o que apresentou menor percentual (5%) de LCs com TDs na amostra analisada e uma das mais baixas frequências normalizadas (0,1 pmp) foi o padrão <bold>
 <italic>what is TERM</italic>
</bold> , destacado no <xref ref-type="table" rid="t8">Quadro 8</xref> em azul. Outros padrões (<bold>
 <italic>TERM is known as, TERM is used to describe, TERM is a term for, TERM is understood to</italic>
</bold> ), destacados no <xref ref-type="table" rid="t8">Quadro 8</xref> em verde, ainda que tivessem um percentual alto (100%) de LCs com TDs, apresentavam frequências normalizadas baixas, menores que 10 ocorrências (pmp). Assim, para determinar os padrões definitórios mais produtivos do <italic>corpus</italic> de estudo, dois pontos de corte foram estabelecidos: (i) o padrão definitório deveria ter pelo menos 80% da amostra de LC com TDs e uma frequência normalizada mínima de 10 ocorrências (pmp). Dessa forma, foram considerados produtivos no <italic>Corpus COVID-19</italic> os padrões definitórios <bold>
 <italic>TERM is</italic>
</bold> /are <italic>a</italic>/<bold>
 <italic>an, TERM refers</italic>
</bold> /<bold>
 <italic>referred to, TERM is defined as</italic> 
</bold> e <bold>
 <italic>TERM consists of</italic>
</bold> , todos destacados em vermelho no <xref ref-type="table" rid="t8">Quadro 8</xref>.</p>
			<p>Uma vez estabelecidos os padrões definitórios mais produtivos do <italic>corpus</italic> de estudo, procuramos verificar se haveria a possibilidade de agrupar vários padrões definitórios em uma única SB, de forma a extrair um maior volume de LCs com TDs. O agrupamento de padrões definitórios em uma mesma sintaxe de busca, inicialmente pretendido, aconteceu apenas com o padrão <bold>
 <italic>TERM is defined as,</italic> 
</bold> como pode ser observado no <xref ref-type="table" rid="t9">Quadro 9</xref>. Ao incluir na SB outros verbos, como <italic>known, presented, treated, described, understood</italic> e <italic>used,</italic> buscou-se extrair do <italic>corpus</italic> de estudo um volume maior de LCs com TDs. Por fim, percebeu-se a possibilidade de trocar todos os verbos listados pela etiqueta de verbos (<italic>[tag=&quot;V.*&quot;]</italic>):</p>
			<p>
				<table-wrap id="t9">
					<label>Quadro 9</label>
					<caption>
						<title>Padrões definitórios mais produtivos do <italic>corpus</italic> de estudo.</title>
					</caption>
					<table>
						<colgroup>
							<col/>
							<col/>
						</colgroup>
						<thead>
							<tr>
								<th align="center">Padrão definitório</th>
								<th align="center">Sintaxe de busca</th>
							</tr>
						</thead>
						<tbody>
							<tr>
								<td align="center"><bold>
 <italic>TERM is</italic>
</bold> /are <italic>a</italic>/<italic>an</italic></td>
								<td align="center"><bold>
 <italic>TERM [word=&quot;is&quot; | word=&quot;are&quot;] [word=&quot;a&quot; | word=&quot;an&quot;]</italic>
</bold></td>
							</tr>
							<tr>
								<td align="center"><bold>
 <italic>TERM refers</italic>
</bold> /<italic>referred to</italic></td>
								<td align="center"><bold>
 <italic>TERM [lemma=&quot;refer&quot;] [word=&quot;to&quot;]</italic>
</bold></td>
							</tr>
							<tr>
								<td align="center"><bold>
 <italic>TERM is defined as</italic>
</bold></td>
								<td align="center" rowspan="2"><bold>
 <italic>TERM [word=&quot;is&quot;] [word=&quot;are&quot;] [tag=&quot;V.*&quot;] [word=&quot;as&quot;]</italic>
</bold></td>
							</tr>
							<tr>
								<td align="center"><bold>
 <italic>TERM is known as</italic>
</bold></td>
							</tr>
							<tr>
								<td align="center"><bold>
 <italic>TERM consists of</italic>
</bold></td>
								<td align="center"><bold>
 <italic>TERM [lemma=&quot;consist&quot;] [word=&quot;of&quot;]</italic>
</bold></td>
							</tr>
						</tbody>
					</table>
					<table-wrap-foot>
						<fn id="TFN9">
							<p>Fonte: Elaborado pelas autoras.</p>
						</fn>
					</table-wrap-foot>
				</table-wrap>
			</p>
			<p>As <xref ref-type="fig" rid="f5">Figuras 5</xref> e <xref ref-type="fig" rid="f6">6</xref> comparam, respectivamente, os resultados obtidos na extração de LC com TDs para o termo <italic>coronavirus</italic> com a combinação de palavras <italic>is defined as</italic> e com a SB <italic>[word=&quot;coronavirus&quot;] [word=&quot;is&quot;] [word=&quot;defined&quot; | word=&quot;presented&quot; | word=&quot;known&quot; | word=&quot;treated&quot; |word=&quot;described&quot; | word=&quot;understood&quot; | word=&quot;used&quot;] [word=&quot;as&quot;].</italic> Ressalta-se que, com a combinação de palavras <italic>is defined as</italic>, apenas um CD foi extraído. A utilização da SB, por outro lado, permitiu a extração de quatro CDs:</p>
			<p>
				<fig id="f5">
					<label>Figura 5</label>
					<caption>
						<title>Resultado da extração de CDs para o termo <italic>coronavirus</italic> com a combinação de palavras <italic>is defined as</italic>.</title>
					</caption>
					<graphic xlink:href="2317-9511-tradterm-42-125-gf5.jpg"/>
					<attrib>Fonte: <italic>Sketch Engine</italic> (<xref ref-type="bibr" rid="B11">KILGARRIFF <italic>et al</italic>. 2004</xref>)<italic>.</italic></attrib>
				</fig>
			</p>
			<p>
				<fig id="f6">
					<label>Figura 6</label>
					<caption>
						<title>Resultado da extração de CDs para o termo coronavirus com a SB [word=&quot;coronavirus&quot;] [word=&quot;is&quot;] [word=&quot;defined&quot; | word=&quot;presented&quot; | word=&quot;known&quot; <italic>| word=&quot;treated&quot; | word=&quot;described&quot; | word=&quot;understood&quot; | ord=&quot;used&quot;] [word=&quot;as&quot;]</italic>.</title>
					</caption>
					<graphic xlink:href="2317-9511-tradterm-42-125-gf6.jpg"/>
					<attrib>Fonte: <italic>Sketch Engine</italic> (<xref ref-type="bibr" rid="B11">KILGARRIFF <italic>et al</italic>. 2004</xref>)<italic>.</italic></attrib>
				</fig>
			</p>
			<p>Na <xref ref-type="fig" rid="f7">Figura 7</xref>, mostra-se a SB que substitui todos os verbos listados ([word=&quot;defined&quot; | word=&quot;presented&quot; | word=&quot;known&quot; | word=&quot;treated&quot; | word=&quot;described&quot; | word=&quot;understood&quot; | word=&quot;used&quot;]) pela etiqueta que representa verbos ([tag=&quot;V.*&quot;]). Tal opção resulta não apenas em uma maior frequência normalizada (pmp), mas também em um maior percentual de LCs com CDs e TDs. Certamente, um volume maior de LCs com TDs e CDs facilitará o entendimento do significado do item lexical em questão.</p>
			<p>
				<fig id="f7">
					<label>Figura 7</label>
					<caption>
						<title>Resultado da extração de CDs do termo <italic>coronavirus</italic> com SB com <italic>[tag=&quot;V.*&quot;]</italic>.</title>
					</caption>
					<graphic xlink:href="2317-9511-tradterm-42-125-gf7.jpg"/>
					<attrib>Fonte: <italic>Sketch Engine</italic> (<xref ref-type="bibr" rid="B11">KILGARRIFF <italic>et al</italic>. 2004</xref>)<italic>.</italic></attrib>
				</fig>
			</p>
			<p>Cabe destacar, também, que, com exceção de <bold>
 <italic>what is TERM</italic>
</bold> , os percentuais de LCs com CDs e TDs foram sempre maiores no <italic>corpus</italic> especializado, em comparação com o <italic>corpus</italic> geral, como pode ser observado no <xref ref-type="fig" rid="f8">Gráfico 1</xref>. Tal fato não surpreende, pois é esperado que textos especializados, especialmente de temática recente, como a da COVID-19, tenham um volume maior de termos a serem definidos e ressignificados e, consequentemente, de contextos definitórios, do que textos da língua geral.</p>
			<p>
				<fig id="f8">
					<label>Gráfico 1</label>
					<caption>
						<title>Percentuais de LC com TDs no <italic>corpus</italic> geral e no <italic>corpus</italic> especializado.</title>
					</caption>
					<graphic xlink:href="2317-9511-tradterm-42-125-gf8.jpg"/>
					<attrib>Fonte: Elaborado pelas autoras.</attrib>
				</fig>
			</p>
		</sec>
		<sec sec-type="conclusions">
			<title>Considerações finais</title>
			<p>O objetivo deste trabalho foi identificar estratégias de busca de informações que auxiliassem especialistas, profissionais e estudantes na compreensão do significado de termos e unidades terminológicas. Em especial, buscou-se verificar a utilidade das SBs construídas com a <italic>Corpus Query Language</italic> (<italic>CQL</italic>) para esse propósito, com base nos padrões definitórios sugeridos por <xref ref-type="bibr" rid="B15">Kovář, Močiariková e Rychlý (2016</xref>) e nas análises realizadas a partir do <italic>Corpus COVID-19.</italic></p>
			<p>Primeiramente identificamos os padrões definitórios mais produtivos do <italic>corpus</italic>: (i) <bold>
 <italic>TERM [tag=&quot;N.*&quot;] [word=&quot;is&quot; | word=&quot;are&quot;] [word=&quot;a&quot; | word=&quot;an&quot;]</italic>
</bold> , (ii) <bold>
 <italic>TERM [tag=&quot;N.*&quot;] [lemma=&quot;refer&quot;] [word=&quot;to&quot;]</italic>
</bold> , (iii) <bold>
 <italic>TERM [tag=&quot;N.*&quot;] [word=&quot;is&quot;] [word=&quot;defined&quot;] [word=&quot;as&quot;]</italic>
</bold> , e (iv) <bold>
 <italic>TERM [tag=&quot;N.*&quot;] [word=&quot;consists&quot;] [word=&quot;of&quot;].</italic>
</bold></p>
			<p>Quanto à possibilidade de construir SBs a partir dos padrões definitórios mais produtivos de uma área de especialidade, observamos que os resultados obtidos não derivam do agrupamento dos padrões definitórios mais produtivos do <italic>Corpus COVID-19</italic>, como era esperado. Tais padrões, no entanto, serviram de base para a construção das SBs. Mudanças nos atributos das SBs permitiram a construção de sintaxes que fossem capazes de extrair um maior percentual de LCs com TDs e CDs.</p>
			<p>Por fim, com relação à possibilidade de as SBs construídas com a ferramenta <italic>CQL</italic> serem capazes de extrair TDs e CDs de <italic>corpora</italic> especializados, os resultados obtidos mostraram que as SBs complexas (por exemplo, <bold>
 <italic>TERM [word=&quot;is&quot;] [word=&quot;are&quot;] [tag=&quot;V.*&quot;] [word=&quot;as&quot;])</italic>
</bold> , construídas com a <italic>CQL</italic> do SE a partir dos padrões definitórios mais produtivos do <italic>Corpus COVID-19,</italic> extraíram, em apenas uma busca, um percentual de LCs com TDs e CDs maior do que as buscas com combinação de palavras como <italic>RNA is defined as</italic>, ou com SBs mais simples (por exemplo, <bold>
 <italic>TERM [word=&quot;defined&quot; | word=&quot;presented&quot; | word=&quot;known&quot; | word=&quot;treated&quot; | word=&quot;described&quot; | word=&quot;understood&quot; | word=&quot;used&quot;]</italic>
</bold> ).</p>
			<p>Espera-se que os resultados obtidos neste estudo possam auxiliar não apenas especialistas da área médica, mas também estudantes e outros profissionais, como tradutores e lexicógrafos, a processarem de forma rápida e precisa o conhecimento expresso por meio dos termos contidos em textos especializados.</p>
			<p>Em estudos futuros, outros padrões definitórios podem ser usados para informar a construção de SBs com a <italic>CQL</italic>. Da mesma forma, pode-se construir SBs a partir da identificação dos padrões definitórios mais produtivos e recorrentes em diferentes áreas de especialidade, pois os padrões definitórios variam conforme a área de especialidade e o gênero dos textos. Acreditamos que outros estudos poderão fazer uso da metodologia descrita na construção de recursos para a extração automática de CDs de <italic>corpora</italic> especializados.</p>
			<p>Em uma perspectiva mais qualitativa, à semelhança do estudo realizado por <xref ref-type="bibr" rid="B12">Klavans e Muresan (2001</xref>), uma comparação das definições disponibilizadas em dicionários especializados com os TDs e CDs identificados por meio das SBs trará contribuições para os estudos sobre definições.</p>
		</sec>
	</body>
	<back>
		<ref-list>
			<title>Referências</title>
			<ref id="B1">
				<mixed-citation>BARROS, L. A. <italic>Curso básico de Terminologia</italic>. São Paulo: EdUSP, 2004.</mixed-citation>
				<element-citation publication-type="book">
					<person-group person-group-type="author">
						<name>
							<surname>BARROS</surname>
							<given-names>L. A</given-names>
						</name>
					</person-group>
					<source>Curso básico de Terminologia</source>
					<publisher-loc>São Paulo</publisher-loc>
					<publisher-name>EdUSP</publisher-name>
					<year>2004</year>
				</element-citation>
			</ref>
			<ref id="B2">
				<mixed-citation>BIBER, D., CONNOR, U., &amp; UPTON, T. <italic>Discourse on the Move</italic>. Using corpus analysis to describe discourse structure. Amsterdam: John Benjamins, 2007.</mixed-citation>
				<element-citation publication-type="book">
					<person-group person-group-type="author">
						<name>
							<surname>BIBER</surname>
							<given-names>D.</given-names>
						</name>
						<name>
							<surname>CONNOR</surname>
							<given-names>U.</given-names>
						</name>
						<name>
							<surname>UPTON</surname>
							<given-names>T</given-names>
						</name>
					</person-group>
					<source><italic>Discourse on the Move</italic>. Using corpus analysis to describe discourse structure</source>
					<publisher-loc>Amsterdam</publisher-loc>
					<publisher-name>John Benjamins</publisher-name>
					<year>2007</year>
				</element-citation>
			</ref>
			<ref id="B3">
				<mixed-citation>BOCORNY, A. E. P., REBECHI, R. R., REPPEN, R., DELFINO, M. C. N., &amp; LAMEIRA, V. M. A produção de artigos da área das ciências da saúde com o auxílio de key lexical bundles: um estudo direcionado por corpus. <italic>D.E.L.T.A</italic>, n., v. 1, 2021: 1-37.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>BOCORNY</surname>
							<given-names>A. E. P.</given-names>
						</name>
						<name>
							<surname>REBECHI</surname>
							<given-names>R. R.</given-names>
						</name>
						<name>
							<surname>REPPEN</surname>
							<given-names>R.</given-names>
						</name>
						<name>
							<surname>DELFINO</surname>
							<given-names>M. C. N.</given-names>
						</name>
						<name>
							<surname>LAMEIRA</surname>
							<given-names>V. M</given-names>
						</name>
					</person-group>
					<article-title>A produção de artigos da área das ciências da saúde com o auxílio de key lexical bundles: um estudo direcionado por corpus</article-title>
					<source>D.E.L.T.A</source>
					<volume>1</volume>
					<year>2021</year>
					<fpage>1</fpage>
					<lpage>37</lpage>
				</element-citation>
			</ref>
			<ref id="B4">
				<mixed-citation>CUI, H., KAN, M. Y., &amp; CHUA, T. S. Unsupervised learning of soft patterns for definitional question answering. <italic>Proceedings of the Thirteenth World Wide Web conference (WWW 2004</italic>), 2004: 90-99.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>CUI</surname>
							<given-names>H.</given-names>
						</name>
						<name>
							<surname>KAN</surname>
							<given-names>M. Y.</given-names>
						</name>
						<name>
							<surname>CHUA</surname>
							<given-names>T. S</given-names>
						</name>
					</person-group>
					<article-title>Unsupervised learning of soft patterns for definitional question answering</article-title>
					<source>Proceedings of the Thirteenth World Wide Web conference (WWW 2004)</source>
					<year>2004</year>
					<fpage>90</fpage>
					<lpage>99</lpage>
				</element-citation>
			</ref>
			<ref id="B5">
				<mixed-citation>CUI, H., KAN, M. Y., &amp; CHUA, T. S. Generic soft pattern models for definitional question answering. <italic>Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval</italic>, 2005: 384-391.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>CUI</surname>
							<given-names>H.</given-names>
						</name>
						<name>
							<surname>KAN</surname>
							<given-names>M. Y.</given-names>
						</name>
						<name>
							<surname>CHUA</surname>
							<given-names>T. S</given-names>
						</name>
					</person-group>
					<article-title>Generic soft pattern models for definitional question answering</article-title>
					<source>Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval</source>
					<year>2005</year>
					<fpage>384</fpage>
					<lpage>391</lpage>
				</element-citation>
			</ref>
			<ref id="B6">
				<mixed-citation>DE BESSÉ, B. Le contexte terminographique. <italic>Meta: journal des traducteurs/Meta: Translators' Journal</italic>, n. 36, v. 1, 1991: 111-120.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>DE BESSÉ</surname>
							<given-names>B</given-names>
						</name>
					</person-group>
					<article-title>Le contexte terminographique</article-title>
					<source>Meta: journal des traducteurs/Meta: Translators' Journal</source>
					<issue>36</issue>
					<volume>1</volume>
					<year>1991</year>
					<fpage>111</fpage>
					<lpage>120</lpage>
				</element-citation>
			</ref>
			<ref id="B7">
				<mixed-citation>DE LUCCA, J. L. Identificação de padrões recorrentes no discurso técnico e científico para a extração automática de candidatos a contextos definitórios em língua portuguesa. Intercâmbio. <italic>Revista do Programa de Estudos Pós-Graduados em Linguística Aplicada e Estudos da Linguagem</italic>, n. 15, 2006.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>DE LUCCA</surname>
							<given-names>J. L</given-names>
						</name>
					</person-group>
					<article-title>Identificação de padrões recorrentes no discurso técnico e científico para a extração automática de candidatos a contextos definitórios em língua portuguesa</article-title>
					<source>Intercâmbio. Revista do Programa de Estudos Pós-Graduados em Linguística Aplicada e Estudos da Linguagem</source>
					<issue>15</issue>
					<year>2006</year>
				</element-citation>
			</ref>
			<ref id="B8">
				<mixed-citation>FAHMI, I., &amp; BOUMA, G. Learning to identify definitions using syntactic features. <italic>Proceedings of the Workshop on Learning Structured Information in Natural Language Applications</italic>, 2006: 64-71.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>FAHMI</surname>
							<given-names>I.</given-names>
						</name>
						<name>
							<surname>BOUMA</surname>
							<given-names>G</given-names>
						</name>
					</person-group>
					<article-title>Learning to identify definitions using syntactic features</article-title>
					<source>Proceedings of the Workshop on Learning Structured Information in Natural Language Applications</source>
					<year>2006</year>
					<fpage>64</fpage>
					<lpage>71</lpage>
				</element-citation>
			</ref>
			<ref id="B9">
				<mixed-citation>FINATTO, M. J. B. Elementos Lexicográficos e Enciclopédicos na Definição Terminológica: Questões de Partida. <italic>Organon</italic>, n. 12, v. 26, 1998: 1-8. Disponível em &lt;<comment>Disponível em <ext-link ext-link-type="uri" xlink:href="http://seer.ufrgs.br/index.php/organon/article/view/29563">http://seer.ufrgs.br/index.php/organon/article/view/29563</ext-link>
					</comment>&gt;. Acesso em 01 ago. 2020.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>FINATTO</surname>
							<given-names>M. J. B</given-names>
						</name>
					</person-group>
					<article-title>Elementos Lexicográficos e Enciclopédicos na Definição Terminológica: Questões de Partida</article-title>
					<source>Organon</source>
					<issue>12</issue>
					<volume>26</volume>
					<year>1998</year>
					<fpage>1</fpage>
					<lpage>8</lpage>
					<comment>Disponível em <ext-link ext-link-type="uri" xlink:href="http://seer.ufrgs.br/index.php/organon/article/view/29563">http://seer.ufrgs.br/index.php/organon/article/view/29563</ext-link>
					</comment>
					<date-in-citation content-type="access-date" iso-8601-date="2020-08-01">01 ago. 2020</date-in-citation>
				</element-citation>
			</ref>
			<ref id="B10">
				<mixed-citation>JIN, Y., KAN, M. Y., NG, J. P., &amp; HE, X. Mining scientific terms and their definitions: A study of the ACL anthology. <italic>Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing</italic>, 2013: 780-790.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>JIN</surname>
							<given-names>Y.</given-names>
						</name>
						<name>
							<surname>KAN</surname>
							<given-names>M. Y.</given-names>
						</name>
						<name>
							<surname>NG</surname>
							<given-names>J. P.</given-names>
						</name>
						<name>
							<surname>HE</surname>
							<given-names>X</given-names>
						</name>
					</person-group>
					<article-title>Mining scientific terms and their definitions: A study of the ACL anthology</article-title>
					<source>Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing</source>
					<year>2013</year>
					<fpage>780</fpage>
					<lpage>790</lpage>
				</element-citation>
			</ref>
			<ref id="B11">
				<mixed-citation>KILGARRIFF, A.; RYCHLY, P.; SMRZ, P.; TUGWELL, D. The Sketch Engine. <italic>Proceedings of Euralex</italic>, 2004: 105-116.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>KILGARRIFF</surname>
							<given-names>A.</given-names>
						</name>
						<name>
							<surname>RYCHLY</surname>
							<given-names>P.</given-names>
						</name>
						<name>
							<surname>SMRZ</surname>
							<given-names>P.</given-names>
						</name>
						<name>
							<surname>TUGWELL</surname>
							<given-names>D</given-names>
						</name>
					</person-group>
					<article-title>The Sketch Engine</article-title>
					<source>Proceedings of Euralex</source>
					<year>2004</year>
					<fpage>105</fpage>
					<lpage>116</lpage>
				</element-citation>
			</ref>
			<ref id="B12">
				<mixed-citation>KLAVANS, J. L., &amp; MURESAN, S. Evaluation of the DEFINDER system for fully automatic glossary construction. <italic>Proceedings of the AMIA Symposium</italic>. American Medical Informatics Association, 2001: 324-328.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>KLAVANS</surname>
							<given-names>J. L.</given-names>
						</name>
						<name>
							<surname>MURESAN</surname>
							<given-names>S</given-names>
						</name>
					</person-group>
					<article-title>Evaluation of the DEFINDER system for fully automatic glossary construction</article-title>
					<source>Proceedings of the AMIA Symposium</source>
					<publisher-name>American Medical Informatics Association</publisher-name>
					<year>2001</year>
					<fpage>324</fpage>
					<lpage>328</lpage>
				</element-citation>
			</ref>
			<ref id="B13">
				<mixed-citation>KLAVANS, J. L., &amp; MURESAN, S. DEFINDER: Rule-based methods for the extraction of medical terminology and their associated definitions from on-line text. <italic>Proceedings of the AMIA Symposium</italic>. American Medical Informatics Association, 2000: 1049.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>KLAVANS</surname>
							<given-names>J. L.</given-names>
						</name>
						<name>
							<surname>MURESAN</surname>
							<given-names>S</given-names>
						</name>
					</person-group>
					<article-title>DEFINDER: Rule-based methods for the extraction of medical terminology and their associated definitions from on-line text</article-title>
					<source>Proceedings of the AMIA Symposium</source>
					<publisher-name>American Medical Informatics Association</publisher-name>
					<year>2000</year>
					<fpage>1049</fpage>
					<lpage>1049</lpage>
				</element-citation>
			</ref>
			<ref id="B14">
				<mixed-citation>KOSEM, I., KOPPEL, K., KUHN, T. Z., MICHELFEIT, J., &amp; TIBERIUS, C. Identification and automatic extraction of good dictionary examples: the case (s) of GDEX. <italic>International Journal of Lexicography</italic>, n. 32, v. 2, 2019: 119-137.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>KOSEM</surname>
							<given-names>I.</given-names>
						</name>
						<name>
							<surname>KOPPEL</surname>
							<given-names>K.</given-names>
						</name>
						<name>
							<surname>KUHN</surname>
							<given-names>T. Z.</given-names>
						</name>
						<name>
							<surname>MICHELFEIT</surname>
							<given-names>J.</given-names>
						</name>
						<name>
							<surname>TIBERIUS</surname>
							<given-names>C</given-names>
						</name>
					</person-group>
					<article-title>Identification and automatic extraction of good dictionary examples: the case (s) of GDEX</article-title>
					<source>International Journal of Lexicography</source>
					<issue>32</issue>
					<volume>2</volume>
					<year>2019</year>
					<fpage>119</fpage>
					<lpage>137</lpage>
				</element-citation>
			</ref>
			<ref id="B15">
				<mixed-citation>KOVÁŘ, V., MOČIARIKOVÁ, M., &amp; RYCHLÝ, P. Finding definitions in large corpora with Sketch Engine. <italic>Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)</italic>, 2016: 391-394.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>KOVÁŘ</surname>
							<given-names>V.</given-names>
						</name>
						<name>
							<surname>MOČIARIKOVÁ</surname>
							<given-names>M.</given-names>
						</name>
						<name>
							<surname>RYCHLÝ</surname>
							<given-names>P</given-names>
						</name>
					</person-group>
					<article-title>Finding definitions in large corpora with Sketch Engine</article-title>
					<source>Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)</source>
					<year>2016</year>
					<fpage>391</fpage>
					<lpage>394</lpage>
				</element-citation>
			</ref>
			<ref id="B16">
				<mixed-citation>MASUM, M., SHAHRIAR, H., HADDAD, H. M., AHAMED, S., SNEHA, S., RAHMAN, M., &amp; CUZZOCREA, A. Actionable Knowledge Extraction Framework for COVID-19. <italic>Proceedings of the 2020 IEEE International Conference on Big Data (Big Data)</italic>, 2020: 4036-4041.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>MASUM</surname>
							<given-names>M.</given-names>
						</name>
						<name>
							<surname>SHAHRIAR</surname>
							<given-names>H.</given-names>
						</name>
						<name>
							<surname>HADDAD</surname>
							<given-names>H. M.</given-names>
						</name>
						<name>
							<surname>AHAMED</surname>
							<given-names>S.</given-names>
						</name>
						<name>
							<surname>SNEHA</surname>
							<given-names>S.</given-names>
						</name>
						<name>
							<surname>RAHMAN</surname>
							<given-names>M.</given-names>
						</name>
						<name>
							<surname>CUZZOCREA</surname>
							<given-names>A</given-names>
						</name>
					</person-group>
					<article-title>Actionable Knowledge Extraction Framework for COVID-19</article-title>
					<source>Proceedings of the 2020 IEEE International Conference on Big Data (Big Data)</source>
					<year>2020</year>
					<fpage>4036</fpage>
					<lpage>4041</lpage>
				</element-citation>
			</ref>
			<ref id="B17">
				<mixed-citation>PAVEL, S.; NOLET, D. <italic>Manual de Terminologia</italic>. Trad. Enilde Faulstich. Direção de Terminologia e Normalização. Departamento de Tradução do Governo Canadense, 2002. <ext-link ext-link-type="uri" xlink:href="https://linguisticadocumentaria.files.wordpress.com/2011/03/pavel-terminologia.pdf">https://linguisticadocumentaria.files.wordpress.com/2011/03/pavel-terminologia.pdf</ext-link>
				</mixed-citation>
				<element-citation publication-type="book">
					<person-group person-group-type="author">
						<name>
							<surname>PAVEL</surname>
							<given-names>S.</given-names>
						</name>
						<name>
							<surname>NOLET</surname>
							<given-names>D</given-names>
						</name>
					</person-group>
					<source>Manual de Terminologia</source>
					<person-group person-group-type="translator">
						<name>
							<surname>Faulstich</surname>
							<given-names>Enilde</given-names>
						</name>
					</person-group>
					<publisher-name>Direção de Terminologia e Normalização. Departamento de Tradução do Governo Canadense</publisher-name>
					<year>2002</year>
					<ext-link ext-link-type="uri" xlink:href="https://linguisticadocumentaria.files.wordpress.com/2011/03/pavel-terminologia.pdf">https://linguisticadocumentaria.files.wordpress.com/2011/03/pavel-terminologia.pdf</ext-link>
				</element-citation>
			</ref>
			<ref id="B18">
				<mixed-citation>PEARSON, J. The expression of definitions in specialised texts: a corpus-based analysis. <italic>Proceedings of the Seventh Euralex International Congress</italic>, 1996: 817-824.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>PEARSON</surname>
							<given-names>J</given-names>
						</name>
					</person-group>
					<article-title>The expression of definitions in specialised texts: a corpus-based analysis</article-title>
					<source>Proceedings of the Seventh Euralex International Congress</source>
					<year>1996</year>
					<fpage>817</fpage>
					<lpage>824</lpage>
				</element-citation>
			</ref>
			<ref id="B19">
				<mixed-citation>PEARSON, J. <italic>Terms in context</italic>. Amsterdam: John Benjamins, 1998.</mixed-citation>
				<element-citation publication-type="book">
					<person-group person-group-type="author">
						<name>
							<surname>PEARSON</surname>
							<given-names>J</given-names>
						</name>
					</person-group>
					<source>Terms in context</source>
					<publisher-loc>Amsterdam</publisher-loc>
					<publisher-name>John Benjamins</publisher-name>
					<year>1998</year>
				</element-citation>
			</ref>
			<ref id="B20">
				<mixed-citation>SIERRA, G. Extracción de contextos definitorios en textos de especialidad a partir del reconocimiento de patrones lingüísticos. <italic>Linguamática</italic>, n. 1, v. 2, 2009: 13-37.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>SIERRA</surname>
							<given-names>G</given-names>
						</name>
					</person-group>
					<article-title>Extracción de contextos definitorios en textos de especialidad a partir del reconocimiento de patrones lingüísticos</article-title>
					<source>Linguamática</source>
					<issue>1</issue>
					<volume>2</volume>
					<year>2009</year>
					<fpage>13</fpage>
					<lpage>37</lpage>
				</element-citation>
			</ref>
			<ref id="B21">
				<mixed-citation>TRIKI, N. Elaboration paradigms in PhD theses introductions. <italic>Deviation(s)</italic>, 2014: 202-225.</mixed-citation>
				<element-citation publication-type="book">
					<person-group person-group-type="author">
						<name>
							<surname>TRIKI</surname>
							<given-names>N</given-names>
						</name>
					</person-group>
					<source>Elaboration paradigms in PhD theses introductions</source>
					<publisher-name>Deviation(s)</publisher-name>
					<year>2014</year>
					<fpage>202</fpage>
					<lpage>225</lpage>
				</element-citation>
			</ref>
			<ref id="B22">
				<mixed-citation>TRIKI, N. Revisiting the metadiscursive aspect of definitions in academic writing. <italic>Journal of English for Academic Purposes</italic>, n. 37, 2019: 104-116.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>TRIKI</surname>
							<given-names>N</given-names>
						</name>
					</person-group>
					<article-title>Revisiting the metadiscursive aspect of definitions in academic writing</article-title>
					<source>Journal of English for Academic Purposes</source>
					<issue>37</issue>
					<year>2019</year>
					<fpage>104</fpage>
					<lpage>116</lpage>
				</element-citation>
			</ref>
			<ref id="B23">
				<mixed-citation>VEYSEH, A. P. B., DERNONCOURT, F., DOU, D., &amp; NGUYEN, T. H. A Joint Model for Definition Extraction with Syntactic Connection and Semantic Consistency. <italic>Proceedings of the AAAI</italic>, 2020: 9098-9105.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>VEYSEH</surname>
							<given-names>A. P. B.</given-names>
						</name>
						<name>
							<surname>DERNONCOURT</surname>
							<given-names>F.</given-names>
						</name>
						<name>
							<surname>DOU</surname>
							<given-names>D.</given-names>
						</name>
						<name>
							<surname>NGUYEN</surname>
							<given-names>T. H</given-names>
						</name>
					</person-group>
					<article-title>A Joint Model for Definition Extraction with Syntactic Connection and Semantic Consistency</article-title>
					<source>Proceedings of the AAAI</source>
					<year>2020</year>
					<fpage>9098</fpage>
					<lpage>9105</lpage>
				</element-citation>
			</ref>
		</ref-list>
		<fn-group>
			<fn fn-type="other" id="fn1">
				<label>1</label>
				<p>No original: <italic>original definitions</italic>. Todas as traduções são de nossa autoria.</p>
			</fn>
			<fn fn-type="other" id="fn2">
				<label>2</label>
				<p>No original: <italic>reported definitions</italic>.</p>
			</fn>
			<fn fn-type="other" id="fn3">
				<label>3</label>
				<p>No original: “<italic>Authors will define the terms they use for a number of different reasons. If they have created and named a new concept, they are likely to define the term when they first introduce it. If a concept and a term already exist within a particular subject domain, an author may wish to expand or redefine the concept underlying the term, thereby altering the definition</italic>”.</p>
			</fn>
			<fn fn-type="other" id="fn4">
				<label>4</label>
				<p>No original: “<italic>contient un certain nombre d’éléments utiles et nécessaires à la description du concept, mais insuffisants pour la rédaction d’une definition</italic>”.</p>
			</fn>
			<fn fn-type="other" id="fn5">
				<label>5</label>
				<p>
					<ext-link ext-link-type="uri" xlink:href="http://www.btb.termiumplus.gc.ca/">http://www.btb.termiumplus.gc.ca/</ext-link>
				</p>
			</fn>
			<fn fn-type="other" id="fn6">
				<label>6</label>
				<p>Também chamado de marcadores de definição (p. ex. MACIEL &amp; FERREIRA 2005).</p>
			</fn>
			<fn fn-type="other" id="fn7">
				<label>7</label>
				<p>A fim de possibilitar pesquisas em processamento de linguagem natural (PLN) e inteligência artificial (IA) que contribuam com o combate à pandemia de COVID-19, a Casa Branca e importantes grupos de pesquisa construíram o <italic>COVID-19 Open Research Dataset (CORD-19)</italic>, um conjunto de mais de 51.000 artigos acadêmicos sobre COVID-19, SARS-CoV-2 e coronavírus, de livre acesso para os pesquisadores (<xref ref-type="bibr" rid="B16">MASUN et al. 2020</xref>).</p>
			</fn>
			<fn fn-type="other" id="fn9">
				<label>9</label>
				<p>A ferramenta SE denomina <italic>token</italic> a menor unidade existente em um <italic>corpus</italic>. Assim, diferentes formas das palavras e sinais de pontuação são contabilizadas como <italic>tokens</italic> distintos. Palavras unidas por apóstrofo e hífen são contabilizadas separadamente.</p>
			</fn>
			<fn fn-type="other" id="fn10">
				<label>10</label>
				<p>Neste caso, a frequência normalizada refere-se ao número de vezes que determinado item lexical aparece no <italic>corpus</italic> por milhão de palavras (pmp).</p>
			</fn>
			<fn fn-type="other" id="fn11">
				<label>11</label>
				<p>Essa medida indica o quanto determinada unidade é mais frequente no <italic>corpus</italic> de estudo em comparação com o <italic>corpus</italic> de referência (<xref ref-type="bibr" rid="B3">BOCORNY <italic>et al</italic>. 2021</xref>).</p>
			</fn>
			<fn fn-type="other" id="fn12">
				<label>12</label>
				<p>As 50 primeiras linhas de concordância extraídas com a <italic>CQL</italic> descrita constituem a amostra.</p>
			</fn>
		</fn-group>
		<fn-group>
			<fn fn-type="other" id="fn8">
				<label>8</label>
				<p>
					<xref ref-type="bibr" rid="B2">Biber, Connor e Upton (2007</xref>) definem <italic>registro</italic> (quando diferenciado de <italic>gênero</italic>) como a linguagem associada a uma área do conhecimento ou a um domínio, como o registro jurídico ou o registro acadêmico. O termo <italic>gênero</italic>, por sua vez, quando contrastado com <italic>registro</italic>, é usado para se referir a um tipo de mensagem com uma estrutura interna convencionalizada, como em um artigo de Biologia ou um memorando de negócios.</p>
			</fn>
		</fn-group>
	</back>
</article>