<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE article
  PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.1 20151215//EN" "https://jats.nlm.nih.gov/publishing/1.1/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.1" specific-use="sps-1.9" xml:lang="pt" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink">
	<front>
		<journal-meta>
			<journal-id journal-id-type="publisher-id">tradterm</journal-id>
			<journal-title-group>
				<journal-title>Revista de Tradução e Terminologia</journal-title>
				<abbrev-journal-title abbrev-type="publisher">Revista de Tradução e Terminologia</abbrev-journal-title>
			</journal-title-group>
			<issn pub-type="ppub">2317-9511</issn>
			<issn pub-type="epub">2317-9511</issn>
			<publisher>
				<publisher-name>Centro Interdepartamental de Tradução e Terminologia da Universidade de São Paulo</publisher-name>
			</publisher>
		</journal-meta>
		<article-meta>
			<article-id pub-id-type="doi">10.11606/issn.2317-9511.v30i0p71-86</article-id>
			<article-categories>
				<subj-group subj-group-type="heading">
					<subject>Articles</subject>
				</subj-group>
			</article-categories>
			<title-group>
				<article-title>Validação de termos de domínio por meio de uma base lexical-semântica difusa</article-title>
				<article-title xml:lang="en">Domain terms validation by means of a fuzzy lexical-semantic base</article-title>
			</title-group>
			<contrib-group>
				<contrib contrib-type="author">
					<name>
						<surname>Rodrigues</surname>
						<given-names>Afonso Xavier Canosa</given-names>
					</name>
					<xref ref-type="aff" rid="aff1"><sup>1</sup></xref>
				</contrib>
				<aff id="aff1">
					<label>1</label>
					<institution content-type="original">Licenciado em Filologia Galego-Portuguesa e investigador do programa de doutoramento de Geografia da Universidade de Santiago de Compostela.</institution>
					<institution content-type="orgname">Universidade de Santiago de Compostela</institution>
				</aff>
			</contrib-group>
			<pub-date date-type="pub" publication-format="electronic">
				<day>04</day>
				<month>10</month>
				<year>2022</year>
			</pub-date>
			<pub-date date-type="collection" publication-format="electronic">
				<month>11</month>
				<year>2017</year>
			</pub-date>
			<volume>30</volume>
			<fpage>71</fpage>
			<lpage>86</lpage>
			<permissions>
				<license license-type="open-access" xlink:href="https://creativecommons.org/licenses/by-nc-sa/4.0/" xml:lang="pt">
					<license-p>Este é um artigo publicado em acesso aberto sob uma licença Creative Commons</license-p>
				</license>
			</permissions>
			<abstract>
				<title>Resumo</title>
				<p>A extração ou reconhecimento de termos pesquisa um corpus para prover uma lista de termos específicos de domínio a fim de ser usada em trabalhos mais avançados tais como a construção de terminologias e ontologias. Tanto medidas estatísticas quanto técnicas do Processamento da Linguagem Natural (PLN) têm sido investigadas para melhorar o desempenho na precisão das listas recuperadas. Não obstante, para manter a abrangência alta, as listas contêm falsos positivos. Para validar os candidatos como verdadeiros positivos, os termos têm de ser avaliados quer manualmente, quer automaticamente, por contraste com recursos externos, nomeadamente glossários específicos. Apresentamos uma série de experiências que mostram como uma base de conhecimento lexical pode melhorar o desempenho destes glossários de modo significativo. Partimos de uma lista de 50 candidatos a termos de domínio com precisão de 52%. Por meio da uma base lexical difusa, em que as palavras são agrupadas com um valor de associação semântica, achamos valores de corte para atingir percentagens de 100% tanto na precisão quanto na abrangência sobre a lista de partida, mantendo o valor da medida-F &gt; 80%, com melhor resultado em 90%. Concluímos que, considerando que é necessário mais trabalho na pesquisa de limites e diferentes cenários, uma base lexical difusa pode melhorar o estado da arte das abordagens convencionais da extração automática de termos.</p>
			</abstract>
			<trans-abstract xml:lang="en">
				<title>Abstract</title>
				<p>Term extraction or recognition searches a given corpus to provide a list of domain specific terms for further use in more advanced tasks as in terminology and ontology building. Several statistical measures and Natural Language Processing techniques have been researched to improve precision of retrieved lists. However, to keep recall high, lists contain a number of false positives. To validate candidates as true positives in the domain, terms have to be manually evaluated or automatically checked against external resources such as specialized glossaries. Starting with a baseline of 50 candidate terms with 52% precision, we perform a series of experiments to show that a lexical knowledge base can significantly improve glossary performance. Furthermore, using a fuzzy lexical base, words clustered by a semantic association value, we research cutting points to reach 100% rates for either precision or recall for the baseline list, while keeping F-Measure &gt; 80%, achieving 90% as best result. We conclude that, considering further research for limits and different case scenarios is also needed, a fuzzy lexical base can improve current state-of-the art approaches in automatic term extraction .</p>
			</trans-abstract>
			<kwd-group xml:lang="pt">
				<title>Palavras-chave:</title>
				<kwd>extração automática de termos</kwd>
				<kwd>relações semânticas</kwd>
				<kwd>synsets difusos</kwd>
			</kwd-group>
			<kwd-group xml:lang="en">
				<title>Keywords:</title>
				<kwd>automatic term extraction</kwd>
				<kwd>semantic relations</kwd>
				<kwd>fuzzy synsets</kwd>
			</kwd-group>
			<counts>
				<fig-count count="1"/>
				<table-count count="6"/>
				<equation-count count="0"/>
				<ref-count count="19"/>
				<page-count count="16"/>
			</counts>
		</article-meta>
	</front>
	<body>
		<sec sec-type="intro">
			<title>1. Introdução</title>
			<p>Apresentamos um método para a melhoria dos resultados de extração de termos de domínio pela aplicação de uma base lexical-semântica difusa, o CLIP 2.1, um recurso lexical que organiza termos em relação de sinonímia outorgando um valor numérico para o grau de pertença de cada termo num conjunto (chamado de synset, seguindo o modelo de uma Wordnet). Através de uma lista de termos mais representativos de um documento, obtida por meio de técnicas convencionais de extração de termos, queremos melhorar os resultados de precisão sem reduzirmos a abrangência. Este processo pode ser também referido como validação, resolvida mais frequentemente quer manualmente, quer pela aplicação de listas especializadas. Neste último caso, temos o problema de que, ainda assumindo que as listas tenham uma precisão de 100%, não abrangem necessariamente todos os termos do domínio. Para superar esta dificuldade propomos o uso de uma base de conhecimento lexical. Analisamos uma série de experiências em que glossários geográficos servem de listas semente para obtermos <italic>synsets</italic> do domínio da base lexical difusa CLIP 2.1, de onde avaliamos, considerando uma métrica de associação semântica difusa, uma lista de termos candidatos extraídos de um <italic>corpus</italic> do domínio geográfico. Obtemos resultados &gt; 80% na medida-F<xref ref-type="fn" rid="fn1"><sup>1</sup></xref> sem reduzirmos a abrangência atingida pelos métodos convencionais estatísticos e de Processamento da Linguagem Natural (PLN). O melhor resultado ao otimizar tanto a precisão quanto a abrangência atinge 90% na medida-F com uma abrangência &gt; 80%.</p>
		</sec>
		<sec>
			<title>2. Extração de termos de domínio e bases lexicais</title>
			<p>Termos de um domínio são aqueles que conformam a terminologia específica de uma área. A extração de termos num <italic>corpus</italic> visa obter listas de uma temática e aplica critérios de seleção para reduzir o número de candidatos (<xref ref-type="bibr" rid="B4">CONRADO; FELIPPO; PARDO; REZENDE 2014</xref>). As abordagens de reconhecimento automático de termos aplicam métodos estatísticos e atributos linguísticos, a soma de ambos propicia modelos híbridos (CONRADO; PARDO; REZENDE 2015). Como resultado obtemos um vocabulário que finalmente tem de ser validado por especialistas do domínio (<xref ref-type="bibr" rid="B1">ALMEIDA, ALUÍSIO, OLIVEIRA 2007</xref>) ou contrastado com listas especializadas e recursos externos (<xref ref-type="bibr" rid="B18">WENDT; LOPES; MARTINS; VIEIRA; LIMA 2010</xref>).</p>
			<p>A extração de léxicos preferenciais (<xref ref-type="bibr" rid="B19">ZAPPAROLI 2010</xref>) ligados à temática de um conjunto de textos <italic>tem</italic> sido atendida na linguística de <italic>corpus</italic> a partir da comparação das frequências normalizadas do léxico contido em vários documentos de que se capturam os vocábulos com maior contraste. <xref ref-type="bibr" rid="B13">Lopes, Fernandes e Vieira (2016</xref>) comparam o efeito das métricas de base estatística e desenvolvem uma variante específica da medida TF-IDF (<italic>Term Frequency Inverse Document Frequency</italic>) para a recuperação de termos<bold>,</bold> partindo também de um princípio contrastante, mas centrando o trabalho na extração de termos, ainda que limitando a análise a bigramas e trigramas que, de início, têm já uma precisão &gt; 80%. <xref ref-type="bibr" rid="B17">Teixeira (2011</xref>) analisou o desempenho de ferramentas automáticas para o ciclo completo de extração de termos, achando os melhores desempenhos ainda muito baixos, na faixa de 20 % para o índice de verdadeiros positivos. Como parte de uma proposta de aprendizagem máquina, <xref ref-type="bibr" rid="B2">Conrado (2014</xref>) oferece uma ampla visão de conjunto das métricas e técnicas de extração de terminologia baseada em <italic>corpora</italic> de domínio para o português.</p>
			<p>A proposta que analisamos neste artigo é aplicável a qualquer lista de termos de um domínio, independentemente da métrica considerada e do número de <italic>corpora</italic> usados. Dada a lista a avaliar, procedemos a validá-la pela aplicação de recursos lexicais. Uma base de dados lexical organiza vocábulos segundo de um modo similar a um tesouro lexicográfico, mostrando relações semânticas e agrupando termos de um domínio ou área temática. Um modelo de grande aplicação é a WordNet (<xref ref-type="bibr" rid="B8">FELLBAUM 1998</xref>), que serve mais frequentemente de modelo para a criação de bases de conhecimento lexical em Português (<xref ref-type="bibr" rid="B9">GONÇALO OLIVEIRA; GOMES 2010</xref>; <xref ref-type="bibr" rid="B6">FELIPPO; ALMEIDA 2010</xref>, <xref ref-type="bibr" rid="B10">2014</xref>; <xref ref-type="bibr" rid="B11">GONÇALO OLIVEIRA; PAIVA; FREITAS; RADEMAKER; REAL; SIMÕES 2015</xref>). A particularidade da base lexical usada nesta proposta é ela ser difusa, isto é, os termos do synset vêm ordenados segundo uma métrica que determina o grau de associação semântica ao termo alvo de entrada.</p>
		</sec>
		<sec sec-type="materials">
			<title>3. Materiais</title>
			<p>Tanto os materiais no seu estado inicial quanto as ferramentas para o seu processamento são preferentemente de acesso aberto.</p>
			<sec>
				<title>Corpus do domínio geográfico</title>
				<p>Partimos de um <italic>corpus</italic> do domínio geográfico com as entidades geográficas mencionadas já anotadas. O documento inicial é uma edição digital da <italic>Peregrinação</italic><xref ref-type="fn" rid="fn2"><sup>2</sup></xref> semi-normalizada para o padrão atual com scripts da nossa elaboração. O projeto formou parte da nossa tese de doutoramento<bold>,</bold> que tinha como objetivo indexar e georreferenciar todos os topônimos contidos na obra de Fernão Mendes Pinto. A obtenção de termos de domínio geográfico serviu para descrever e classificar os topônimos. Os termos a extrair são, portanto, nomes comuns (não entidades) do domínio geográfico. Partindo da observação de que existem termos geográficos que aparecem frequentemente perto das entidades geográficas mencionadas, selecionamos aquelas orações que contêm como mínimo uma entidade geográfica mencionada para criamos um <italic>subcorpus</italic> de âmbito geoespacial.</p>
			</sec>
			<sec>
				<title>Glossários especializados</title>
				<p>Selecionamos dois glossários como listas especializadas, o IBGE (<xref ref-type="bibr" rid="B12">IBGE, 2015</xref>) com 126 termos geográficos usados no mapeamento contemporâneo do Brasil e o listado de termos de domínio da taxonomia de GeoNames<xref ref-type="fn" rid="fn3"><sup>3</sup></xref>, originalmente em inglês e traduzida para o português mediante o sistema de tradução automática de Google <xref ref-type="fn" rid="fn4"><sup>4</sup></xref> com o resultado de 667 termos. Da sua união obtemos um terceiro glossário, IBGE ∪ GeoNames_trad, que contém 725 termos, os comuns e não comuns de IBGE e a tradução de GeoNames.</p>
			</sec>
			<sec>
				<title>Base lexical difusa</title>
				<p>Como terceiro recurso usamos o CLIP 2.1<xref ref-type="fn" rid="fn5"><sup>5</sup></xref> (<xref ref-type="bibr" rid="B10">GONÇALO OLIVEIRA; GOMES 2014</xref>; <xref ref-type="bibr" rid="B15">SANTOS; GONÇALO OLIVEIRA 2015</xref>), uma base lexical organizada em <italic>clusters</italic> como os <italic>synsets</italic> em uma WordNet, com a diferença de que os termos aparecem agrupados de modo difuso, com um valor numérico determinado pelo cálculo de coocorrências a partir da análise de bases lexicais de relações de sinonímia (<xref ref-type="bibr" rid="B15">SANTOS; GONÇALO OLIVEIRA 2015</xref>).</p>
				<p>
					<table-wrap id="t1">
						<label>Tabela 1:</label>
						<caption>
							<title>Exemplo de <italic>synset</italic> no CLIP 2.1. Os termos agrupados contêm um valor de associação semântica (entre parêntese).</title>
						</caption>
						<table>
							<colgroup>
								<col/>
							</colgroup>
							<tbody>
								<tr>
									<td align="left">cidade(1.7777778); urbe(1.0); metrópole(0.7777778); município(0.5); cidade-estado(0.44444445); centro_urbano(0.44444445); cidades-estado(0.44444445); cidade-livre(0.44444445); praça(0.4); metrópoles(0.33333334); cividade(0.22222222); empório(0.2); concelho(0.2); foco(0.1); chia(0.1); aldeias(0.1); autarquias(0.1); povoado(0.1); comuna(0.1); aldeia(0.1); arraial(0.1); nação(0.1); centro(0.1); cabeça(0.1); morada(0.1); capital(0.1); burgo(0.1); vila(0.1);</td>
								</tr>
							</tbody>
						</table>
					</table-wrap>
				</p>
			</sec>
		</sec>
		<sec sec-type="methods">
			<title>4. Procedimento</title>
			<sec>
				<title>4.1 Obtenção da lista de candidatos a termos de domínio</title>
				<p>A lista a validar foi obtida do melhor resultado de uma combinação de métodos de extração de termos com a métrica estatística TF-IDF (<xref ref-type="bibr" rid="B14">SALTON; BUCKLEY 1988</xref>) e técnicas de PLN sobre o <italic>subcorpus</italic> elaborado a partir das orações que continham como mínimo uma entidade geográfica mencionada anotada. Os termos candidatos foram sucessivamente reduzidos pela aplicação de janelas de n-gramas com a entidade geográfica mencionada como centro e filtrados sintaticamente pela anotação da categoria gramatical. Os resultados de PLN foram melhorados com fórmulas TF-IDF segundo o sistema SMART (<xref ref-type="bibr" rid="B16">SINGHAL; SALTON; BUCKLEY 1996</xref>) com normalizações pelo cosseno sobre a medida da frequência absoluta e com mais uma variante sobre a frequência relativa. Todas as métricas foram implementadas em scripts com o software estatístico de R<xref ref-type="fn" rid="fn6"><sup>6</sup></xref>. Para a obtenção de matrizes de coocorrências, aplicação das listas filtros e comparação de resultados das métricas TF-IDF, usamos o pacote TM (<xref ref-type="bibr" rid="B7">FEINERER; HORNIK; MEYER 2008</xref>). Obtivemos, deste modo, listas de 50 termos candidatos a termos de domínio. A <xref ref-type="table" rid="t2">Tabela 2</xref> mostra o melhor resultado que chamamos lista a validar.</p>
				<p>
					<table-wrap id="t2">
						<label>Tabela 2:</label>
						<caption>
							<title>Lista de 50 termos candidatos extraídos do subcorpus do domínio geográfico (lista a validar). Em negrito os termos avaliados manualmente como verdadeiros positivos.</title>
						</caption>
						<table>
							<colgroup>
								<col/>
							</colgroup>
							<tbody>
								<tr>
									<td align="left"><italic><bold>cidade, reino, ilha, porto, rio</bold>, nome, <bold>lugar, fortaleza, terra, costa</bold>, dia, <bold>barra, enseada</bold>, ano, capitão, tempo, <bold>vila</bold>, filho, gente, <bold>casa, estreito, império, mar</bold>, partes, dom, <bold>estado</bold>, morte, naos, parte, <bold>povoação</bold>, armada, mercador, nao, <bold>fazenda</bold>, padre, senhor, <bold>serra, caminho, campo</bold>, embaixador, junco, <bold>lago</bold>, legoas, viagem, cousa, guerra, <bold>monte</bold>, partido, <bold>ponta, castelo</bold>.</italic></td>
								</tr>
							</tbody>
						</table>
					</table-wrap>
				</p>
				<p>A lista de candidatos foi avaliada primeiro manualmente (termos em negrito na <xref ref-type="table" rid="t2">Tabela 2</xref>), obtendo assim uma precisão de 52%. O objetivo das experiências é validar automaticamente a lista a fim de aumentar a precisão sem diminuir o número de verdadeiros positivos. Tanto a abrangência quanto a medida-F, consideradas nas avaliações, referem sempre os verdadeiros positivos presentes na lista a validar (para quem quiser considerar a abrangência unicamente como medida sobre o <italic>corpus</italic>, é suficiente assumir que a lista contém todos os verdadeiros positivos do <italic>corpus</italic>).</p>
			</sec>
			<sec>
				<title>4.2 Validação por glossários especializados</title>
				<p>Recuperamos um listado de termos do domínio geográfico do atlas geográfico do Brasil (IBGE 2010) e a taxonomia da ontologia de GeoNames traduzida no GoogleTranslate. O primeiro inclui o fator da concisão, assim os termos orientados são muito precisos, mas a lista é reduzida, e limitada portanto, na abrangência uma vez que não considera sinônimos nem termos geográficos não representados no mapeamento do IBGE. O segundo glossário maximiza a abrangência, porquanto inclui, por exemplo, termos relacionados com obras públicas e construções, mas fica mais limitado na precisão, visto que introduz ruído (falsos positivos) por desvios em escolhas léxicas da tradução automática (<xref ref-type="bibr" rid="B5">COSTA; DANIEL 2013</xref>). Criamos um terceiro glossário unindo os termos de IBGE e GeoNames com o objetivo de obter a máxima abrangência, suportando ainda um certo nível de ruído. Realizamos um primeiro teste de validação automática com estes três listados. A <xref ref-type="table" rid="t3">tabela 3</xref> mostra os resultados. Para obtermos a máxima precisão, comprometemos a abrangência sobre os termos da lista a validar que, no melhor caso (validação com o glossário de 725 termos), apenas chega aos 65%.</p>
				<p>
					<table-wrap id="t3">
						<label>Tabela 3:</label>
						<caption>
							<title>Comparação do efeito da validação da lista de candidatos a termos geográficos por meio de listados específicos do domínio geográfico.</title>
						</caption>
						<table>
							<colgroup>
								<col/>
								<col/>
								<col/>
								<col/>
							</colgroup>
							<thead>
								<tr>
									<th align="center">Glossário</th>
									<th align="center">Precisão</th>
									<th align="center">Abrangência</th>
									<th align="center">Medida-F</th>
								</tr>
							</thead>
							<tbody>
								<tr>
									<td align="center">IBGE</td>
									<td align="center"><bold>100%</bold></td>
									<td align="center">54%</td>
									<td align="center">70%</td>
								</tr>
								<tr>
									<td align="center">GeoNames_trad</td>
									<td align="center"><bold>100%</bold></td>
									<td align="center">42%</td>
									<td align="center">59%</td>
								</tr>
								<tr>
									<td align="center">IBGE ∪ GeoNames_trad</td>
									<td align="center"><bold>100%</bold></td>
									<td align="center">65%</td>
									<td align="center"><bold>79%</bold></td>
								</tr>
							</tbody>
						</table>
					</table-wrap>
				</p>
				<p>Com o melhor resultado da validação por glossários criamos mais um listado especializado, nomeado com o código TR8IBGEGeonames (<xref ref-type="table" rid="t4">Tabela 4</xref>), composto por apenas 17 termos, com uma precisão do 100%.</p>
				<p>
					<table-wrap id="t4">
						<label>Tabela 4:</label>
						<caption>
							<title>Lista de termos candidatos extraídos do <italic>subcorpus</italic> do domínio geográfico (lista a validar), em negrito os termos avaliados automaticamente como verdadeiros positivos pelo glossário especializado de termos do domínio geográfico IBGE ⋃ GeoNames_trad. Usamos a lista de termos avaliados como verdadeiros positivos (17 termos em negrito na tabela) como mais um novo listado do domínio que chamamos pelo código TR8IBGEGeonames.</title>
						</caption>
						<table>
							<colgroup>
								<col/>
							</colgroup>
							<tbody>
								<tr>
									<td align="left"><italic><bold>cidade</bold>, reino, <bold>ilha, porto, rio</bold>, nome, lugar, fortaleza, terra, <bold>costa</bold>, dia, <bold>barra, enseada</bold>, ano, capitão, tempo, <bold>vila</bold>, filho, gente, <bold>casa, estreito</bold>, império, <bold>mar</bold>, partes, dom, estado, morte, naos, parte, povoação, armada, mercador, nao, <bold>fazenda</bold>, padre, senhor, <bold>serra</bold>, caminho, campo, embaixador, junco, <bold>lago</bold>, legoas, viagem, cousa, guerra, <bold>monte</bold>, partido, <bold>ponta, castelo</bold>.</italic></td>
								</tr>
							</tbody>
						</table>
					</table-wrap>
				</p>
			</sec>
			<sec>
				<title>4.3 Validação com uma base lexical-semântica difusa</title>
				<p>Dada a limitação na abrangência dos resultados obtidos, desta vez, em vez de validarmos diretamente os candidatos, usamos as listas especializadas como semente, de onde procuramos termos relacionados numa base lexical, o CLIP 2.1. Realizamos uma série de experiências em que comparamos os resultados dos glossários aplicados no apartado anterior mais um quarto, TR8IBGEGeonames, obtido no melhor resultado da validação automática da lista (<xref ref-type="table" rid="t4">Tabela 4</xref>). O motivo para adicionarmos este quarto listado é avaliarmos também os efeitos da redução das pesquisas no CLIP 2.1 aos termos presentes no <italic>corpus</italic>. As experiências têm mais um outro objetivo para além de aumentarem a abrangência: achar os valores de associação semântica no CLIP 2.1 que ofereçam um melhor resultado na combinação da precisão, abrangência e medida-F.</p>
				<p>O procedimento de pesquisa tem duas fases<bold>,</bold> seguidas de uma avaliação.</p>
				<sec>
					<title>4.3.1 Pesquisa de synsets relacionados com o glossário </title>
					<p>Recuperamos de CLIP 2.1 todos os <italic>synsets</italic> que contêm como mínimo um dos termos da lista semente, a partir de um valor de associação dado. Por exemplo, a lista semente TR8IBGEGeonames (termos em negrito na <xref ref-type="table" rid="t4">tabela 4</xref>) contém o termo <italic>cidade</italic>. Para a recuperação de <italic>synsets</italic> no CLIP 2.1, o algoritmo vai recuperar todos os <italic>synsets</italic> em que <italic>cidade</italic> apareça no CLIP2.1. Se, posteriormente, adicionamos um valor de associação, por ex. 0.5, vai recuperar apenas aqueles <italic>synsets</italic> em que o termo <italic>cidade</italic> apareça com um valor de associação igual ou acima dos 0.5.</p>
				</sec>
				<sec>
					<title>4.3.2 Pesquisa dos termos da lista a validar dentro dos synsets selecionados</title>
					<p>Dentro dos <italic>synsets</italic> recuperados pela lista semente, pesquisamos os termos da lista a validar a partir de um valor de associação dado. Se achamos o termo, consideramos que é do domínio geográfico; se não, fica fora como negativo. Por exemplo, com a lista TR8IBGEGeonames (termos em negrito na <xref ref-type="table" rid="t4">tabela 4</xref>) como semente, <italic>capitão</italic> não aparece em nenhum dos <italic>synsets</italic> recuperados, consequentemente, não é avaliado como pertencente ao domínio geográfico. Os termos <italic>campo</italic> e <italic>castelo</italic> também não aparecem na lista semente, não obstante, têm valores semânticos dentro dos <italic>synsets</italic> recuperados ao pesquisar no CLIP 2.1 e, portanto, são processados como pertencentes ao domínio geográfico. O resultado final é uma nova lista composta por aqueles termos que foram avaliados como pertencentes ao domínio.</p>
					<p>
						<table-wrap id="t5">
							<label>Tabela 5:</label>
							<caption>
								<title>Lista de termos candidatos extraídos do <italic>subcorpus</italic> do domínio geográfico (lista a validar). Em negrito os termos avaliados como positivos ao pesquisar TR8IBGEGeonames com uma medida de associação de 0.15 para a recuperação de <italic>synsets</italic> e 0.2 para a extração de termos dentro dos <italic>synsets</italic> recuperados. </title>
							</caption>
							<table>
								<colgroup>
									<col/>
								</colgroup>
								<tbody>
									<tr>
										<td align="left"><italic><bold>cidade</bold>, reino, <bold>ilha, porto, rio</bold>, nome, <bold>lugar, fortaleza, terra, costa</bold>, dia, <bold>barra, enseada</bold>, ano, capitão, tempo, <bold>vila</bold>, filho, gente, <bold>casa, estreito</bold>, império, <bold>mar</bold>, partes, dom, estado, morte, naos, parte, <bold>povoação</bold>, armada, mercador, nao, <bold>fazenda</bold>, padre, senhor, <bold>serra</bold>, caminho, <bold>campo, <underline>embaixador</underline></bold>, junco, <bold>lago</bold>, legoas, viagem, cousa, guerra, <bold>monte</bold>, partido, <bold>ponta, castelo</bold>.</italic></td>
									</tr>
								</tbody>
							</table>
						</table-wrap>
					</p>
				</sec>
				<sec>
					<title>4.3.3 Avaliação</title>
					<p>A lista obtida em cada teste é avaliada com base na lista de verdadeiros positivos totais (termos em negrito na <xref ref-type="table" rid="t2">tabela 2</xref>) que fora validada manualmente. Como exemplo, a <xref ref-type="table" rid="t5">tabela 5</xref> mostra os resultados obtidos com o glossário TR8IBGEGeonames como semente. Os termos em negrito não sublinhados são verdadeiros positivos; os negritos sublinhados, falsos negativos. Ao avaliar os resultados respeitantes à lista de verdadeiros positivos validada manualmente (<xref ref-type="table" rid="t2">Tabela 2</xref>), obtemos uma precisão de 0.96, abrangência de 0.85 e medida-F de 0.9.</p>
				</sec>
			</sec>
		</sec>
		<sec sec-type="results">
			<title>5. Resultados</title>
			<p>As experiências permitiram avaliar o desempenho dos glossários e otimizar os valores de corte para a recuperação e pesquisa de <italic>synsets</italic> no CLIP 2.1. A <xref ref-type="fig" rid="f1">figura 1</xref> mostra os resultados obtidos em 400 rondas (4 glossários x 10 rondas de recuperação de <italic>synsets</italic> x 10 rondas de pesquisa de termos nos <italic>synsets</italic> recuperados). A lista mais específica do <italic>corpus</italic> (TR8IBGEGeonames) obtém os melhores resultados, com valores de 90% na medida-F. De salientar que a lista com menor número de termos (17) - portanto, com menor trabalho de pesquisa - atingiu os resultados mais altos. Não obstante, todas as listas especializadas conseguem, nas suas melhores configurações, resultados próximos. </p>
			<p>
				<fig id="f1">
					<label>Fig.1:</label>
					<caption>
						<title>Resultado da validação por meio da base lexical segundo os glossários especializados usados como lista semente para a seleção de <italic>synsets.</italic></title>
					</caption>
					<graphic xlink:href="2317-9511-tradterm-30-71-gf1.jpg"/>
				</fig>
			</p>
			<p>No que diz respeito aos valores de corte na associação dos termos na base lexical, a <xref ref-type="table" rid="t6">tabela 6</xref> mostra os melhores resultados para as três medidas consideradas. A abrangência aumenta pela redução do valor de corte. Achamos, assim, o melhor resultado da medida-F (84%), com um 100% de abrangência, com os valores de associação 0.05 na seleção e 0.01 para a limitação de pesquisa dentro do <italic>synset</italic>. Uma precisão do 100% mantém uma abrangência de 81%, com o valor de seleção de <italic>synset</italic> em 0.15 e recuperação de termos dentro do <italic>synset</italic> em 0.25. Os resultados mais baixos (<xref ref-type="fig" rid="f1">Fig.1</xref>) são resultado da aplicação de medidas muito restritivas, que consideram termos com uma medida de corte ≥ 1.5.</p>
			<p>
				<table-wrap id="t6">
					<label>Tabela 6:</label>
					<caption>
						<title>Melhores resultados de precisão e abrangência a respeito da medida-F e valores de corte na medida de associação semântica estabelecida pelo CLIP 2.1 </title>
					</caption>
					<table>
						<colgroup>
							<col/>
							<col/>
							<col/>
							<col/>
							<col/>
						</colgroup>
						<thead>
							<tr>
								<th align="center">Precisão</th>
								<th align="center">Abrangência</th>
								<th align="center">Medida-F</th>
								<th align="center"><bold>Seleção de <italic>synset</italic> 
</bold></th>
								<th align="center"><bold>Seleção de termos no <italic>synset</italic> 
</bold></th>
							</tr>
						</thead>
						<tbody>
							<tr>
								<td align="center">100%</td>
								<td align="center">81%</td>
								<td align="center">90%</td>
								<td align="left">0.15</td>
								<td align="center">0.25</td>
							</tr>
							<tr>
								<td align="center">72%</td>
								<td align="center">100%</td>
								<td align="center">84%</td>
								<td align="left">0.05</td>
								<td align="center">0.01</td>
							</tr>
						</tbody>
					</table>
				</table-wrap>
			</p>
		</sec>
		<sec sec-type="discussion">
			<title>6. Discussão</title>
			<p>Os melhores resultados que achamos na literatura para a extração de termos combinam técnicas de PLN e estatísticas para obter listas de candidatos. Operando sobre uma lista obtida pela aplicação de técnicas convencionais, pesquisamos um método de melhoria que continue o processo de modo automático. Uma das soluções consideradas na literatura relacionada é a aplicação de listas especializadas. Consideramos dois glossários para as experiências: um que otimiza a precisão (IBGE) e outro que otimiza a abrangência (GeoNames_trad). Da sua reelaboração obtemos mais duas listas, uma da fusão de ambos (IBGE ⋃ GeoNames_trad), outra da redução dos termos dos glossários àqueles que apenas achamos no <italic>corpus</italic> (TR8IBGEGeonames).</p>
			<p>No que diz respeito à simples aplicação das listas especializadas, ao ampliar os termos contidos nos glossários com outros relacionados semanticamente (sinonímias difusas), a base lexical permitiu uma melhoria da abrangência até os 100% (<xref ref-type="table" rid="t6">Tabela 6</xref>), no melhor dos resultados das listas especializadas, limitada ao 65% (<xref ref-type="table" rid="t3">Tabela 3</xref>). É também possível atingir uma precisão de 100% e melhorar ainda a abrangência, no melhor resultado, até 81%, conseguindo um incremento de mais de 10 pontos na medida-F a respeito das listas especializadas (cuja precisão é também de 100%).</p>
			<p>As experiências centraram-se em determinar os melhores valores para duas variáveis: o listado especializado (glossários) usado como semente para a recuperação e os valores de corte para a seleção de <italic>synsets</italic> e os termos neles incluídos. A respeito do glossário, aquele com menor número de termos (TR8IBGEGeonames com 17 termos - face a IBGE com 126 termos, GeoNames_trad com 667 e IBGE ⋃ GeoNames_trad com 725), porém o mais específico do corpus - é que obtém os melhores resultados, indicando que a proximidade da lista ao texto pode ser um fator relevante para o desempenho na recuperação de termos de domínio. A necessidade de considerar a variável do valor de associação semântica no CLIP 2.1 fica patente pelo fato de valores muito restritivos (particularmente ≥1.5) oferecem resultados não desejados (os mais baixos na <xref ref-type="fig" rid="f1">fig. 1</xref>). Como esperado, a redução do valor de corte aumenta a abrangência, no entanto, tanto para a seleção de <italic>synsets</italic> quanto para a posterior pesquisa dos termos neles incluídos, é possível estabelecer limites que reduzam o número de <italic>synsets</italic> e termos a avaliar, mantendo uma abrangência de 100%.</p>
		</sec>
		<sec sec-type="conclusions">
			<title>7. Conclusão</title>
			<p>O uso de uma base lexical como ferramenta de validação dos candidatos obtidos pelas técnicas mais comuns de extração de termos permitiu a melhoria dos resultados através da simples aplicação de uma lista especializada em todas as métricas consideradas. O procedimento consistiu em selecionar um glossário geográfico e pesquisar os seus termos na base lexical CLIP 2.1 em que os termos aparecem agrupados em <italic>synsets</italic> com uma medida de associação semântica. Se achamos o termo pesquisado num <italic>synset,</italic> guardamos este grupo de termos. Se estabelecemos uma medida de corte, o procedimento é o mesmo mas só se guarda o <italic>synset</italic> em que o termo pesquisado aparece por cima do valor considerado. Para validar uma lista de termos geográficos que extraímos de um <italic>corpus</italic> do domínio geográfico, pesquisamos cada termo, primeiramente validado num glossário geográfico especializado, nos <italic>synsets</italic> do CLIP 2.1 e aplicamos uma nova medida de corte para a seleção dos termos dentro do <italic>synset</italic>. Deste modo melhoramos a abrangência dos listados especializados, ao aumentá-los com termos numa relação (quantificável) de proximidade semântica.</p>
			<p>A vantagem da base lexical difusa não se limita à melhoria na abrangência. Consideramos que o seu aproveitamento é ainda maior, uma vez que permite configurações específicas aplicando valores de corte sobre a medida de associação semântica. Nas nossas experiências foi possível manter, com valores da medida-F &gt; 80%, quer a precisão, quer a abrangência, no 100%. A base lexical CLIP 2.1 consegue estes resultados independentemente do procedimento e métricas usados para chegar à lista de termos candidatos. Consideramos que a sua aplicação pode melhorar o presente estado da arte na extração de termos de domínio. O feito de ser de livre disposição faz que recomendemos a sua aplicação tanto em soluções práticas como em novos testes com configurações alternativas à por nós apresentada neste trabalho.</p>
		</sec>
	</body>
	<back>
		<ref-list>
			<title>Referências bibliográficas</title>
			<ref id="B1">
				<mixed-citation>ALMEIDA, G. M. B, ALUÍSIO, S. M., &amp; OLIVEIRA, L.H.M. O método em terminologia: revendo alguns procedimentos. In: Isquerdo, A. N.; Alves, I. M. Ciências do léxico: lexicologia, lexicografia, terminologia. Campo Grande/São Paulo: Editora da UFMS/Humanitas, 2007, vol. III, pp. 409-420. Disponível em: <ext-link ext-link-type="uri" xlink:href="http://www.geterm.ufscar.br/textospublicados/o_metodo_em_terminologia_%20revendo_alguns_procedimentos.pdf">http://www.geterm.ufscar.br/textospublicados/o_metodo_em_terminologia_%20revendo_alguns_procedimentos.pdf</ext-link>
				</mixed-citation>
				<element-citation publication-type="book">
					<person-group person-group-type="author">
						<name>
							<surname>ALMEIDA</surname>
							<given-names>G. M. B</given-names>
						</name>
						<name>
							<surname>ALUÍSIO</surname>
							<given-names>S. M.</given-names>
						</name>
						<name>
							<surname>OLIVEIRA</surname>
							<given-names>L.H.M.</given-names>
						</name>
					</person-group>
					<chapter-title>O método em terminologia: revendo alguns procedimentos</chapter-title>
					<person-group person-group-type="author">
						<name>
							<surname>Isquerdo</surname>
							<given-names>A. N.</given-names>
						</name>
						<name>
							<surname>Alves</surname>
							<given-names>I. M.</given-names>
						</name>
					</person-group>
					<source>Ciências do léxico: lexicologia, lexicografia, terminologia</source>
					<publisher-loc>Campo Grande/São Paulo</publisher-loc>
					<publisher-name>Editora da UFMS/Humanitas</publisher-name>
					<year>2007</year>
					<volume>III</volume>
					<fpage>409</fpage>
					<lpage>420</lpage>
					<ext-link ext-link-type="uri" xlink:href="http://www.geterm.ufscar.br/textospublicados/o_metodo_em_terminologia_%20revendo_alguns_procedimentos.pdf">http://www.geterm.ufscar.br/textospublicados/o_metodo_em_terminologia_%20revendo_alguns_procedimentos.pdf</ext-link>
				</element-citation>
			</ref>
			<ref id="B2">
				<mixed-citation>CONRADO, M. D. S. Extração automática de termos simples baseada em aprendizado de máquina. Universidade de São Paulo: Tese de doutoramento, 2014. Disponível em: <ext-link ext-link-type="uri" xlink:href="http://www.teses.usp.br/teses/disponiveis/55/55134/tde-11082014-103430/publico/TeseMerley_revisada.pdf">http://www.teses.usp.br/teses/disponiveis/55/55134/tde-11082014-103430/publico/TeseMerley_revisada.pdf</ext-link>.</mixed-citation>
				<element-citation publication-type="thesis">
					<person-group person-group-type="author">
						<name>
							<surname>CONRADO</surname>
							<given-names>M. D. S.</given-names>
						</name>
					</person-group>
					<source>Extração automática de termos simples baseada em aprendizado de máquina</source>
					<publisher-name>Universidade de São Paulo</publisher-name>
					<comment content-type="degree">Tese de doutoramento</comment>
					<year>2014</year>
					<ext-link ext-link-type="uri" xlink:href="http://www.teses.usp.br/teses/disponiveis/55/55134/tde-11082014-103430/publico/TeseMerley_revisada.pdf">http://www.teses.usp.br/teses/disponiveis/55/55134/tde-11082014-103430/publico/TeseMerley_revisada.pdf</ext-link>
				</element-citation>
			</ref>
			<ref id="B3">
				<mixed-citation>CONRADO, M. S., FELIPPO, A., PARDO, T. A .S., &amp; REZENDE, S. O. A survey of automatic term extraction for Brazilian Portuguese. Journal of the Brazilian Computer Society, vol. 20, n. 12, 2014, pp. 1-28. Disponivel em: <ext-link ext-link-type="uri" xlink:href="https://www.researchgate.net/publication/265335491_A_survey_of_a utomatic_term_extraction_for_Brazilian_Portuguese">https://www.researchgate.net/publication/265335491_A_survey_of_a utomatic_term_extraction_for_Brazilian_Portuguese</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>CONRADO</surname>
							<given-names>M. S.</given-names>
						</name>
						<name>
							<surname>FELIPPO</surname>
							<given-names>A.</given-names>
						</name>
						<name>
							<surname>PARDO</surname>
							<given-names>T. A .S.</given-names>
						</name>
						<name>
							<surname>REZENDE</surname>
							<given-names>S. O.</given-names>
						</name>
					</person-group>
					<article-title>A survey of automatic term extraction for Brazilian Portuguese</article-title>
					<source>Journal of the Brazilian Computer Society</source>
					<volume>20</volume>
					<issue>12</issue>
					<year>2014</year>
					<fpage>1</fpage>
					<lpage>28</lpage>
					<ext-link ext-link-type="uri" xlink:href="https://www.researchgate.net/publication/265335491_A_survey_of_a utomatic_term_extraction_for_Brazilian_Portuguese">https://www.researchgate.net/publication/265335491_A_survey_of_a utomatic_term_extraction_for_Brazilian_Portuguese</ext-link>
				</element-citation>
			</ref>
			<ref id="B4">
				<mixed-citation>CONRADO, M. S., PARDO, T. A .S., &amp; REZENDE, S. O. The main challenge of semi- automatic term extraction methods. In: Proceedings of the 11st International Workshop on Natural Language Processing and Cognitive Science - NLPCS. Venice, 2014, 27-29. Disponível em: <ext-link ext-link-type="uri" xlink:href="http://conteudo.icmc.usp.br/pessoas/taspardo/NLPCS2014-ConradoEtAl.pdf">http://conteudo.icmc.usp.br/pessoas/taspardo/NLPCS2014-ConradoEtAl.pdf</ext-link>
				</mixed-citation>
				<element-citation publication-type="confproc">
					<person-group person-group-type="author">
						<name>
							<surname>CONRADO</surname>
							<given-names>M. S.</given-names>
						</name>
						<name>
							<surname>PARDO</surname>
							<given-names>T. A .S.</given-names>
						</name>
						<name>
							<surname>REZENDE</surname>
							<given-names>S. O.</given-names>
						</name>
					</person-group>
					<source>The main challenge of semi- automatic term extraction methods</source>
					<comment>Proceedings</comment>
					<conf-name>11st International Workshop on Natural Language Processing and Cognitive Science - NLPCS</conf-name>
					<publisher-loc>Venice</publisher-loc>
					<year>2014</year>
					<fpage>27</fpage>
					<lpage>29</lpage>
					<ext-link ext-link-type="uri" xlink:href="http://conteudo.icmc.usp.br/pessoas/taspardo/NLPCS2014-ConradoEtAl.pdf">http://conteudo.icmc.usp.br/pessoas/taspardo/NLPCS2014-ConradoEtAl.pdf</ext-link>
				</element-citation>
			</ref>
			<ref id="B5">
				<mixed-citation>COSTA, G. C., &amp; DANIEL, F. G. Google Tradutor: Análise de utilização e Desempenho da Ferramenta. Tradterm, vol. 22, 2013, pp. 327-361. Disponível em: <ext-link ext-link-type="uri" xlink:href="http://www.revistas.usp.br/tradterm/article/view/69145/71600">http://www.revistas.usp.br/tradterm/article/view/69145/71600</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>COSTA</surname>
							<given-names>G. C.</given-names>
						</name>
						<name>
							<surname>DANIEL</surname>
							<given-names>F. G.</given-names>
						</name>
					</person-group>
					<article-title>Google Tradutor: Análise de utilização e Desempenho da Ferramenta</article-title>
					<source>Tradterm</source>
					<volume>22</volume>
					<year>2013</year>
					<fpage>327</fpage>
					<lpage>361</lpage>
					<ext-link ext-link-type="uri" xlink:href="http://www.revistas.usp.br/tradterm/article/view/69145/71600">http://www.revistas.usp.br/tradterm/article/view/69145/71600</ext-link>
				</element-citation>
			</ref>
			<ref id="B6">
				<mixed-citation>FELIPPO, A., &amp; ALMEIDA, G. M. B. Uma metodologia para o desenvolvimento de Wordnets terminológicas em português do Brasil. Tradterm, vol. 16, 2010, pp. 365-395. Disponível em: <ext-link ext-link-type="uri" xlink:href="http://www.revistas.usp.br/tradterm/article/view/46325/50088">http://www.revistas.usp.br/tradterm/article/view/46325/50088</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>FELIPPO</surname>
							<given-names>A.</given-names>
						</name>
						<name>
							<surname>ALMEIDA</surname>
							<given-names>G. M. B.</given-names>
						</name>
					</person-group>
					<article-title>Uma metodologia para o desenvolvimento de Wordnets terminológicas em português do Brasil</article-title>
					<source>Tradterm</source>
					<volume>16</volume>
					<year>2010</year>
					<fpage>365</fpage>
					<lpage>395</lpage>
					<ext-link ext-link-type="uri" xlink:href="http://www.revistas.usp.br/tradterm/article/view/46325/50088">http://www.revistas.usp.br/tradterm/article/view/46325/50088</ext-link>
				</element-citation>
			</ref>
			<ref id="B7">
				<mixed-citation>FEINERER, I., HORNIK, K., &amp; MEYER, D. Text mining infrastructure in R. Journal of statistical software, vol. 25, n. 5, 1-54. Disponível em: <ext-link ext-link-type="uri" xlink:href="https://www.jstatsoft.org/article/view/v025i05">https://www.jstatsoft.org/article/view/v025i05</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>FEINERER</surname>
							<given-names>I.</given-names>
						</name>
						<name>
							<surname>HORNIK</surname>
							<given-names>K.</given-names>
						</name>
						<name>
							<surname>MEYER</surname>
							<given-names>D.</given-names>
						</name>
					</person-group>
					<article-title>Text mining infrastructure in R</article-title>
					<source>Journal of statistical software</source>
					<volume>25</volume>
					<issue>5</issue>
					<fpage>1</fpage>
					<lpage>54</lpage>
					<ext-link ext-link-type="uri" xlink:href="https://www.jstatsoft.org/article/view/v025i05">https://www.jstatsoft.org/article/view/v025i05</ext-link>
				</element-citation>
			</ref>
			<ref id="B8">
				<mixed-citation>FELLBAUM, C. Introduction. In: Fellbaum (ed.). WordNet: An Electronic Lexical Database. Cambridge, Massachusetts: MIT, 1998, pp. 1-19.</mixed-citation>
				<element-citation publication-type="book">
					<person-group person-group-type="author">
						<name>
							<surname>FELLBAUM</surname>
							<given-names>C.</given-names>
						</name>
					</person-group>
					<chapter-title>Introduction</chapter-title>
					<person-group person-group-type="editor">
						<name>
							<surname>Fellbaum</surname>
							<given-names/>
						</name>
					</person-group>
					<source>WordNet: An Electronic Lexical Database</source>
					<publisher-loc>Cambridge, Massachusetts</publisher-loc>
					<publisher-name>MIT</publisher-name>
					<year>1998</year>
					<fpage>1</fpage>
					<lpage>19</lpage>
				</element-citation>
			</ref>
			<ref id="B9">
				<mixed-citation>GONÇALO OLIVEIRA, H., &amp; GOMES, P. Onto. PT: automatic construction of a lexical ontology for Portuguese. In: Proceedings of 5th European Starting AI Researcher Symposium (STAIRS 2010). Lisbon, 2010, pp. 199-211. Disponível em: <ext-link ext-link-type="uri" xlink:href="http://eden.dei.uc.pt/~hroliv/pubs/GoncaloOliveira_Gomes_STAIRS20 10.pdf">http://eden.dei.uc.pt/~hroliv/pubs/GoncaloOliveira_Gomes_STAIRS20 10.pdf</ext-link>
				</mixed-citation>
				<element-citation publication-type="confproc">
					<person-group person-group-type="author">
						<name>
							<surname>GONÇALO OLIVEIRA</surname>
							<given-names>H.</given-names>
						</name>
						<name>
							<surname>GOMES</surname>
							<given-names>P.</given-names>
						</name>
					</person-group>
					<source>Onto. PT: automatic construction of a lexical ontology for Portuguese</source>
					<comment>Proceedings</comment>
					<conf-name>5th European Starting AI Researcher Symposium</conf-name>
					<conf-date>2010</conf-date>
					<publisher-loc>Lisbon</publisher-loc>
					<year>2010</year>
					<fpage>199</fpage>
					<lpage>211</lpage>
					<ext-link ext-link-type="uri" xlink:href="http://eden.dei.uc.pt/~hroliv/pubs/GoncaloOliveira_Gomes_STAIRS20 10.pdf">http://eden.dei.uc.pt/~hroliv/pubs/GoncaloOliveira_Gomes_STAIRS20 10.pdf</ext-link>
				</element-citation>
			</ref>
			<ref id="B10">
				<mixed-citation>GONÇALO OLIVEIRA, H., &amp; GOMES, P. ECO and Onto. PT: a flexible approach for creating a Portuguese wordnet automatically. Language resources and evaluation, vol. 48, n.2, 2014, pp. 373-393. Disponível em: <ext-link ext-link-type="uri" xlink:href="http://link.springer.com/article/10.1007%2Fs10579-013-9249-9">http://link.springer.com/article/10.1007%2Fs10579-013-9249-9</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>GONÇALO OLIVEIRA</surname>
							<given-names>H.</given-names>
						</name>
						<name>
							<surname>GOMES</surname>
							<given-names>P.</given-names>
						</name>
					</person-group>
					<article-title>ECO and Onto. PT: a flexible approach for creating a Portuguese wordnet automatically</article-title>
					<source>Language resources and evaluation</source>
					<volume>48</volume>
					<issue>2</issue>
					<year>2014</year>
					<fpage>373</fpage>
					<lpage>393</lpage>
					<ext-link ext-link-type="uri" xlink:href="http://link.springer.com/article/10.1007%2Fs10579-013-9249-9">http://link.springer.com/article/10.1007%2Fs10579-013-9249-9</ext-link>
				</element-citation>
			</ref>
			<ref id="B11">
				<mixed-citation>GONÇALO OLIVEIRA, H., PAIVA FREITAS, C., RADEMAKER, A., REAL, L., &amp; SIMÕES, A. As wordnets do português. Oslo Studies in Language, vol. 7, n. 1, 2015, pp. 397-424. Disponível em: <ext-link ext-link-type="uri" xlink:href="https://www.journals.uio.no/index.php/osla/article/view/1445/1342">https://www.journals.uio.no/index.php/osla/article/view/1445/1342</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>GONÇALO OLIVEIRA</surname>
							<given-names>H.</given-names>
						</name>
						<name>
							<surname>PAIVA FREITAS</surname>
							<given-names>C.</given-names>
						</name>
						<name>
							<surname>RADEMAKER</surname>
							<given-names>A.</given-names>
						</name>
						<name>
							<surname>REAL</surname>
							<given-names>L.</given-names>
						</name>
						<name>
							<surname>SIMÕES</surname>
							<given-names>A.</given-names>
						</name>
					</person-group>
					<article-title>As wordnets do português</article-title>
					<source>Oslo Studies in Language</source>
					<volume>7</volume>
					<issue>1</issue>
					<year>2015</year>
					<fpage>397</fpage>
					<lpage>424</lpage>
					<ext-link ext-link-type="uri" xlink:href="https://www.journals.uio.no/index.php/osla/article/view/1445/1342">https://www.journals.uio.no/index.php/osla/article/view/1445/1342</ext-link>
				</element-citation>
			</ref>
			<ref id="B12">
				<mixed-citation>INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA [IBGE]. Glossário dos Termos Genéricos dos Nomes Geográficos Utilizados no Mapeamento Sistemático do Brasil. Vol. 2. Rio de Janeiro: Ministério do Planejamento, Orçamento e Gestão Instituto Brasileiro de Geografia e Estatística - IBGE, 2015. Disponível em: <ext-link ext-link-type="uri" xlink:href="http://www.ibge.gov.br/home/geociencias/cartografia/glossario_ter mos_genericos_v2.shtm">http://www.ibge.gov.br/home/geociencias/cartografia/glossario_ter mos_genericos_v2.shtm</ext-link>
				</mixed-citation>
				<element-citation publication-type="webpage">
					<person-group person-group-type="author">
						<collab>INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA [IBGE]</collab>
					</person-group>
					<source>Glossário dos Termos Genéricos dos Nomes Geográficos Utilizados no Mapeamento Sistemático do Brasil</source>
					<volume>2</volume>
					<publisher-loc>Rio de Janeiro</publisher-loc>
					<publisher-name>Ministério do Planejamento, Orçamento e Gestão Instituto Brasileiro de Geografia e Estatística - IBGE</publisher-name>
					<year>2015</year>
					<ext-link ext-link-type="uri" xlink:href="http://www.ibge.gov.br/home/geociencias/cartografia/glossario_ter mos_genericos_v2.shtm">http://www.ibge.gov.br/home/geociencias/cartografia/glossario_ter mos_genericos_v2.shtm</ext-link>
				</element-citation>
			</ref>
			<ref id="B13">
				<mixed-citation>LOPES, L., FERNANDES, P., &amp; VIEIRA, R. Estimating term domain relevance through term frequency, disjoint corpora frequency-tf-dcf. Knowledge-Based Systems, vol. 97, Abril 2016, pp. 237-249.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>LOPES</surname>
							<given-names>L.</given-names>
						</name>
						<name>
							<surname>FERNANDES</surname>
							<given-names>P.</given-names>
						</name>
						<name>
							<surname>VIEIRA</surname>
							<given-names>R.</given-names>
						</name>
					</person-group>
					<article-title>Estimating term domain relevance through term frequency, disjoint corpora frequency-tf-dcf</article-title>
					<source>Knowledge-Based Systems</source>
					<volume>97</volume>
					<month>04</month>
					<year>2016</year>
					<fpage>237</fpage>
					<lpage>249</lpage>
				</element-citation>
			</ref>
			<ref id="B14">
				<mixed-citation>SALTON, G., &amp; BUCKLEY, C. Term-weighting approaches in automatic text retrieval. Information processing &amp; management, vol. 24, n. 5, 1988, pp. 513-523.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>SALTON</surname>
							<given-names>G.</given-names>
						</name>
						<name>
							<surname>BUCKLEY</surname>
							<given-names>C.</given-names>
						</name>
					</person-group>
					<article-title>Term-weighting approaches in automatic text retrieval</article-title>
					<source>Information processing &amp; management</source>
					<volume>24</volume>
					<issue>5</issue>
					<year>1988</year>
					<fpage>513</fpage>
					<lpage>523</lpage>
				</element-citation>
			</ref>
			<ref id="B15">
				<mixed-citation>SANTOS, F., &amp; GONÇALO OLIVEIRA, H. Descoberta de Synsets Difusos com base na Redundância em vários Dicionários. Linguamática, vol. 7, n. 2, 2015, pp. 3-17.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>SANTOS</surname>
							<given-names>F.</given-names>
						</name>
						<name>
							<surname>GONÇALO OLIVEIRA</surname>
							<given-names>H.</given-names>
						</name>
					</person-group>
					<article-title>Descoberta de Synsets Difusos com base na Redundância em vários Dicionários</article-title>
					<source>Linguamática</source>
					<volume>7</volume>
					<issue>2</issue>
					<year>2015</year>
					<fpage>3</fpage>
					<lpage>17</lpage>
				</element-citation>
			</ref>
			<ref id="B16">
				<mixed-citation>SINGHAL, A., SALTON, G., &amp; BUCKLEY, C. Length normalization in degraded text collections. In: Fifth Annual Symposium on Document Analysis and Information Retrieval, 1996, pp. 149-162. Disponível em: <ext-link ext-link-type="uri" xlink:href="http://www.singhal.info/ocr-norm.pdf">http://www.singhal.info/ocr-norm.pdf</ext-link>
				</mixed-citation>
				<element-citation publication-type="confproc">
					<person-group person-group-type="author">
						<name>
							<surname>SINGHAL</surname>
							<given-names>A.</given-names>
						</name>
						<name>
							<surname>SALTON</surname>
							<given-names>G.</given-names>
						</name>
						<name>
							<surname>BUCKLEY</surname>
							<given-names>C.</given-names>
						</name>
					</person-group>
					<source>Length normalization in degraded text collections</source>
					<conf-name>Fifth Annual Symposium on Document Analysis and Information Retrieval</conf-name>
					<year>1996</year>
					<fpage>149</fpage>
					<lpage>162</lpage>
					<ext-link ext-link-type="uri" xlink:href="http://www.singhal.info/ocr-norm.pdf">http://www.singhal.info/ocr-norm.pdf</ext-link>
				</element-citation>
			</ref>
			<ref id="B17">
				<mixed-citation>TEIXEIRA, R. B. S. Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados. Tradterm, vol. 18, 2011, pp. 297-319. Disponível em: <ext-link ext-link-type="uri" xlink:href="http://www.revistas.usp.br/tradterm/article/view/36765/39487">http://www.revistas.usp.br/tradterm/article/view/36765/39487</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>TEIXEIRA</surname>
							<given-names>R. B. S.</given-names>
						</name>
					</person-group>
					<article-title>Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados</article-title>
					<source>Tradterm</source>
					<volume>18</volume>
					<year>2011</year>
					<fpage>297</fpage>
					<lpage>319</lpage>
					<ext-link ext-link-type="uri" xlink:href="http://www.revistas.usp.br/tradterm/article/view/36765/39487">http://www.revistas.usp.br/tradterm/article/view/36765/39487</ext-link>
				</element-citation>
			</ref>
			<ref id="B18">
				<mixed-citation>WENDT, I. S., LOPES, L., MARTINS, D., VIEIRA, R., &amp; LIMA, V. L. S. Geração automática de glossários de termos específicos de um corpus de Geologia. In: 3o ONTOBRAS. Seminário de Pesquisa em Ontologia no Brasil. 30 e 31 de Agosto de 2010. Florianópolis / SC. Florianópolis: Anais do 3o Seminário de Pesquisa em Ontologia no Brasil, 2010. Disponível em: <ext-link ext-link-type="uri" xlink:href="http://www.lbd.dcc.ufmg.br/colecoes/ontobras/2010/0025.pdf">http://www.lbd.dcc.ufmg.br/colecoes/ontobras/2010/0025.pdf</ext-link>
				</mixed-citation>
				<element-citation publication-type="confproc">
					<person-group person-group-type="author">
						<name>
							<surname>WENDT</surname>
							<given-names>I. S.</given-names>
						</name>
						<name>
							<surname>LOPES</surname>
							<given-names>L.</given-names>
						</name>
						<name>
							<surname>MARTINS</surname>
							<given-names>D.</given-names>
						</name>
						<name>
							<surname>VIEIRA</surname>
							<given-names>R.</given-names>
						</name>
						<name>
							<surname>LIMA</surname>
							<given-names>V. L. S.</given-names>
						</name>
					</person-group>
					<source>Geração automática de glossários de termos específicos de um corpus de Geologia</source>
					<conf-name>3o ONTOBRAS. Seminário de Pesquisa em Ontologia no Brasil</conf-name>
					<conf-date>30 e 31 de Agosto de 2010</conf-date>
					<conf-loc>Florianópolis, SC</conf-loc>
					<publisher-loc>Florianópolis</publisher-loc>
					<publisher-name>Anais do 3o Seminário de Pesquisa em Ontologia no Brasil</publisher-name>
					<year>2010</year>
					<ext-link ext-link-type="uri" xlink:href="http://www.lbd.dcc.ufmg.br/colecoes/ontobras/2010/0025.pdf">http://www.lbd.dcc.ufmg.br/colecoes/ontobras/2010/0025.pdf</ext-link>
				</element-citation>
			</ref>
			<ref id="B19">
				<mixed-citation>ZAPPAROLI, Z. M. Tratamento de corpora informatizados por programas de análise linguística para estudos do português falado de São Paulo. Boletim da Academia Galega da Língua Portuguesa, vol. 3, 2010, pp. 87-112.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>ZAPPAROLI</surname>
							<given-names>Z. M.</given-names>
						</name>
					</person-group>
					<article-title>Tratamento de corpora informatizados por programas de análise linguística para estudos do português falado de São Paulo</article-title>
					<source>Boletim da Academia Galega da Língua Portuguesa</source>
					<volume>3</volume>
					<year>2010</year>
					<fpage>87</fpage>
					<lpage>112</lpage>
				</element-citation>
			</ref>
		</ref-list>
		<fn-group>
			<fn fn-type="other" id="fn1">
				<label>1</label>
				<p>Medida relativamente à precisão e abrangência segundo a fórmula F =2 x Precisão x Abrangência / (Precisão + Abrangência)</p>
			</fn>
			<fn fn-type="other" id="fn2">
				<label>2</label>
				<p>Primeira edição fac-similar disponível em <ext-link ext-link-type="uri" xlink:href="http://purl.pt/82">http://purl.pt/82</ext-link>
				</p>
			</fn>
			<fn fn-type="other" id="fn3">
				<label>3</label>
				<p>
					<ext-link ext-link-type="uri" xlink:href="http://www.GeoNames.org/export/codes.html">http://www.GeoNames.org/export/codes.html</ext-link>
				</p>
			</fn>
			<fn fn-type="other" id="fn4">
				<label>4</label>
				<p>
					<ext-link ext-link-type="uri" xlink:href="https://translate.google.com/?hl=pt-PT">https://translate.google.com/?hl=pt-PT</ext-link>
				</p>
			</fn>
			<fn fn-type="other" id="fn5">
				<label>5</label>
				<p>
					<ext-link ext-link-type="uri" xlink:href="http://ontopt.dei.uc.pt/index.php?sec=contopt">http://ontopt.dei.uc.pt/index.php?sec=contopt</ext-link>
				</p>
			</fn>
			<fn fn-type="other" id="fn6">
				<label>6</label>
				<p>
					<ext-link ext-link-type="uri" xlink:href="http://www.R-project.Org">http://www.R-project.Org</ext-link>
				</p>
			</fn>
		</fn-group>
	</back>
</article>