Acurácia das técnicas de relacionamento probabilístico e determinístico: o caso da tuberculose

Autores

  • Gisele Pinto de Oliveira Universidade Federal do Rio de Janeiro; Instituto de Estudos em Saúde Coletiva
  • Ana Luiza de Souza Bierrenbach Hospital Sírio-Libanês; Instituto de Ensino e Pesquisa
  • Kenneth Rochel de Camargo Júnior Universidade do Estado do Rio de Janeiro; Instituto de Medicina Social
  • Cláudia Medina Coeli Universidade Federal do Rio de Janeiro; Instituto de Estudos em Saúde Coletiva
  • Rejane Sobrino Pinheiro Universidade Federal do Rio de Janeiro; Instituto de Estudos em Saúde Coletiva

DOI:

https://doi.org/10.1590/S1518-8787.2016050006327

Resumo

OBJETIVO Analisar a acurácia das técnicas determinística e probabilística para identificação de registros duplicados de tuberculose, assim como as características dos pares discordantes. MÉTODOS Foram analisados todos os registros de tuberculose no período de 2009 a 2011 do estado do Rio de Janeiro. Foi desenvolvido algoritmo para relacionamento determinístico, usando conjunto de 70 regras, a partir da combinação de fragmentos das variáveis-chave com ou sem modificações (Soundex ou substring). Cada regra era formada por três ou mais fragmentos. Para a abordagem probabilística, foi necessário estabelecer ponto de corte para o escore, acima do qual os links seriam classificados automaticamente como pertencentes ao mesmo indivíduo. O ponto de corte foi obtido por meio do relacionamento da base de dados Sistema de Informação de Agravos de Notificação – Tuberculose com ela mesma, posterior revisão manual e curvas ROC e precision-recall. Foram calculadas a sensibilidade e especificidade para análise de acurácia. RESULTADOS A acurácia variou de 87,2% a 95,2% para sensibilidade e 99,8% a 99,9% para especificidade para as técnicas probabilística e determinística, respectivamente. A presença de valores faltantes para as variáveis-chave e o baixo percentual da medida de similaridade para o nome e data de nascimento foram os principais responsáveis pela não identificação dos registros do mesmo indivíduo pelas técnicas utilizadas. CONCLUSÕES As duas técnicas apresentam alta concordância para a classificação como par. Apesar de a técnica determinística ter identificado mais registros duplicados que a probabilística, a segunda recuperou registros não identificados pela primeira. A necessidade e a experiência do usuário devem ser consideradas para a escolha da técnica a ser utilizada.

Publicado

2016-01-01

Edição

Seção

Artigos Originais

Como Citar

Oliveira, G. P. de, Bierrenbach, A. L. de S., Camargo Júnior, K. R. de, Coeli, C. M., & Pinheiro, R. S. (2016). Acurácia das técnicas de relacionamento probabilístico e determinístico: o caso da tuberculose . Revista De Saúde Pública, 50, 49. https://doi.org/10.1590/S1518-8787.2016050006327