
Uma análise de dezenas de milhares de submissões de artigos de pesquisa mostrou um aumento dramático na presença de texto gerado usando inteligência artificial (IA) nos últimos anos, descobriu uma editora acadêmica.
A American Association for Cancer Research (AACR) descobriu que 23% dos resumos em manuscritos e 5% dos relatórios de revisão por pares submetidos a seus periódicos em 2024 continham texto que provavelmente foi gerado por grandes modelos de linguagem (LLMs). Os editores também descobriram que menos de 25% dos autores divulgaram o uso de IA para preparar manuscritos, apesar de o editor exigir a divulgação para envio. Os dados estão disponíveis no atigo publicado recentemente na revista Nature [1].
Para rastrear manuscritos em busca de sinais de uso de IA, a AACR usou uma ferramenta de IA desenvolvida pela Pangram Labs – https://www.pangram.com [2], com sede na cidade de Nova York. Quando aplicada a 46.500 resumos, 46.021 seções de métodos e 29.544 comentários de revisão por pares enviados a 10 periódicos da AACR entre 2021 e 2024, a ferramenta sinalizou um aumento na suspeita de texto gerado por IA em submissões e relatórios de revisão desde o lançamento público do chatbot da OpenAI, ChatGPT, em novembro de 2022 [4].
“Ficamos chocados quando vimos os resultados do Pangram”, diz Daniel Evanko, diretor de operações e sistemas de periódicos da AACR, que apresentou as descobertas no The 10th International Congress on Peer Review and Scientific Publication em Chicago, Illinois, em setembro de 2025. Organizado pela JAMA , BMJ e METRICS em Stanford , o evento proporcionou um fórum para pesquisa e discussão sobre como aprimorar a qualidade e a credibilidade da revisão por pares e da publicação científica.
O Pangram foi treinado em 28 milhões de documentos escritos por humanos antes de 2021, incluindo 3 milhões de artigos científicos, bem como ‘espelhos de IA’ – textos gerados por LLM que imitam passagens escritas por humanos em comprimento, estilo e tom [1].
Max Spero, diretor executivo da Pangram Labs, diz que adicionar um modo de aprendizado ativo ao Pangram foi “um dos avanços” que permitiu reduzir a taxa de falsos positivos – a parcela de textos sinalizados incorretamente como sendo escritos por IA. Ele e sua equipe treinaram repetidamente a ferramenta, o que “reduziu nossa taxa de falsos positivos de cerca de um em 100 para cerca de um em 10.000”, diz ele.
Em uma pré-impressão postada no ano passado1, Spero e seus colegas mostraram que a precisão do Pangram foi de 99,85%, com taxas de erro 38 vezes menores do que as de outras ferramentas de detecção de IA atualmente disponíveis [3].
A ferramenta também pode distinguir entre diferentes LLMs, incluindo modelos ChatGPT, DeepSeek, LLaMa e Claude. “Só podemos fazer isso porque geramos todo o nosso conjunto de treinamento, então sabemos a proveniência exata, sabemos de qual modelo os dados de treinamento vieram”, explica Spero.
O modelo atual do Pangram não consegue distinguir entre passagens totalmente geradas por IA e aquelas que são escritas por humanos.
A AACR usou o Pangram para analisar as submissões em 2024, que incluíram 11.959 resumos, 11.875 seções de métodos e 7.211 relatórios de revisão por pares.
Sua análise descobriu que os autores de instituições em países onde o inglês não é uma língua nativa tinham duas vezes mais chances de usar LLMs.
A análise da AACR sugere que as políticas atuais para divulgar o uso da IA têm efeito limitado. Uma análise mais aprofundada descobriu que 36% dos 7.177 manuscritos submetidos entre janeiro e junho de 2025 foram sinalizados pelo Pangram por suspeita de texto gerado por IA em seu resumo, mas os autores de apenas 9% de todas as submissões divulgaram seu uso de IA aos periódicos.
No entanto, Mohammad Hosseini, que estuda ética e integridade em pesquisa na Northwestern University Feinberg School of Medicine, em Chicago, diz que as descobertas devem ser interpretadas com cautela. Ele diz que não há como verificar se os manuscritos sinalizados realmente usaram IA.
Hosseini também observa que os pesquisadores podem usar a IA para preparar seus manuscritos de outras maneiras além de escrever, polir ou traduzir texto, como para análise de dados e geração de imagens. Esses usos devem ser divulgados de acordo com a política da AACR, mas “não podem ser detectados com a ferramenta”, diz ele [1].
Mas Hosseini diz que as descobertas mostram que o editor precisa “agir com base em informações sobre violações de políticas”, caso contrário, a comunidade de pesquisa “pode concluir que as políticas editoriais são simplesmente uma piada”.
Os periódicos poderiam “enviar uma nota de advertência aos revisores envolvidos e pedir-lhes que não usem IA em suas revisões futuras e enviar artigos afetados para serem revisados novamente e, se necessário, corrigi-los ou retratá-los”, sugere Hosseini. “A vida útil de um artigo não termina com sua publicação.” [1]
== Referências ==
[1] NADAF, Myriam. AI tool detects LLM-generated text in research papers and peer reviews. Nature News, Spet. 2025. Disponível em: https://doi.org/10.1038/d41586-025-02936-6 Acesso em: 29 out. 2025.
[2] PANGRAM LABS. Disponível em: https://www.pangram.com/
[3] BRADLEY, Emi; SPERO, Max. Technical Report on the Pangram AI-Generated Text Classifier. Disponível em: https://arxiv.org/html/2402.14873v3 Acesso em: 29 out. 2025
[4] EVANKO, Daniel. S.; Di NATALE, Michael. Quantifying and Assessing the Use of Generative AI by Authors and Reviewers in the Cancer Research Field. In: The 10th International Congress on Peer Review and Scientific Publication, Chicago, Sept. 2025. Abstract disponível em: https://peerreviewcongress.org/abstract/quantifying-and-assessing-the-use-of-generative-ai-by-authors-and-reviewers-in-the-cancer-research-field/