L’outil xFakeSci peut-il identifier le faux contenu généré par l’IA ?

Sommaire

Un outil d'IA de pointe qui surpasse les méthodes traditionnelles pour repérer le contenu généré par l'IA comme les articles ChatGPT, contribuant ainsi à protéger la recherche scientifique contre le plagiat !

Étude: Détection de fausses informations scientifiques sur ChatGPT grâce à l'algorithme d'apprentissage xFakeSciCrédit photo : dauf / Shutterstock.com

L'utilisation croissante d'outils d'intelligence artificielle générative (IA) comme ChatGPT a augmenté le risque de plagiat de contenu d'apparence humaine provenant d'autres sources. Une nouvelle étude publiée dans Rapports scientifiques évalue les performances de xFakeSci pour différencier le contenu scientifique authentique du contenu généré par ChatGPT.

Les menaces posées à la recherche par l’IA générative

L’IA génère du contenu en fonction des messages ou des commandes qui lui sont envoyés pour en orienter le traitement. Avec l’aide et la complicité des réseaux sociaux, des revues prédatrices ont publié de faux articles scientifiques pour donner de l’autorité à des points de vue douteux. Cette situation pourrait être encore aggravée par la publication de contenu généré par l’IA dans de véritables publications scientifiques.

Des recherches antérieures ont souligné les difficultés associées à la distinction entre le contenu généré par l’IA et le contenu scientifique authentique. Il demeure donc urgent de développer des algorithmes de détection précis.

Objectif et aperçu de l'étude

Dans l’étude actuelle, les chercheurs ont utilisé xFakeSci, un nouvel algorithme d’apprentissage capable de différencier le contenu généré par l’IA du contenu scientifique authentique. Cet algorithme de prédiction d’étiquettes piloté par réseau englobe à la fois des modes de fonctionnement simples et multiples qui sont entraînés à l’aide d’un ou de plusieurs types de ressources, respectivement.

Au cours de la formation, les chercheurs ont utilisé des invites conçues pour identifier les faux documents et leurs caractéristiques distinctives avec ChatGPT. Par la suite, xFakeSci a été utilisé pour prédire la classe du document et son authenticité.

Deux types de modèles de formation de réseau ont été basés sur du contenu généré par ChatGPT et rédigé par des humains, obtenu à partir de résumés de PubMed. Les deux ensembles de données ont été analysés pour des articles sur le cancer, la dépression et la maladie d'Alzheimer (MA).

Différences entre deux types de contenu

L’une des différences frappantes entre les articles générés par ChatGPT et ceux générés par l’homme était le nombre de nœuds et d’arêtes calculés à partir de chaque type de contenu.

Le contenu généré par ChatGPT comportait beaucoup moins de nœuds, mais un nombre plus élevé d'arêtes pour un rapport nœud/arête inférieur. De plus, les ensembles de données générés par l'IA présentaient des ratios plus élevés pour chacun des k-Folds par rapport au contenu réel dérivé des scientifiques sur les trois maladies.

Résultats des tests

Après la formation et l'étalonnage, xFakeSci a été testé sur 100 articles pour chaque maladie, 50 de PubMed et 50 de ChatGPT. Les scores F1 ont été calculés à partir des vrais positifs, des vrais négatifs, des faux positifs et des faux négatifs.

Des scores F1 de 80 %, 91 % et 89 % ont été obtenus pour les articles sur la dépression, le cancer et la maladie d'Alzheimer, respectivement. Alors que tout le contenu généré par l'homme a été détecté par xFakeSci, seuls 25, 41 et 38 des documents générés par ChatGPT sur ces trois maladies, respectivement, ont été identifiés avec précision. Le contenu généré par ChatGPT a été identifié avec plus de précision lorsqu'il a été mélangé à des articles authentiques plus anciens pour une analyse dans une classe mixte.

ChatGPT est classé comme PubMed avec (FP (faux positifs) = 25), indiquant que 50 % des documents de test sont classés à tort comme de vraies publications.”

Analyse comparative de xFakeSci

Par rapport aux algorithmes d'exploration de données conventionnels acceptés ou classés parmi les 10 meilleurs comme Naïve Bayes, Support Vector Machine (SVM), Linear SVM et Logistic Regression, les scores de xFakeSci sont restés entre 80 % et 91 % pour les articles publiés entre 2020 et 2024. En comparaison, les autres algorithmes ont montré des performances fluctuantes, avec des scores compris entre 43 % et 52 %.

Dans les articles précédents publiés entre 2014-2019 et 2010-2014, la même disparité a été observée pour xFakeSci et d'autres algorithmes, à 80-94 % et 38-52 %, respectivement. Ainsi, xFakeSci surpasse les autres algorithmes sur toutes les périodes.

Conclusions

L'algorithme xFakeSci est particulièrement adapté à la classification multi-mode pour tester un ensemble de tests mixtes et produire des étiquettes précises pour chaque type. L'inclusion d'une étape d'étalonnage basée sur des ratios et des distances de proximité améliore l'aspect classification de cet algorithme ; cependant, elle empêche l'ajout de quantités d'échantillons excessives.

L'aspect de classification multi-mode de xFakeSci a permis à cet algorithme d'identifier avec précision les articles réels, même lorsqu'ils étaient mélangés à des articles générés par ChatGPT. Cependant, xFakeSci n'a pas réussi à identifier tous les contenus générés par ChatGPT.

Les réseaux générés à partir de ChatGPT étaient associés à un rapport nœud/bord inférieur, indiquant ainsi leur connectivité plus élevée, qui s'accompagnait d'un rapport accru de bigrammes par rapport au nombre total de mots pour chaque document.

Étant donné que ChatGPT a été développé pour produire un contenu de type humain en prédisant le mot suivant sur la base de corrélations statistiques, ses objectifs ne correspondent pas aux objectifs scientifiques de documentation des tests d’hypothèses, de l’expérimentation et des observations.

L’algorithme xFakeSci pourrait avoir d’autres applications, comme la distinction de parties potentiellement fausses de notes cliniques, d’interventions et de résumés d’expériences cliniques générés par ChatGPT. Néanmoins, des lignes directrices éthiques doivent être appliquées pour empêcher l’utilisation irresponsable des outils d’IA générative, même si l’on reconnaît leurs avantages.

L’IA peut fournir des données simulées, créer des segments de code pour de multiples applications de programmation et aider à l’enseignement, tout en aidant à présenter la recherche scientifique dans un anglais grammaticalement lisible pour les locuteurs non natifs. Cependant, le contenu généré par l’IA peut plagier des documents de recherche disponibles en ligne, ce qui pourrait interférer avec le progrès scientifique et l’apprentissage. Ainsi, les éditeurs de revues ont un rôle important à jouer dans la mise en œuvre d’algorithmes de détection et d’autres technologies pour identifier les rapports contrefaits.

Les recherches futures pourraient utiliser des graphiques de connaissances pour regrouper des domaines de publication étroitement liés afin d'améliorer la précision de la détection, de la formation et de l'étalonnage, ainsi que de tester les performances de xFakeSci à l'aide de plusieurs sources de données.