OpenAI est une société de recherche et développement basée sur l’intelligence artificielle (IA) qui a récemment développé ChatGPT, un grand modèle de langage (LLM). Bien que les LLM précédemment développés puissent effectuer diverses tâches de traitement du langage naturel (NLP), ChatGPT traite différemment. ChatGPT est un chatbot IA qui peut interagir dans une conversation de type humain.
Fait intéressant, seulement 5 jours après la sortie de ChatGPT, il comptait plus d’un million d’utilisateurs. La majorité des utilisateurs ont essayé ChatGPT pour répondre à des questions complexes ou générer un texte court. Par rapport au texte développé manuellement, la détection de plagiat dans le texte généré par l’outil ChatGPT ne serait pas facile.
Une récente Frontières en santé publique journal étude centrée sur l’évolution des LLM. Il a également évalué l’impact de ChatGPT sur la recherche future et la santé publique. Cette étude visait à promouvoir un débat sur la fonction de ChatGPT dans la recherche médicale, compte tenu du concept d' »infodémie basée sur l’IA ».
Perspective : ChatGPT et l’essor des grands modèles linguistiques : la nouvelle menace infodémique basée sur l’IA en santé publique. Crédit d’image : Mila Supinskaya Glashchenko/Shutterstock
Évolution des LLM
Au cours des cinq dernières années, une croissance exponentielle des LLM a été observée, ce qui a permis l’exécution de tâches variées. Cependant, avant 2017, la plupart des modèles de PNL étaient entraînés pour une tâche particulière. Cet inconvénient a été surmonté grâce au développement de l’architecture de réseau d’auto-attention, également connue sous le nom de Transformer. En 2018, ce concept a été utilisé pour développer deux modèles révolutionnaires, à savoir, Generative Pretrained Transformer (GPT) et Bidirectional Encoder Representations from Transformers (BERT).
Pour obtenir des capacités de généralisation dans BERT et GPT, une combinaison d’ajustements supervisés et de pré-formation non supervisée a été utilisée. Cette approche a permis l’application de représentations de langage pré-entraînées pour exécuter des tâches en aval.
Les modèles GPT ont évolué rapidement et de nombreuses versions ont été lancées. Les versions améliorées contiennent de grandes données textuelles et des paramètres. Par exemple, la troisième version de GPT (GPT-3) est 100 fois plus grande que GPT-2 et comprend 175 milliards de paramètres. Bien que GPT-3 puisse générer des textes couvrant un large éventail de domaines, il fournit souvent des textes biaisés contenant des faits faux. En effet, de nombreux LLM, y compris GPT-3, reproduisent les biais car ils ont été conçus pour prédire l’élément de texte suivant en fonction des données disponibles sur Internet. Le principal problème était de concevoir des LLM qui s’alignent sur les valeurs humaines et les principes éthiques.
Pour résoudre le problème susmentionné, OpenAI a développé ChatGPT incorporant 1,3 milliard de paramètres formés à l’aide de l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF). Le ChatGPT 2021 a généré un texte incorrect en raison de son incapacité à vérifier les faits, ce qui a été corrigé en intégrant GPT-4 dans ChatGPT. Bien que le dernier ChatGPT génère des données fiables, il faut tenir compte de toutes les limites de cet outil, en particulier lors de son application dans la recherche médicale.
Évaluation des menaces de ChatGPT en santé publique compte tenu de l’infodémie basée sur l’IA
ChatGPT peut être utilisé par les chercheurs pour créer des articles scientifiques importants. Par exemple, cet outil peut être utilisé pour suggérer des titres pertinents pour des articles de recherche, rédiger des brouillons et exprimer des concepts scientifiques complexes dans un anglais simple et grammaticalement correct. Le grand intérêt pour ChatGPT dans la communauté scientifique se mesure à l’augmentation rapide du nombre d’articles de recherche sur cet outil.
De nombreux auteurs ont déjà utilisé ChatGPT pour rédiger une partie de leurs articles scientifiques. Cela souligne le fait que cet outil a déjà été intégré dans les processus de recherche, avant même d’aborder les préoccupations éthiques et d’établir des règles standard pour son application.
Les LLM peuvent être amenés à produire des textes liés à des sujets controversés ou à un contenu mal informé. Les LLM peuvent produire des textes similaires à ceux composés par les humains. Cette capacité peut être utilisée à mauvais escient pour créer de faux articles d’actualité et du contenu fabriqué ou trompeur sans que l’utilisateur se rende compte que le contenu est produit par l’IA.
Récemment, certains auteurs ont souligné le besoin de détecteurs LLM capables d’identifier les fausses nouvelles. Les détecteurs GPT-2 actuels ne sont pas fiables pour détecter le texte écrit par l’IA lorsqu’il est généré par ChatGPT. Il existe un besoin continu d’améliorer les détecteurs conformément à l’avancement rapide des LLM pour freiner les intentions malveillantes.
En raison du manque de détecteurs précis, certaines mesures de précaution doivent être suivies. Par exemple, la Conférence internationale sur l’apprentissage automatique (ICML) pour 2023 a interdit l’utilisation de LLM dans les projets soumis. Cependant, aucun outil n’est disponible pour vérifier le respect de cette règle.
De nombreuses revues scientifiques ont mis à jour les directives de l’auteur ; par exemple, les revues Springer Nature ont ajouté que les LLM ne peuvent pas être répertoriés en tant qu’auteurs et que leur utilisation doit être mentionnée dans les sections sur les méthodes ou les remerciements. Ces directives mises à jour ont également été mises en œuvre par Elsevier.
ChatGPT peut être utilisé à mauvais escient pour générer de faux résumés, articles et bibliographies scientifiques. Ici, un système d’identification d’objet numérique (DOI) pourrait être utilisé pour détecter avec précision les fausses références. Les scientifiques ont souligné que des années de recherche sont nécessaires pour valider une découverte en médecine avant qu’elle ne puisse être utilisée en clinique. Par conséquent, les fausses informations générées par les outils d’IA peuvent mettre en danger la sécurité des personnes.
La pandémie de maladie à coronavirus 2019 (COVID-19) a profondément affecté la recherche en santé. Cela est principalement dû à la diffusion rapide d’informations, à partir de serveurs de prépublication, via les médias sociaux, qui ont eu un impact sur les choix de santé d’un individu. Les informations sur le COVID-19 ont été principalement diffusées via les réseaux sociaux, ce qui a entraîné un phénomène connu sous le nom d’infodémie. Il a été observé qu’une infodémie pouvait influencer de manière significative la prise de décision médicale dans les stratégies de prévention ou de traitement. Les auteurs prévoient d’importantes menaces pour la santé publique à l’avenir en raison de la génération d’infodémies basées sur l’IA.