Dans une étude récente publiée dans la revue PNASun groupe de chercheurs a évalué les comportements humains et les traits de personnalité des chatbots d’intelligence artificielle (IA) par rapport à des références humaines mondiales.
Sommaire
Arrière-plan
L’IA moderne a concrétisé la vision de Turing de machines capables d’imiter les comportements humains, notamment la conversation, le conseil et l’écriture créative. Le « jeu d’imitation » de Turing teste si une IA peut être distinguée d’un humain par un interrogateur. Les grands modèles linguistiques actuels ont relancé les discussions sur les capacités de l’IA et ses impacts sociétaux, depuis les effets sur le marché du travail jusqu’aux considérations éthiques. Comprendre la prise de décision et les interactions stratégiques de l’IA est crucial, surtout compte tenu de l’opacité de leur développement. Des recherches supplémentaires sont nécessaires pour démêler les complexités de la prise de décision en matière d’IA et pour garantir leur alignement sur les normes éthiques et sociétales à mesure que leur intégration dans les contextes humains s’approfondit.
Étude : Un test de Turing pour déterminer si les chatbots IA ont un comportement similaire à celui des humains. Crédit d’image : Stokkete/Shutterstock
À propos de l’étude
La présente étude se concentre sur la série Chat Generative Pre-trained Transformer (GPT) développée par OpenAI, comparant spécifiquement les versions GPT-3.5-Turbo (ChatGPT-3) et GPT-4 (ChatGPT-4), ainsi que les versions Web Plus et Free. versions de ces chatbots. Les données humaines par rapport auxquelles les performances des chatbots sont comparées proviennent d’un ensemble de données complet englobant les réponses de plus de 108 000 sujets de plus de 50 pays, provenant de la base de données Big Five Test et de la plateforme d’expérimentation économique MobLab Classroom.
Les chatbots ont été soumis au questionnaire OCEAN Big Five à savoir Ouverture à l’expérience, conscience, extraversion, agréabilité et névrosisme pour évaluer leurs profils de personnalité. Par la suite, ils ont participé à six jeux distincts conçus pour révéler une gamme de traits comportementaux tels que la méchanceté, la confiance, l’aversion au risque, l’altruisme, l’équité, le parasitisme, la coopération et le raisonnement stratégique. Ces jeux comprenaient le jeu du dictateur, le jeu de la confiance, le jeu du risque de bombe, le jeu de l’ultimatum, le jeu des biens publics et un jeu du dilemme du prisonnier infiniment répété. Il a été demandé à chaque chatbot de choisir des actions au sein de ces jeux comme s’il participait directement, chaque scénario étant joué trente fois pour garantir une collecte de données robuste.
Résultats de l’étude
Dans l’exploration des profils de personnalité et des tendances comportementales de l’IA, les auteurs ont comparé avec précision les réponses de ChatGPT-3 et ChatGPT-4 au questionnaire de personnalité OCEAN Big Five à un large spectre de données humaines. Cette analyse comparative a révélé que ChatGPT-4 reflète étroitement les scores humains médians dans toutes les dimensions de la personnalité, tandis que ChatGPT-3 présentait un léger écart d’ouverture. Curieusement, les deux chatbots ont démontré des modèles de comportement étroitement alignés sur les tendances humaines dans diverses dimensions, y compris l’extraversion et le névrosisme, mais ont montré une différence marquée en termes d’agrément et d’ouverture, suggérant des profils de personnalité uniques pour chaque version de l’IA.
L’étude a ensuite approfondi une série de jeux comportementaux conçus pour susciter des traits tels que l’altruisme, l’équité et l’aversion au risque, en utilisant un test formel de Turing pour évaluer la ressemblance humaine de l’IA dans la prise de décision stratégique. Ici, les performances de ChatGPT-4 étaient particulièrement semblables à celles d’un humain, souvent impossibles à distinguer du comportement humain, voire surpassant, ce qui suggère son potentiel à réussir le test de Turing dans certains contextes. À l’opposé, les réponses de ChatGPT-3 étaient moins souvent perçues comme étant de type humain, soulignant les différences de tendances comportementales entre les versions d’IA.
Une analyse approfondie des comportements spécifiques au jeu a mis en évidence des résultats significatifs. Les chatbots ont démontré une propension à la générosité et à l’équité au-delà du joueur humain médian, en particulier dans le jeu du dictateur, le jeu de l’ultimatum, le jeu de la confiance et le jeu des biens publics. Ce comportement suggère une préférence sous-jacente pour des résultats équitables, contrastant avec les stratégies souvent d’auto-maximisation observées chez les participants humains. De plus, les décisions stratégiques de l’IA dans The Prisoner’s Dilemma et d’autres jeux reflétaient une compréhension complexe de la coopération et de la confiance, optant fréquemment pour des stratégies coopératives qui s’écartent de la norme humaine.
Ils ont également exploré le comportement des chatbots dans des conditions variées, révélant que le cadrage et le contexte influencent de manière significative les décisions de l’IA, à l’instar des changements de comportement humain dans des scénarios similaires. Par exemple, lorsqu’ils sont invités à envisager la présence d’un observateur ou à assumer un rôle professionnel spécifique, les chatbots ajustent leurs stratégies, indiquant une réactivité sophistiquée aux signaux contextuels.
De plus, l’étude a mis en évidence la capacité des IA à « apprendre » de l’expérience, avec une exposition préalable à différents rôles de jeu affectant la prise de décision ultérieure. Cette adaptation suggère une forme d’apprentissage expérientiel au sein de l’IA, reflétant les tendances humaines à ajuster leur comportement en fonction des interactions passées.
Conclusions
Pour résumer, la recherche explore les similitudes comportementales de l’IA avec les humains, en notant en particulier l’apprentissage, l’altruisme et la coopération de type humain de ChatGPT-4, suggérant l’adéquation de l’IA aux rôles nécessitant de tels traits. Cependant, son comportement cohérent suscite des inquiétudes quant à la diversité dans la prise de décision en matière d’IA. L’étude offre une nouvelle référence pour évaluer l’IA, indiquant que l’IA formée sur des données humaines peut présenter de vastes comportements semblables à ceux des humains. Les travaux futurs devraient se concentrer sur l’élargissement de la diversité des comparaisons humaines et des scénarios de test afin de comprendre pleinement le potentiel de l’IA à compléter les capacités humaines.