Quiconque attend les résultats d’un examen médical connaît la question anxieuse : « Est-ce que ma vie changera complètement quand je le saurai ? Et le soulagement si vous testez négatif.
De nos jours, l’intelligence artificielle (IA) est de plus en plus déployée pour prédire les maladies mortelles. Mais il reste un grand défi à relever pour que les algorithmes d’apprentissage automatique (ML) soient suffisamment précis. Plus précisément, faire en sorte que les algorithmes diagnostiquent correctement si quelqu’un est malade.
L’apprentissage automatique (ML) est la branche de l’IA où les algorithmes apprennent à partir d’ensembles de données et deviennent plus intelligents dans le processus.
Disons qu’il existe un ensemble de données sur une maladie grave. L’ensemble de données comprend 90 personnes qui n’ont pas la maladie. Mais 10 des personnes ont la maladie. »
Dr Ibomoiye Domor Mienye. Mienye, chercheuse post-doctorale en IA. Université de Johannesburg (UJ)
« À titre d’exemple, un algorithme de ML dit que les 90 n’ont pas la maladie. C’est correct jusqu’à présent. Mais il ne parvient pas à diagnostiquer les 10 qui ont la maladie. L’algorithme est toujours considéré comme précis à 90 % », dit-il. .
C’est parce que la précision a été définie de cette manière. Mais pour les résultats de santé, il peut être urgent de diagnostiquer les 10 personnes atteintes de la maladie et de les faire suivre un traitement. Cela peut être plus important que l’exactitude complète des 90 qui n’ont pas la condition, ajoute-t-il.
Sommaire
Pénalités contre l’IA
Dans une étude publiée dans Informatique en médecine débloqué, Mienye et le professeur Yanxia Sun montrent comment les algorithmes de ML peuvent être considérablement améliorés à des fins médicales. Ils ont utilisé des algorithmes de régression logistique, d’arbre de décision, XGBoost et de forêt aléatoire.
Ce sont des algorithmes de classification binaire supervisés. Cela signifie qu’ils n’apprennent que des ensembles de données « oui/non » qui leur sont fournis.
Le Dr Mienye et le professeur Sun sont tous deux du département des sciences électriques et de l’ingénierie de l’UJ.
Les chercheurs ont intégré une sensibilité aux coûts dans chacun des algorithmes.
Cela signifie que l’algorithme reçoit une pénalité beaucoup plus importante pour avoir dit à une personne malade dans l’ensemble de données qu’elle est en bonne santé, que l’inverse. En termes médicaux, les algorithmes obtiennent des pénalités plus importantes pour les faux négatifs que pour les faux positifs.
Ensembles de données sur les maladies dont l’IA apprend
Le Dr Mienye et le professeur Sun ont utilisé des ensembles de données d’apprentissage public pour le diabète, le cancer du sein, le cancer du col de l’utérus (858 enregistrements) et les maladies rénales chroniques (400 enregistrements).
Les ensembles de données proviennent de grands hôpitaux ou de programmes de soins de santé. Dans ces ensembles de données binaires, les personnes sont classées soit comme ayant une maladie, soit comme n’en ayant pas du tout.
Les algorithmes qu’ils ont utilisés sont également binaires. Ceux-ci peuvent dire « oui la personne a la maladie » ou « non, elle ne l’a pas ». Ils ont testé tous les algorithmes sur chaque ensemble de données, à la fois sans et avec la sensibilité aux coûts.
Précision et rappel considérablement améliorés
Les résultats montrent clairement que les pénalités fonctionnent comme prévu dans ces ensembles de données.
Pour les maladies rénales chroniques, par exemple, l’algorithme Random Forest avait une précision de 0,972 et un rappel de 0,946, sur un parfait 1 000.
Après l’ajout de la sensibilité aux coûts, l’algorithme s’est considérablement amélioré pour atteindre une précision de 0,990 et un rappel parfait de 1 000.
Pour CKD, le rappel des trois autres algorithmes est passé de scores élevés à un parfait 1.000.
La précision à 1.000 signifie que l’algorithme n’a pas prédit un ou plusieurs faux points positifs sur l’ensemble de l’ensemble de données. Rappel à 1.000 signifie que l’algorithme n’a pas prédit un ou plusieurs faux négatifs sur l’ensemble de l’ensemble de données.
Avec les autres ensembles de données, les résultats étaient différents pour différents algorithmes.
Pour le cancer du col de l’utérus, les algorithmes Random Forest et XGBoost sensibles aux coûts sont passés de scores élevés à une précision et un rappel parfaits. Cependant, les algorithmes de régression logistique et d’arbre de décision se sont améliorés pour atteindre des scores beaucoup plus élevés, mais n’ont pas atteint 1 000.
Le problème de la précision
En général, les algorithmes ont été plus précis pour dire que les gens n’ont pas de maladie que pour identifier ceux qui sont malades, explique Mienye. Il s’agit d’un défi permanent dans le domaine de l’IA dans le domaine de la santé.
La raison est la façon dont les algorithmes apprennent. Les algorithmes apprennent à partir d’ensembles de données provenant de grands hôpitaux ou de programmes de santé publics.
Mais la plupart des personnes dans ces ensembles de données n’ont pas les conditions pour lesquelles elles sont testées, explique Mienye.
« Dans un grand hôpital, une personne vient se faire tester pour une maladie rénale chronique (IRC). Leur médecin l’a envoyée là-bas parce que certains de leurs symptômes sont des symptômes d’IRC. Le médecin aimerait écarter l’IRC. Il s’avère que la personne ne pas d’IRC.
« Cela arrive avec beaucoup de gens. L’ensemble de données se retrouve avec plus de personnes qui n’ont pas d’IRC que de personnes qui en ont. Nous appelons cela un ensemble de données déséquilibré. »
Lorsqu’un algorithme commence à apprendre à partir de l’ensemble de données, il en apprend beaucoup moins sur l’IRC qu’il ne le devrait et n’est pas assez précis pour diagnostiquer les patients malades, à moins que l’algorithme ne soit ajusté pour le déséquilibre.
L’IA de l’autre côté d’une promenade en bateau
Mienye a grandi dans un village près de l’océan Atlantique, qui n’est pas accessible par la route.
« Vous devez utiliser un hors-bord de la ville la plus proche pour vous y rendre. Le trajet en bateau prend deux à trois heures », dit-il.
La clinique la plus proche se trouve dans la plus grande ville, de l’autre côté de la promenade en bateau.
Le milieu rural profond de son village natal l’a inspiré à voir comment l’IA peut aider les personnes ayant peu ou pas d’accès aux soins de santé.
Une vieille dame de son village est un bon exemple de la façon dont des algorithmes d’IA plus avancés peuvent aider à l’avenir, dit-il. Un algorithme de ML multiclasse sensible aux coûts pourrait évaluer les données mesurées pour sa tension artérielle, son taux de sodium, sa glycémie, etc.
Si ses données sont enregistrées correctement sur un ordinateur et que l’algorithme apprend à partir d’un ensemble de données multiclasses, cette future IA pourrait indiquer au personnel de la clinique à quel stade de la maladie rénale chronique elle se trouve.
Ce scénario de village est cependant dans le futur.
Pendant ce temps, les quatre algorithmes de l’étude avec sensibilité aux coûts sont beaucoup plus précis pour diagnostiquer la maladie dans leurs ensembles de données numériques.
Et ils apprennent rapidement, en utilisant l’ordinateur ordinaire que l’on pourrait s’attendre à trouver dans une ville éloignée.