Medicare est sporadiquement compromis par des réclamations d’assurance frauduleuses. Ces activités illicites passent souvent inaperçues, permettant à des criminels à plein temps et à des prestataires de santé sans scrupules d’exploiter les faiblesses du système. L’année dernière, la fraude annuelle estimée a dépassé 100 milliards de dollars selon la National Health Care Anti-Fraud Association, mais elle est probablement beaucoup plus élevée.
Traditionnellement, pour détecter la fraude à Medicare, un nombre limité d’auditeurs, ou enquêteurs, sont chargés d’inspecter manuellement des milliers de demandes, mais ne disposent que de suffisamment de temps pour rechercher des modèles très spécifiques indiquant des comportements suspects. De plus, il n’y a pas assez d’enquêteurs pour suivre les différents stratagèmes frauduleux de Medicare.
L’utilisation du Big Data, provenant notamment des dossiers des patients et des paiements des prestataires, est souvent considérée comme le meilleur moyen de produire des modèles d’apprentissage automatique efficaces pour détecter la fraude. Cependant, dans le domaine de la détection des fraudes à l’assurance Medicare, la gestion de données volumineuses déséquilibrées et à haute dimensionnalité – des données dans lesquelles le nombre de caractéristiques est incroyablement élevé, de sorte que les calculs deviennent extrêmement difficiles – reste un défi de taille.
Une nouvelle recherche du Collège d’ingénierie et d’informatique de la Florida Atlantic University relève ce défi en identifiant les activités frauduleuses dans la « vaste mer » de données volumineuses de Medicare. Puisque l’identification de la fraude est la première étape pour y mettre un terme, cette nouvelle technique pourrait économiser des ressources substantielles pour le système Medicare.
Pour l’étude, les chercheurs ont systématiquement testé deux grands ensembles de données déséquilibrés de Medicare, la partie B et la partie D. La partie B implique la couverture par Medicare des services médicaux tels que les visites chez le médecin, les soins ambulatoires et d’autres services médicaux non couverts par l’hospitalisation. La partie D, quant à elle, concerne les prestations de médicaments sur ordonnance de Medicare et couvre les frais de médicaments. Ces ensembles de données ont été étiquetés avec la Liste des individus et entités exclus (LEIE). Le LEIE est fourni par le Bureau de l’Inspecteur général des États-Unis.
Les chercheurs ont approfondi l’influence du sous-échantillonnage aléatoire (RUS), une technique d’échantillonnage de données simple mais efficace, et leur nouvelle technique de sélection de caractéristiques supervisée par ensemble. RUS fonctionne en supprimant de manière aléatoire des échantillons de la classe majoritaire jusqu’à ce qu’un équilibre spécifique entre les classes minoritaires et majoritaires soit atteint.
La conception expérimentale a étudié divers scénarios, allant de l’utilisation de chaque technique isolément à leur utilisation combinée. Après avoir analysé les scénarios individuels, les chercheurs ont de nouveau sélectionné les techniques qui ont donné les meilleurs résultats et ont effectué une analyse des résultats entre tous les scénarios.
Les résultats de l’étude, publiés dans le Journal du Big Data, démontrer que les techniques intelligentes de réduction des données améliorent la classification des données Big Medicare très déséquilibrées. L’application synergique des deux techniques – RUS et sélection supervisée de fonctionnalités – a surpassé les modèles qui utilisent toutes les fonctionnalités et données disponibles. Les résultats ont montré que soit la combinaison de l’utilisation de la technique de sélection de fonctionnalités suivie de RUS, soit l’utilisation de RUS suivie de la technique de sélection de fonctionnalités, donnait les meilleures performances.
Par conséquent, dans la classification de l’un ou l’autre ensemble de données, les chercheurs ont découvert qu’une technique avec la plus grande quantité de réduction de données donne également les meilleures performances, à savoir la technique consistant à effectuer une sélection de caractéristiques, puis à appliquer RUS. La réduction du nombre de fonctionnalités conduit à des modèles plus explicables et les performances sont nettement meilleures que l’utilisation de toutes les fonctionnalités.
Les performances d’un classificateur ou d’un algorithme peuvent être influencées par plusieurs effets. Deux facteurs peuvent rendre les données plus difficiles à classer : la dimensionnalité et le déséquilibre des classes. Le déséquilibre de classe dans les données étiquetées se produit lorsque l’écrasante majorité des instances de l’ensemble de données ont une étiquette particulière. Ce déséquilibre présente des obstacles, car il est possible pour un classificateur optimisé pour une mesure telle que la précision, qui qualifiera à tort les activités frauduleuses de non frauduleuses, d’améliorer les scores globaux en termes de mesure.
Taghi Khoshgoftaar, Ph.D., auteur principal et professeur Motorola, Département de génie électrique et d’informatique de la FAU
Pour la sélection des fonctionnalités, les chercheurs ont intégré une méthode de sélection de fonctionnalités supervisée basée sur des listes de classement des fonctionnalités. Par la suite, grâce à la mise en œuvre d’une approche innovante, ces listes ont été combinées pour produire un classement concluant des fonctionnalités. Pour fournir une référence, des modèles ont également été construits en utilisant toutes les fonctionnalités des ensembles de données. Lors de l’élaboration de ce classement consolidé, les fonctionnalités ont été sélectionnées en fonction de leur position dans la liste.
« Notre approche systématique a permis de mieux comprendre l’interaction entre la sélection des fonctionnalités et la robustesse du modèle dans le contexte de plusieurs algorithmes d’apprentissage », a déclaré John T. Hancock, premier auteur et titulaire d’un doctorat. étudiant au Département de génie électrique et d’informatique de la FAU. « Il est plus facile de raisonner sur la manière dont un modèle effectue des classifications lorsqu’il est construit avec moins de fonctionnalités. »
Pour les ensembles de données Medicare Part B et Part D, les chercheurs ont mené des expériences dans cinq scénarios qui ont épuisé les moyens possibles d’utiliser ou d’omettre les techniques de réduction des données RUS et de sélection de fonctionnalités. Pour les deux ensembles de données, les chercheurs ont constaté que les techniques de réduction des données amélioraient également les résultats de classification.
« Compte tenu des énormes implications financières de la fraude Medicare, les résultats de cette étude importante offrent non seulement des avantages informatiques, mais améliorent également considérablement l’efficacité des systèmes de détection de fraude », a déclaré Stella Batalama, Ph.D., doyenne du FAU College of Engineering and Computer Science. . « Ces méthodes, si elles sont correctement appliquées pour détecter et mettre fin à la fraude à l’assurance Medicare, pourraient considérablement élever le niveau des services de santé en réduisant les coûts liés à la fraude. »
Les co-auteurs de l’étude sont Huanjing Wang, Ph.D., professeur d’informatique à la Western Kentucky University ; et Qianxin Liang, titulaire d’un doctorat. étudiant au Département de génie électrique et d’informatique de la FAU.

















