Dans une étude récente publiée dans Scientific Reports, les chercheurs ont développé un modèle de prédiction des maladies cardiaques basé sur l'apprentissage automatique (ML-HDPM) qui utilise diverses combinaisons d'informations et de nombreuses méthodes de catégorisation reconnues.
Étude: Évaluation complète et analyse des performances de l'apprentissage automatique dans la prévision des maladies cardiaques. Crédit d’image : Summit Art Creations/Shutterstock.com
Sommaire
Arrière-plan
Les maladies cardiaques constituent un risque pour la santé mondial que les professionnels de la santé doivent évaluer et traiter à l’aide d’examens médicaux, de techniques d’imagerie avancées et de procédures de diagnostic. La promotion de pratiques saines pour le cœur et d’un diagnostic précoce peut contribuer à minimiser l’incidence des maladies cardiovasculaires et à améliorer la santé globale.
Les approches actuelles telles que l’apprentissage automatique, l’apprentissage profond et la collecte de données basées sur des capteurs produisent des résultats prometteurs mais présentent des limites telles qu’une précision diagnostique inégale et un surapprentissage.
Les approches proposées utilisent une technologie moderne et des procédures de sélection de caractéristiques pour améliorer le diagnostic et le pronostic des maladies cardiaques.
À propos de l'étude
Dans la présente étude, les chercheurs ont construit le modèle ML-HDPM pour une prévision précise des maladies cardiaques.
Les chercheurs ont utilisé la base de données de Cleveland, la base de données suisse, la base de données Long Beach et la base de données hongroise pour obtenir des données cardiovasculaires. Ils ont prétraité les données cliniques, suivies de la sélection des caractéristiques, de l'extraction des caractéristiques, du suréchantillonnage par cluster et de la classification.
Ils ont utilisé des données de formation pour adapter le modèle à l'ensemble de fonctionnalités, calculer les scores d'importance et supprimer les scores de fonctionnalités les plus bas pour obtenir la fonctionnalité souhaitée.
L'algorithme génétique (GA) comprenait l'initialisation, la sélection, le croisement et la mutation de la population pour déterminer si le critère de terminaison était satisfait.
Les chercheurs ont sous-échantillonné des échantillons de données brutes avec des étiquettes majoritaires et des échantillons regroupés avec des étiquettes minoritaires pour fusionner l'ensemble de formation et effectuer un suréchantillonnage synthétique minoritaire (SMOTE) pour générer la sortie du modèle.
Le modèle sélectionne les caractéristiques pertinentes à l'aide de la méthode d'élimination récursive des caractéristiques (RFEM) et de l'algorithme génétique (GA), ce qui améliore la résilience du modèle. Des techniques telles que la technique de sous-échantillonnage, de clustering et de suréchantillonnage (USCOM) corrigent les déséquilibres de données.
La tâche de classification utilise des réseaux neuronaux à convolution profonde à plusieurs couches (MLDCNN) et la méthode adaptative d'optimisation des troupeaux d'éléphants (AEHOM).
Les classificateurs modèles étaient l'analyse en composantes principales (ACP), la machine à vecteurs de support (SVM), l'analyse discriminante linéaire (LDA), l'arbre de décision (DT), la forêt aléatoire (RF) et le Bayes naïf (NB).
Le modèle combine une sélection infinie supervisée de fonctionnalités avec un algorithme de forêt aléatoire pondéré amélioré. L'étape de prétraitement ML-HDPM garantit l'intégrité des données et l'efficacité du modèle. Une sélection étendue de fonctionnalités révèle des propriétés importantes pour la modélisation prédictive.
Une technique scalaire permet d'obtenir un effet de fonctionnalité cohérent, tandis que SMOTE corrige le déséquilibre des classes. L'algorithme génétique utilise les principes de sélection naturelle pour générer plusieurs solutions en une seule génération.
Les performances de la stratégie sont évaluées via des tests simulés et comparées aux modèles existants. Les ensembles de données de test, de formation et de validation comprenaient respectivement 80 %, 10 % et 10 % de données.
Résultats
ML-HDPM a obtenu des résultats admirables sur un large éventail de critères d'évaluation critiques, comme en témoigne l'examen complet. À l’aide de données d’entraînement, le modèle ML-HDPM a prédit les maladies cardiovasculaires avec une précision de 96 % et une précision de 95 %.
La sensibilité (rappel) du système a donné une précision de 96 %, tandis que les scores F de 92 % reflétaient ses performances équilibrées. La spécificité ML-HDPM de 90 % est remarquable.
ML-HDPM fournit des résultats précis et fiables. Il intègre des technologies complexes telles que la sélection de fonctionnalités, l'équilibre des données, l'apprentissage en profondeur et l'optimisation adaptative de l'élevage des éléphants (AEHOM). Ces stratégies permettent au modèle de prévoir de manière fiable les maladies cardiaques, ce qui améliore les décisions cliniques et les résultats pour les patients.
ML-HDPM surpasse les autres algorithmes en termes de formation (95 %) et de tests (88 %). Le succès est dû à la combinaison de l’extraction de fonctionnalités complexes, des corrections de déséquilibre des données et de l’apprentissage automatique.
Les algorithmes de sélection de caractéristiques permettent de trouver des qualités significatives associées à la santé cardiovasculaire, leur permettant ainsi de détecter des modèles subtils révélateurs d'une maladie cardiovasculaire.
La correction des données à l'aide de techniques efficaces d'équilibrage des données garantit la formation du modèle sur des ensembles de données représentatifs, y compris l'apprentissage en profondeur utilisant l'approche MLDCNN et l'optimisation AEHOM pour améliorer la précision du modèle.
ML-HDPM, un modèle d'apprentissage en profondeur, présente des taux de faux positifs (FPR) inférieurs lors de la formation (8,20 %) et des tests (15 %) par rapport aux autres approches en raison de la sélection de fonctionnalités, de l'équilibre des données et des composants d'apprentissage automatique améliorés dans ML-HDPM. .
Le modèle présentait des taux de vrais positifs (TPR) élevés dans les ensembles de données de formation (96 %) et de test (91 %) en raison de l'identification des fonctionnalités, de l'équilibre des données et des améliorations de l'apprentissage en profondeur. Cette approche améliore la capacité du modèle à identifier les vrais points positifs.
Conclusion
L'étude présente une approche ML-HDPM unique qui intègre des sélections de fonctionnalités, un équilibre des données et un apprentissage automatique pour améliorer la prévision des maladies cardiovasculaires.
Les valeurs F équilibrées pour l’exactitude et le rappel, les taux d’exactitude et de précision élevés et les faibles taux de faux positifs dans les ensembles de données de formation et de test mettent en évidence le potentiel prometteur du modèle dans les applications de diagnostic cardiovasculaire.
Les résultats indiquent que le modèle ML-HDPM peut augmenter la précision et la rapidité d’identification des maladies cardiovasculaires, améliorant ainsi la qualité des soins.
Cependant, des recherches plus approfondies sont nécessaires pour améliorer l'optimisation du modèle et la qualité des données, ainsi que pour étudier son utilisation par les professionnels de la santé dans des contextes réels.