La méthode d’analyse la plus courante en génétique des populations est profondément défectueuse, selon une nouvelle étude de l’Université de Lund en Suède. Cela peut avoir conduit à des résultats incorrects et à des idées fausses sur l’ethnicité et les relations génétiques. La méthode a été utilisée dans des centaines de milliers d’études, affectant les résultats de la génétique médicale et même des tests d’ascendance commerciaux. L’étude est publiée dans Rapports scientifiques.
Le rythme auquel les données scientifiques peuvent être collectées augmente de manière exponentielle, ce qui conduit à des ensembles de données massifs et très complexes, surnommés la « révolution du Big Data ». Pour rendre ces données plus gérables, les chercheurs utilisent des méthodes statistiques qui visent à compacter et à simplifier les données tout en conservant la plupart des informations clés. La méthode la plus largement utilisée est peut-être appelée PCA (analyse en composantes principales). Par analogie, considérez PCA comme un four avec de la farine, du sucre et des œufs comme données d’entrée. Le four peut toujours faire la même chose, mais le résultat, un gâteau, dépend essentiellement des proportions des ingrédients et de la façon dont ils sont combinés.
On s’attend à ce que cette méthode donne des résultats corrects car elle est si fréquemment utilisée. Mais ce n’est ni une garantie de fiabilité ni des conclusions statistiquement robustes. »
Dr Eran Elhaik, professeur agrégé en biologie cellulaire moléculaire à l’Université de Lund
Selon Elhaik, la méthode a contribué à créer de vieilles perceptions sur la race et l’ethnicité. Il joue un rôle dans la fabrication de récits historiques sur qui et d’où viennent les gens, non seulement par la communauté scientifique mais aussi par des sociétés commerciales d’ascendance. Un exemple célèbre est celui où un éminent politicien américain a passé un test d’ascendance avant la campagne présidentielle de 2020 pour soutenir ses revendications ancestrales. Un autre exemple est l’idée fausse des Juifs ashkénazes comme une race ou un groupe isolé motivé par les résultats de l’APC.
« Cette étude démontre que ces résultats n’étaient pas fiables », déclare Eran Elhaik.
L’ACP est utilisée dans de nombreux domaines scientifiques, mais l’étude d’Elhaik se concentre sur son utilisation en génétique des populations, où l’explosion de la taille des ensembles de données est particulièrement aiguë, en raison des coûts réduits du séquençage de l’ADN.
Le domaine de la paléogénomique, où nous voulons en savoir plus sur les peuples et les individus anciens tels que les Européens de l’âge du cuivre, s’appuie fortement sur l’ACP. L’ACP est utilisée pour créer une carte génétique qui positionne l’échantillon inconnu aux côtés d’échantillons de référence connus. Jusqu’à présent, les échantillons inconnus ont été supposés être liés à la population de référence avec laquelle ils se chevauchent ou se trouvent le plus près sur la carte.
Cependant, Elhaik a découvert que l’échantillon inconnu pouvait être amené à se trouver à proximité de pratiquement n’importe quelle population de référence simplement en changeant les nombres et les types des échantillons de référence (voir illustration), générant des versions historiques pratiquement infinies, toutes mathématiquement « correctes », mais une seule. peut être biologiquement correct.