Lubke GH, Laurin C, Walters R, Eriksson N, Hysi P, Spector TD, Montgomery GW, Martin NG, Medland SE et Boomsma DI
En règle générale, les études d'association pangénomique consistent à régresser le phénotype sur chaque SNP séparément à l'aide d'un modèle génétique additif. Bien qu'il existe des modèles statistiques pour les interactions récessives, dominantes, SNP-SNP ou SNP-environnement, la charge de travail des tests rend l'évaluation de tous les effets possibles peu pratique pour les données pangénomiques. Nous préconisons une approche en deux étapes où la première étape consiste en un filtre sensible aux différents types d'effets principaux et d'interactions des SNP. L'objectif est de réduire considérablement le nombre de SNP de sorte qu'une modélisation plus spécifique devienne possible dans une deuxième étape. Nous fournissons une évaluation d'une méthode d'apprentissage statistique appelée «gradient boosting machine» (GBM) qui peut être utilisée comme filtre. La GBM ne nécessite pas de spécification a priori d'un modèle génétique et permet l'inclusion d'un grand nombre de covariables. La GBM peut donc être utilisée pour explorer plusieurs interactions GxE, ce qui ne serait pas possible dans le cadre paramétrique utilisé dans GWAS. Nous montrons dans une simulation que le GBM se comporte bien même dans des conditions favorables au modèle de régression additive standard couramment utilisé dans les GWAS, et est sensible à la détection d'effets d'interaction même si l'une des variables en interaction a un effet principal nul. Ce dernier ne serait pas détecté dans les GWAS. Notre évaluation est accompagnée d'une analyse de données empiriques concernant la morphologie des cheveux. Nous estimons la variance phénotypique expliquée par un nombre croissant de SNP de rang élevé, et montrons qu'il suffit de sélectionner 10 000 à 20 000 SNP dans la première étape d'une approche en deux étapes.