Tengfei Yin, Mahbubul Majumder, Niladri Roy Chowdhury, Dianne Cook, Randy Shoemaker et Michelle Graham
Dans une analyse de données de séquençage d'ARN du soja, les tests de signification initiaux effectués à l'aide d'un logiciel ont produit des listes de gènes très différentes de celles obtenues par un autre. Comment cela peut-il se produire ? Cet article montre comment les disparités entre les résultats ont été étudiées et peuvent être expliquées. Ce type de contradiction peut se produire plus généralement dans les analyses à haut débit. Pour explorer l'ajustement du modèle et les tests d'hypothèses, nous avons mis en œuvre un graphique interactif qui permet d'explorer l'effet de l'estimation de la dispersion sur l'estimation globale de la variance et les tests d'expression différentielle. De plus, nous proposons une nouvelle procédure pour tester la présence de toute structure dans les données biologiques.