Mingqi Wu, Monique Rijnkels et Faming Liang
En raison de sa résolution cartographique plus élevée et de ses signaux d'enrichissement ChIP plus forts, ChIP-seq tend à remplacer la technologie ChIP-chip dans l'étude des interactions protéine-ADN à l'échelle du génome, tandis que les données numériques massives ChIP-seq présentent de nouveaux défis pour les statisticiens. À ce jour, la plupart des méthodes proposées dans la littérature pour l'analyse des données ChIP-seq sont basées sur des modèles. Cependant, il est impossible de trouver un modèle unique utilisable pour tous les ensembles de données, compte tenu de la complexité des systèmes biologiques et des variations générées dans le processus de séquençage. Dans cet article, nous présentons une approche sans modèle, appelée MICS (Model-free Inference for ChIP-Seq), pour l'analyse des données ChIP-seq. MICS présente quelques avantages par rapport aux méthodes existantes : tout d'abord, MICS évite les hypothèses sur la distribution des données et conserve ainsi une puissance élevée même lorsque les hypothèses du modèle pour les données sont violées. Deuxièmement, MICS utilise une méthode basée sur la simulation pour estimer le taux de fausses découvertes. Étant donné que la méthode basée sur la simulation fonctionne indépendamment des échantillons ChIP, MICS peut fonctionner de manière robuste sur une variété d'échantillons ChIP ; elle peut produire une identification précise des régions de pic, même pour celles où l'enrichissement est faible. Troisièmement, MICS est très efficace en termes de calcul, qui ne prend que quelques secondes sur un ordinateur personnel pour un ensemble de données raisonnablement volumineux. Dans cet article, nous présentons également une méthode semi-empirique simple pour simuler des données ChIP-seq, qui permet une meilleure évaluation des performances de différentes approches pour l'analyse des données ChIP-seq. MICS est comparé à plusieurs méthodes existantes, notamment MACS, CCAT, PICS, BayesPeak et QuEST, basées sur des ensembles de données réels et simulés. Les résultats numériques indiquent que MICS peut surpasser les autres. Disponibilité : Un package R appelé MICS est disponible sur http://www.stat.tamu.edu/~mqwu.