Curtis Davis, Karthik Kota, Venkat Baldhandapani, Wei Gong, Sahar Abubucker, Eric Becker, John Martin, Kristine M. Wylie, Radhika Khetani, Matthew E. Hudson, George M. Weinstock Weinstock et Makedonka Mitreva
Les avancées récentes dans les technologies de séquençage de nouvelle génération nécessitent des algorithmes d'alignement et des logiciels capables de suivre le rythme de la production accrue de données. Les algorithmes standard, en particulier les recherches de similarité de protéines, représentent des goulots d'étranglement importants dans les pipelines d'analyse. Pour les approches métagénomiques en particulier, il est désormais souvent nécessaire de rechercher des centaines de millions de lectures de séquences dans de grandes bases de données. Nous décrivons ici mBLAST, un algorithme de recherche accéléré pour les alignements traduits et/ou protéiques dans de grands ensembles de données basé sur l'outil de recherche d'alignement local de base (BLAST) et conservant la haute sensibilité de BLAST. Les algorithmes mBLAST atteignent une vitesse substantielle par rapport aux programmes BLASTX, TBLASTX et BLASTP du National Center for Biotechnology Information (NCBI) pour les grands ensembles de données, permettant une analyse dans des délais raisonnables sur des architectures informatiques standard. Dans cet article, l'impact de mBLAST est démontré avec des séquences provenant du microbiote d'humains en bonne santé du Human Microbiome Project. mBLAST est conçu comme un remplacement de plug-in pour BLAST pour toute étude impliquant des séquences à lecture courte et incluant une analyse à haut débit. Le logiciel mBLAST est disponible gratuitement pour les utilisateurs universitaires sur www.multicorewareinc.com.