John P Jakupciak, Jeffrey M Wells, Jeffrey S Lin et Andrew B Feldman
La préparation à la biodéfense commence par la capacité à détecter et à répondre aux menaces biologiques, en se basant sur une interprétation précise des informations génétiques avec des outils bioinformatiques sophistiqués mais faciles à utiliser. La criminalistique microbienne permet en outre d'attribuer des échantillons de pathogènes microbiens à une source suspecte. La caractérisation des échantillons et la traçabilité jusqu'à la source dépendent de l'identification du génome de cibles spécifiques au sein des échantillons, de l'analyse complète des mélanges de populations présentes et de la détection de variations majeures/mineures dans les génomes identifiés et de la comparaison du profil génétique de l'échantillon avec d'autres échantillons. Les plateformes commerciales de séquençage de nouvelle génération (NGS) offrent la promesse d'une sensibilité de détection et d'une résolution des échantillons d'ADN médico-légaux considérablement plus élevées que celles possibles avec les méthodes actuellement utilisées. Cependant, avant d'appliquer ces technologies aux analyses médico-légales d'échantillons bactériens, il est essentiel d'élucider pleinement les avantages, les réserves et les pièges du NGS pour les tests d'hypothèses dans les analyses comparatives, car cela sera finalement nécessaire pour l'utilisation du NGS à la fois comme outil d'enquête et comme outil d'attribution devant les tribunaux. Méthodes : Nous avons développé et évalué de nouveaux algorithmes probabilistes pour traiter les données de séquence métagénomique à partir du séquençage direct d'échantillons afin d'identifier les génomes présents dans des mélanges. Résultats : Nous présentons un pipeline pour des comparaisons d'échantillon à échantillon sans référence afin d'améliorer la caractérisation des cibles au-delà d'un seul micro-organisme jusqu'à la caractérisation du contenu complet de l'échantillon. Nos outils renforcent la confiance statistique pour retracer l'ascendance des échantillons et attribuer les échantillons à la source avec des certitudes probabilistes sur de nombreuses cibles au lieu d'un seul génome. Conclusion : Cette étude a développé une nouvelle stratégie bioinformatique sans référence pour prendre en compte et identifier la diversité génétique dans les échantillons. Les variantes de séquence doivent être confirmées de manière non arbitraire dans les lectures directes et inverses à un taux supérieur au niveau de bruit de fond de l'erreur de la machine du séquenceur. Une mesure de distance de similarité compare les génomes dans une gamme de relations proches. En utilisant des données de séquence provenant d'agents de biomenace, nous avons réussi à attribuer ensemble des souches apparentées connues et à exclure les relations proches de souches non apparentées connues. Les principaux atouts de cette méthode médico-légale sont les déterminations non arbitraires des paramètres de validation et de parenté des données, ainsi que la capacité de comparer les génomes microbiens avec ou sans base de données de référence de génomes apparentés.