Jean Armengaud, Céline Bland, Joseph Christie-Oleza et Guylaine Miotello
Il n’existe pas encore de consensus pour définir l’unité fondamentale de la diversité biologique, l’espèce, pour les procaryotes. Bien que des outils moléculaires à haut débit soient désormais disponibles pour évaluer la diversité microbienne, l’estimation du nombre total d’espèces de bactéries et d’archées sur Terre reste un défi en raison de l’énorme quantité d’espèces peu abondantes présentes dans les échantillons environnementaux. Depuis le premier génome cellulaire entier séquencé, celui d’Haemophilus influenzae en 1995, plus de sept mille génomes complets ont été rapportés. L’avalanche de séquences génomiques se traduit par une documentation exceptionnelle des représentants de nombreux taxons. Alors que l’annotation de ces génomes a gagné en précision grâce à de nouveaux outils de prédiction des gènes, la protéogénomique s’est avérée utile pour découvrir de nouveaux gènes, identifier le véritable codon d’initiation de la traduction des séquences de domaines codants et caractériser les événements de maturation au niveau protéique tels que le traitement des peptides signaux. Outre cette annotation structurelle, la protéogénomique peut également donner lieu à des informations importantes sur la fonction des protéines. La protéogénomique consiste essentiellement à obtenir des données massives de séquences protéiques au moyen de stratégies de protéomique à grande échelle et de l'utilisation de la spectrométrie de masse en tandem à haut débit. Ces données expérimentales sont ensuite utilisées pour améliorer l'annotation du génome. Des résultats inattendus tels que l'inversion de séquences de gènes chez différentes bactéries ou l'utilisation de codons de départ non canoniques pour la traduction chez les espèces de Deinococcus ne sont que quelques-unes des nombreuses corrections documentées jusqu'à présent. Aujourd'hui, l'analyse protéogénomique d'un ensemble donné de représentants couvrant entièrement l'arbre de la vie permettrait d'obtenir une meilleure base pour l'annotation précise de nouvelles souches. Cela améliorerait les études de génomique comparative et pourrait aider à évaluer de quelle manière des espèces étroitement apparentées diffèrent.