David K. Crockett, Stephen R. Piccolo, Scott P. Narus, Joyce A. Mitchell et Julio C. Facelli
Bien que de nombreuses mutations signalées dans l'oncogène RET aient été directement associées au carcinome thyroïdien héréditaire, d'autres mutations sont qualifiées de variantes génétiques incertaines car elles n'ont pas été clairement associées à un phénotype clinique. Le processus de détermination de la gravité d'une mutation est coûteux et prend du temps. Les outils et méthodes informatiques peuvent aider à combler cet écart génotype-phénotype. Dans ce but, des algorithmes de classification par apprentissage automatique ont été évalués pour leur capacité à distinguer les variantes bénignes et pathogènes du gène RET, caractérisées par des différences dans les valeurs des propriétés physicochimiques du résidu présent dans le type sauvage et celui de la séquence mutée. Des algorithmes représentatifs ont été choisis parmi différentes catégories de techniques de classification par apprentissage automatique, notamment les règles, les bayéses et la régression, le voisin le plus proche, les machines à vecteurs de support et les arbres. Les modèles d'apprentissage automatique ont ensuite été comparés à des techniques bien établies utilisées pour la prédiction de la gravité des mutations. La classification par apprentissage automatique peut être utilisée pour prédire avec précision le statut de mutation RET en utilisant uniquement les informations de séquence primaire. Les algorithmes existants basés sur l’homologie de séquence (conservation des orthologues) ou sur les données structurelles des protéines ne sont pas nécessairement supérieurs.