Eric B. Lipsky, Brian R. King, Gérard Tromp
Les systèmes de séquençage de nouvelle génération (NGS) produisent de vastes quantités de données qui nécessitent des efforts considérables. ressources informatiques pour les tâches d'analyse typiques. De plus, les données générées par différents systèmes NGS ne sont pas homogènes. De plus, il existe un nombre impressionnant d'outils disponibles pour effectuer des tâches typiques. La gestion des flux de travail NGS implique l'écriture de scripts personnalisés qui deviennent rapidement complexes, ce qui entraîne souvent des flux de travail peu maniables qui sous-utilisent les ressources de calcul haute performance typiques et augmentent les exigences du personnel qui gère ces flux de travail. Nous présentons Node-Oriented Workflow (NOW), un moteur de flux de travail de modèle de commande dynamique pour les systèmes de calcul distribué haute performance (HPC). Notre système fournit une interface utilisateur basée sur un navigateur simple à utiliser pour la conception et la gestion de flux de travail complexes. Les flux de travail sont configurés à l'aide d'une interface de navigateur simple et sont gérés par le moteur de tâches intégré, qui initialise les nœuds, surveille l'état des nœuds et traite les résultats des tâches individuelles sur les nœuds dans une configuration HPC. Nous réduisons les messages excessifs sur les nœuds Les nœuds sont chargés de démarrer les tâches d'un flux de travail lorsque les dépendances sont respectées, c'est-à-dire un flux de travail orienté nœud. Notre système a été conçu pour le traitement NGS dans le cadre de la recherche clinique, en mettant l'accent sur la simplicité d'utilisation, l'évolutivité des outils, la minimisation de la redondance dans les flux de travail, tout en maximisant le débit dans un environnement HPC. De plus, NOW ne se limite pas à la gestion du pipeline NGS, mais peut être utilisé pour gérer n'importe quel pipeline de calcul.