Sudeshna Guha Neogi, Maria Krestyaninova, Misha Kapushesky, Ibrahim Emam, Alvis Brazma, Ugis Sarkans
La gamme de diverses technologies « omiques » pour mesurer les propriétés des entités biomoléculaires (par exemple, les transcriptions, les protéines, les métabolites) dans des échantillons biologiques de manière à haut débit continue de s'élargir. Des systèmes d'information permettant une exploration intégrative des résultats de telles expériences sont nécessaires. Nous avons développé un système, MoDa (Molecular Data warehouse), qui fournit un cadre unifié pour la recherche et la visualisation des résultats de diverses techniques expérimentales de biologie moléculaire. L'architecture de l'entrepôt est optimisée pour divers types de filtrage et d'interrogation des annotations d'échantillons, des résultats expérimentaux et des propriétés des gènes et d'autres entités moléculaires. La mise en œuvre est basée sur la technologie BioMart, avec des moyens améliorés pour manipuler des données multidimensionnelles. L'interface utilisateur est une application Web. Une considération importante pour chaque projet d'entreposage de données est l'acquisition et le nettoyage des données. Pour garantir que les données téléchargées dans l'entrepôt sont cohérentes et suffisamment bien annotées pour des analyses statistiques ultérieures, nous avons mis en place un référentiel pour les données d'échantillons et de sujets de recherche, les métadonnées expérimentales et les résultats expérimentaux. Un pipeline de réannotation de gènes a été utilisé pour fournir un système de référence uniforme pour les données collectées selon la dimension bioentité (« gène »). Nous espérons que l'infrastructure d'entreposage de données développée pourra être utile pour les projets collaboratifs utilisant des technologies de biologie moléculaire à haut débit.