A data fusion approach for learning transcriptional Bayesian networks in chronic leukemia

Sauta, Elisabetta

The increasing availability of omics data has caused an important paradigmatic shift in scientific research from case-based studies towards large scale data-driven research. The simultaneous interrogation of different omics levels, could help to elucidate the interrelation of previously-undetected system features or perturbations with a specific phenotype, especially in complex diseases, such as cancer. To this aim, an integrative computational approach able to deal with data heterogeneity and biological complexity may allow a deep investigation of dysregulated gene expression programs responsible of disease onset and progression mechanisms. The reconstruction of transcriptional determinants (transcription factors, TFs) regulatory patterns, which preside over the gene expression scheme could also help to gain insights into molecular signatures driving disease phenotypes, offering new research hypotheses. In this thesis, I have developed a data fusion approach focused on “multi-layered” omics data integration for modeling large-scale transcriptional background. Its framework efficiently combines a network-centric approach to reconstruct the transcriptional interactome to probabilistically inspect, on a genome-wide scale, the transcriptional regulations and the underlying regulative signatures. This work is part of the project “Rete Ematologica Lombarda (REL) biotechnology cluster for the implementation of genomic analysis and the development of innovative treatments in hematological malignancies”, which aims at establishing a reference center for the study of hematological malignancies, with focus on myeloid neoplasms. The proposed methodology has been applied to the case of a myeloid disorder, the Chronic Myeloid Leukemia (CML), whose causative genetic event is known but its emerging transcriptional altered role in disease progression has not yet been deeply investigated at a genomic level.

La crescente disponibilità di dati omici ha determinato un importante cambiamento nel paradigma della ricerca scientifica, passando da uno studio “contesto specifico” focalizzato su un singolo aspetto biologico, ad un studio su larga scala guidato dai dati. L’analisi simultanea di diversi livelli omici potrebbe aiutare a chiarire la relazione tra caratteristiche o perturbazioni del sistema molecolare non rilevate in precedenza con un fenotipo specifico, specialmente nel caso di malattie complesse, come il cancro. A tal fine, un approccio computazionale integrativo in grado di gestire l'eterogeneità dei dati e la complessità biologica può consentire un'indagine approfondita di programmi di espressione genica disregolati responsabili dei meccanismi di insorgenza e di progressione della malattia. La ricostruzione dei pattern regolatori dei fattori determinanti della trascrizione (fattori di trascrizione, TF), che presiedono allo schema di espressione genica, potrebbe anche aiutare a ottenere informazioni sulle firme molecolari che guidano i fenotipi della malattia, offrendo così nuove ipotesi di ricerca. In questa tesi è stato sviluppato un approccio di “data fusion”, incentrato sull'integrazione a più livelli di dati omici per la modellizzazione di background trascrizionali su larga scala. La sua strategia di ricerca combina efficacemente un approccio network-centrico per ricostruire l'interattoma trascrizionale con la modellizzazione offerta dalla teoria Bayesiana, ed è in grado di indagare probabilisticamente, su scala genomica, le regolazioni trascrizionali e le sottostanti firme molecolari. Questo lavoro di ricerca fa parte del progetto "Rete Ematologica Lombarda (REL) cluster biotecnologico per l'implementazione dell'analisi genomica e lo sviluppo di trattamenti innovativi nelle neoplasie ematologiche", che mira a stabilire un centro di riferimento per lo studio delle neoplasie ematologiche, con particolare attenzione alle neoplasie mieloidi. La metodologia proposta è stata infatti applicata ad un tipo di patologia mieloide, la leucemia mieloide cronica (LMC), di cui è noto l’evento genetico causale, ma l’alterato ruolo trascrizionale alla base della progressione della malattia non è stato ancora approfondito a livello genomico.