Tecniche di fattorizzazione matriciale per data fusion di dati biomedici

Demartini, Andrea

In the last few years many fields have experienced an incredible growth of the amount of data collected and exploited for different types of analysis. This is particularly true for the biomedical area, where information characterized by heterogeneous nature is nowadays available for many purposes. However, extracting new knowledge by simply combining multiple raw measures can be a challenging task, which requires the definition of novel strategies and the development of specific tools. In fact, these data are often noisy, heterogeneous, and difficult to integrate, requiring heavy pre-processing operations. However, the availability of such a big amount of public data has stimulated the development of proper learning strategies aimed at integrating different kinds of information. This operation is commonly known as data fusion. This work is focused on a particular class of data fusion techniques, based on matrix factorization methods. These ones have been developed and successfully applied in the field of recommender systems, with the objective of predicting in an accurate way the tastes of specific users towards specific products. Thanks to their ability of performing a dimensionality reduction, they are able to highlight latent structures hidden in the data. This property is crucial in case of large and sparse datasets, which represents a common situation in the biomedical field. These matrix factorization techniques can be integrated in a traditional machine learning framework. This is the case of Factorization Machines models, extensions of common classification and regression methods but able to effectively incorporate interactions between the input variables, thanks to the usage of matrix decomposition. In this way, these methods can exploit and reveal synergic relations between the measured features. Other methods, still based on matrix factorization, can be directly employed to perform data fusion. In this dissertation two of them are presented: the recently published Tri-factorization method and a newly developed method based on a Bayesian probabilistic factorization. Both these techniques require the input data to be expressed in form of relation matrices, one for each type of modeled interaction. Multiple relations must involve the same objects, in order to propagate the information across the different data sources. The methods operate a joint decomposition of all the input matrices, summarizing the related information in low dimensional vectors. Once computed, these vectors can be manipulated in order to investigate new interesting pairwise associations between different types of objects. In this thesis, the application of two of those techniques, the Tri-factorization method and the Factorization Machines, is presented. Regarding the Tri-factorization method, it has been applied to a set of different types of data within the context of the myelodysplastic syndromes. Five types of objects, and their related associations, were included in the model: patients, mutations, genes, diseases and pathways. The aim of the work was to point out novel interesting gene-gene interactions associated with the studied pathology. The second case study, instead, is focused on the application of a Factorization Machines model to a set of data referring to patients affected by acute myeloid leukemia. The classification algorithm has been trained to predict the severity of the disease on the basis of some personal data and including in the model the set of mutations identified for each patient. Also in this case, particular attention was given to the analysis of the interactions between mutated genes. For both the case studies, promising results were obtained, suggesting the capability of these methods to effectively exploit all the available information in order to detect non-trivial associations.

Negli ultimi anni, in molti settori si è assistito ad un’incredibile crescita della quantità di dati raccolti e sfruttati per diversi tipi di analisi. Questo è particolarmente vero per l’ambito biomedico, dove informazioni caratterizzate da una natura eterogenea sono oggigiorno disponibili per diversi scopi. Estrarre nuova conoscenza combinando molteplici dati grezzi può essere un compito impegnativo, che richiede la definizione di nuove strategie e lo sviluppo di specifici strumenti. Infatti, questi dati sono spesso rumorosi, eterogenei a difficili da integrare, richiedendo così intense operazioni di pre-processing. La disponibilità di una così grande quantità di dati pubblici ha stimolato lo sviluppo di opportune strategie di apprendimento finalizzate all’integrazione di diversi tipi di informazione. Questa operazione è comunemente nota come data fusion. Questo lavoro è incentrato su una particolare classe di tecniche di data fusion, basate su metodi di fattorizzazione matriciale. Questi sono stati sviluppati e applicati con successo nell’ambito dei recommender system, con l’obbiettivo di predire in modo accurato i gusti di specifici utenti nei confronti di specifici prodotti. Grazie alla loro abilità di eseguire una riduzione della dimensioni del problema, sono in grado di evidenziare strutture latenti nascoste nei dati. Queste tecniche di fattorizzazione matriciale possono essere integrate in un contesto di machine learning tradizionale. Questo è il caso dei modelli di Factorization Machine, estensioni di metodi comuni di classificazione e regressione ma in grado di incorporare efficacemente le interazioni tra le variabili di input grazie all’utilizzo di una decomposizione matriciale. In questo modo, questi metodi possono sfruttare e rivelare relazioni sinergiche tra le proprietà misurate. Altri metodi possono essere direttamente impiegati per eseguire una data fusion. In questa dissertazione due di essi sono presentati: il metodo di Tri-fattorizzazione recentemente pubblicato e un metodo di nuova concezione basato su una fattorizzazione probabilistica Bayesiana. Entrambe queste tecniche richiedono che i dati di input siano espressi in forma di matrici relazionali, una per ciascun tipo di interazione modellizzata. Relazioni multiple devono coinvolgere gli stessi oggetti, al fine di propagare l’informazione tra le diverse sorgenti di dati. I metodi operano una decomposizione congiunta di tutte le matrici di input, riassumendo le relative informazioni in vettori di dimensione ridotta. Una volta calcolati, questi vettori possono essere manipolati al fine di ricercare nuove interessanti associazioni tra coppie di diversi tipi di oggetti. In questa tesi, viene presentata l’applicazione di due di queste tecniche, il metodo di Tri-fattorizzazione e le Factorization Machine. Per quanto riguarda il primo, è stato applicato a un insieme di diversi tipi di dati nell’ambito delle sindromi mielodisplastiche. Cinque tipi di oggetti e le loro relative associazioni sono state inclusi nel modello: pazienti, mutazioni, geni, malattie e processi biologici. Lo scopo del lavoro era di rivelare nuove interessanti interazioni gene-gene associate con la patologia in esame. Il secondo caso di studio, invece, è incentrato sull’applicazione di un modello di Factorization Machine a un insieme di dati relativi a pazienti affetti da leucemia mieloide acuta. L’algoritmo di classificazione è stato addestrato per predire la gravità della malattia sulla base di alcuni dati personali e includendo nel modello un insieme di mutazioni identificate per ciascun paziente. Anche in questo caso, particolare attenzione è stata data all’analisi delle interazioni tra geni mutati. Per entrambe i casi di studio sono stati ottenuti risultati promettenti, suggerendo la capacità di questi metodi di sfruttare efficacemente tutta l’informazione a disposizione al fine di individuare associazioni non banali