Viktor Norrsjö

Prediction of compound solubility in Dimethyl sulfoxide using machine learning methods including graph neural networks

Sammanfattning

Vid läkemedelsforskning är föreningar som är olösliga i dimetylsulfoxid inte önskade och kan bortses från. För att undvika slöseri med tid och resurser försöker läkemedelsföretag förutsäga föreningens löslighet innan man väljer föreningar för vidare forskning. Föreningars löslighet är svårt att förutsäga och detta projekt fokuserar på prediction med hjälp av maskininlärningsmetoder. Det använda datasättet består av nästan 12 tusen föreningar som är märkta lösliga eller olösliga och är mycket partiska mot lösliga föreningar. Olika sätt att representera föreningar testas med de fyra maskininlärningsmetoderna: Support Vector Machine, Random Forest, Multilayer Perceptron och ett state-of-the-artgraf neuralt nätverk kallat Directed Message Passing Neural Network. Efter att ha genomfört en femfaldig korsvalidering kan man dra slutsatsen att ett Directed Message Passing neuralt nätverk fungerar bättre än de andra maskininlärningsmetoderna när de tränas med klassiska representationer av föreningar och lika bra när de tränas med föreningar som representeras i en latent-space, avsnitt 2.1.2. Slutligen, med ett externt experiment, visas det att det bästa Directed Message Passing neurala nätverket signifikant ökar sannorlikheten att hitta olösliga föreningar jämfört med ett slumpmässigt urval.