Prediction of compound solubility in Dimethyl sulfoxide using machine learning methods including
graph neural networks
Sammanfattning
Vid läkemedelsforskning är föreningar som är olösliga i dimetylsulfoxid inte
önskade och kan bortses från. För att undvika slöseri med tid och resurser
försöker läkemedelsföretag förutsäga föreningens löslighet innan man väljer
föreningar för vidare forskning. Föreningars löslighet är svårt att förutsäga
och detta projekt fokuserar på prediction med hjälp av maskininlärningsmetoder.
Det använda datasättet består av nästan 12 tusen föreningar som är märkta
lösliga eller olösliga och är mycket partiska mot lösliga föreningar. Olika
sätt att representera föreningar testas med de fyra maskininlärningsmetoderna:
Support Vector Machine, Random Forest, Multilayer Perceptron och ett
state-of-the-artgraf neuralt nätverk kallat Directed Message Passing Neural
Network. Efter att ha genomfört en femfaldig korsvalidering kan man dra slutsatsen
att ett Directed Message Passing neuralt nätverk fungerar bättre än de
andra maskininlärningsmetoderna när de tränas med klassiska representationer
av föreningar och lika bra när de tränas med föreningar som representeras
i en latent-space, avsnitt 2.1.2. Slutligen, med ett externt experiment, visas det
att det bästa Directed Message Passing neurala nätverket signifikant ökar sannorlikheten
att hitta olösliga föreningar jämfört med ett slumpmässigt urval.
|