Haku

Local prediction of secondary structures of proteins from viewpoints of rare structure

QR-koodi

Local prediction of secondary structures of proteins from viewpoints of rare structure

Proteiinit eli valkuaisaineet ovat elämän ja solun toiminnan kannalta keskeisiä makromolekyylejä. Valkuaisaineiden rakennetutkimus on tärkeätä, kun selvitetään proteiinien rakennetta ja toimintaa geneettisen informaation ja valikuaisaineiden rakennekomponenttien, aminohappojen, järjestäytymisen kautta. Kokeellisesti tapahtuva rakennetutkimus on kuitenkin vaikeiden ongelmien ympäröimä: atomitason rakenteiden selvittäminen on monimutkaista, siihen liittyy monenlaisia epävarmuustekijöitä ja puhtaan proteiiniaineksen hankkiminen on työlästä. Näiden ongelmien takia kokeellinen tutkimus on kallista ja hidasta. Kokeellisen tutkimuksen rinnalle on muodostonut voimakkaasti kasvava biologiseen informaatioon perustuvien menetelmien käytön tutkimus, bioinformatiikka. Tämän alan tutkimus kohtaa puolestaan väistämättä informaatioalojen perustana olevia keskeisiä kysymyksiä: mitä yleensä voidaan laskea, miten biologinen informaatio saadaan ihmisten ja tietokoneiden ymmärtämään muotoon, kuinka luotettavia tehtävät ennusteet ovat ja onko käytettävissä oleva informaation määrä riittävä. Työssäni selvitin tutkimusryhmämme saamia tuloksia sekundaarirakenteiden ennustustyössä. Tarkastelemme sekundaarirakenne-ennustamista koneoppimisen näkökulmasta.

Proteiinissa selkäranka muodostaa rakenteellisia elementtejä eli sekundaarirakenteita. Paikallinen sekundaarirakenne-ennustus perustuu lyhyen määrämittaisen sekvenssin sisältämän informaation käyttämiseen. Yksittäinen ennustus määrää sekundaarirakenteen tyypin proteiinin selkärangassa sekvenssin keskimmäisen aminohapon kohdalla. Tyypillisesti bioinformatiikan alan julkaisuissa esitellyt paikalliseen informaatioon perustuvat sekundaarirakenteiden ennustusmenetelmät ennustavat datan kolmeen luokkaan: kierteet, säikeet ja muut. Väitöskirjatutkimuksessa kysymykset kohdistuivat aluksi harvinaiseen polyproliini tyypin II sekundaarirakenteeseen ja lopulta kaikkiin tunnettuihin sekundaarirakennetyyppeihin. Täten työmme tarkastelee sekundaarirakenteiden ennustamista täysin uudesta näkökulmasta.

Määrämittaisen sekvenssidatan muodostama avaruus todetaan työssä todella vaikeasti hallittavaksi perinteisillä koneoppimismenetelmillä. Avaruudessa ei ole suuren mittakaavan organisoitumista sekundaarirakennetyyppien suhteen, vaan organisoituminen on hyvin matalalla tasolla luonnossa havaitun sekvenssin lähistöllä. Lisäksi valtava avaruus on melkein tyhjä vaikka mukana on lähes kaikki sekvenssidata, josta tämänhetkinen tiede tuntee rakenteet. Lisäksi työssäni näytetään, miksi ennustus on sitä vaikeampaa, mitä harvinaisempaa tyyppiä yritetään ennustaa. Nämä ongelmat vaikeuttavat erityisesti sekundaarirakenteiden ennustamista perinteisesti menestyksellisillä koneoppimismenetelmillä kuten esim. neuroverkoilla. Tutkimuksessa kehiteltiin ennustusmenetelmä, joka keskittyy pääosin ennustuksen varmuuden parantamiseen käyttäen paikallista organisoitumista hyväkseen. Tämän takia menetelmä tuottaa poikkeuksellisen korkeita ennustustarkkuuksia myös harvinaisille sekundaarirakennetyypeille. Työssä paneuduttiin myös neuroverkon päätöksenteon ymmärtämiseen, datan siroontumiseen muuttuja-avaruudessa sekä biologisten sekvenssien muuttamiseen numeeriseen koneen ymmärtämään muotoon hävittämättä biologisia ominaisuuksia.

Avaruuden ominaisuuksien ja datan käyttäytymisen tutkiminen auttoi myös löytämään mielenkiintoisen hypoteesin. Hypoteesin avulla voidaan ymmärtää, miten perinteisten menetelmien ennustustarkkuus muodostuu em. kolmen luokan suhteen. Puolet datasta näyttäisi sisältävän vihjeitä matalan tason organisoitumisesta. Ennustusmenetelmät löytävät helposti tämän. Loppu ennusteista menee oikein sattuman määräämässä suhteessa.

Tallennettuna: