Kaikki aineistot
Lisää
Proteiinit eli valkuaisaineet ovat elämän ja solun toiminnan kannalta keskeisiä makromolekyylejä. Valkuaisaineiden rakennetutkimus on tärkeätä, kun selvitetään proteiinien rakennetta ja toimintaa geneettisen informaation ja valikuaisaineiden rakennekomponenttien, aminohappojen, järjestäytymisen kautta. Kokeellisesti tapahtuva rakennetutkimus on kuitenkin vaikeiden ongelmien ympäröimä: atomitason rakenteiden selvittäminen on monimutkaista, siihen liittyy monenlaisia epävarmuustekijöitä ja puhtaan proteiiniaineksen hankkiminen on työlästä. Näiden ongelmien takia kokeellinen tutkimus on kallista ja hidasta. Kokeellisen tutkimuksen rinnalle on muodostonut voimakkaasti kasvava biologiseen informaatioon perustuvien menetelmien käytön tutkimus, bioinformatiikka. Tämän alan tutkimus kohtaa puolestaan väistämättä informaatioalojen perustana olevia keskeisiä kysymyksiä: mitä yleensä voidaan laskea, miten biologinen informaatio saadaan ihmisten ja tietokoneiden ymmärtämään muotoon, kuinka luotettavia tehtävät ennusteet ovat ja onko käytettävissä oleva informaation määrä riittävä. Työssäni selvitin tutkimusryhmämme saamia tuloksia sekundaarirakenteiden ennustustyössä. Tarkastelemme sekundaarirakenne-ennustamista koneoppimisen näkökulmasta. Proteiinissa selkäranka muodostaa rakenteellisia elementtejä eli sekundaarirakenteita. Paikallinen sekundaarirakenne-ennustus perustuu lyhyen määrämittaisen sekvenssin sisältämän informaation käyttämiseen. Yksittäinen ennustus määrää sekundaarirakenteen tyypin proteiinin selkärangassa sekvenssin keskimmäisen aminohapon kohdalla. Tyypillisesti bioinformatiikan alan julkaisuissa esitellyt paikalliseen informaatioon perustuvat sekundaarirakenteiden ennustusmenetelmät ennustavat datan kolmeen luokkaan: kierteet, säikeet ja muut. Väitöskirjatutkimuksessa kysymykset kohdistuivat aluksi harvinaiseen polyproliini tyypin II sekundaarirakenteeseen ja lopulta kaikkiin tunnettuihin sekundaarirakennetyyppeihin. Täten työmme tarkastelee sekundaarirakenteiden ennustamista täysin uudesta näkökulmasta. Määrämittaisen sekvenssidatan muodostama avaruus todetaan työssä todella vaikeasti hallittavaksi perinteisillä koneoppimismenetelmillä. Avaruudessa ei ole suuren mittakaavan organisoitumista sekundaarirakennetyyppien suhteen, vaan organisoituminen on hyvin matalalla tasolla luonnossa havaitun sekvenssin lähistöllä. Lisäksi valtava avaruus on melkein tyhjä vaikka mukana on lähes kaikki sekvenssidata, josta tämänhetkinen tiede tuntee rakenteet. Lisäksi työssäni näytetään, miksi ennustus on sitä vaikeampaa, mitä harvinaisempaa tyyppiä yritetään ennustaa. Nämä ongelmat vaikeuttavat erityisesti sekundaarirakenteiden ennustamista perinteisesti menestyksellisillä koneoppimismenetelmillä kuten esim. neuroverkoilla. Tutkimuksessa kehiteltiin ennustusmenetelmä, joka keskittyy pääosin ennustuksen varmuuden parantamiseen käyttäen paikallista organisoitumista hyväkseen. Tämän takia menetelmä tuottaa poikkeuksellisen korkeita ennustustarkkuuksia myös harvinaisille sekundaarirakennetyypeille. Työssä paneuduttiin myös neuroverkon päätöksenteon ymmärtämiseen, datan siroontumiseen muuttuja-avaruudessa sekä biologisten sekvenssien muuttamiseen numeeriseen koneen ymmärtämään muotoon hävittämättä biologisia ominaisuuksia. Avaruuden ominaisuuksien ja datan käyttäytymisen tutkiminen auttoi myös löytämään mielenkiintoisen hypoteesin. Hypoteesin avulla voidaan ymmärtää, miten perinteisten menetelmien ennustustarkkuus muodostuu em. kolmen luokan suhteen. Puolet datasta näyttäisi sisältävän vihjeitä matalan tason organisoitumisesta. Ennustusmenetelmät löytävät helposti tämän. Loppu ennusteista menee oikein sattuman määräämässä suhteessa.
Background The immune system, which is a complex machinery, is based on the highly coordinated expression of a wide array of genes and proteins. The evolutionary history of the human immune system is not well characterised. Although several studies related to the development and evolution of immunological processes have been published, a full-scale genome-based analysis is still missing. A database focused on the evolutionary relationships of immune related genes would contribute to and facilitate research on immunology and evolutionary biology. Results An Internet resource called ImmTree http://bioinf.uta.fi/ImmTree webcite was constructed for studying the evolution and evolutionary trees of the human immune system. ImmTree contains information about orthologs in 80 species collected from the HomoloGene, OrthoMCL and EGO databases. In addition to phylogenetic trees, the service provides data for the comparison of human-mouse ortholog pairs, including synonymous and non-synonymous mutation rates, Z values, and Ka/Ks quotients. A versatile search engine allows complex queries from the database. Currently, data is available for 847 human immune system related genes and proteins. Conclusion ImmTree provides a unique data set of genes and proteins from the human immune system, their phylogenetics, and information for comparisons of human-mouse ortholog pairs, synonymous and non-synonymous mutation rates, as well as other statistical information.
Background Cells react to changing intra- and extracellular signals by dynamically modulating complex biochemical networks. Cellular responses to extracellular signals lead to changes in gene and protein expression. Since the majority of genes encode proteins, we investigated possible correlations between protein parameters and gene expression patterns to identify proteome-wide characteristics indicative of trends common to expressed proteins. Results Numerous bioinformatics methods were used to filter and merge information regarding gene and protein annotations. A new statistical time point-oriented analysis was developed for the study of dynamic correlations in large time series data. The method was applied to investigate microarray datasets for different cell types, organisms and processes, including human B and T cell stimulation, Drosophila melanogaster life span, and Saccharomyces cerevisiae cell cycle. Conclusion We show that the properties of proteins synthesized correlate dynamically with the gene expression profile, indicating that not only is the actual identity and function of expressed proteins important for cellular responses but that several physicochemical and other protein properties correlate with gene expression as well. Gene expression correlates strongly with amino acid composition, composition- and sequence-derived variables, functional, structural, localization and gene ontology parameters. Thus, our results suggest that a dynamic relationship exists between proteome properties and gene expression in many biological systems, and therefore this relationship is fundamental to understanding cellular mechanisms in health and disease.