Zintegrowany serwis bioinformatyczny do analizy białek. Przewidywanie domen i miejsc pozbawionych struktury trzeciorzędowej

Abstract
Przewidywanie właściwości białek (np. struktury drugorzędowej, dostępności reszt dla rozpuszczalnika, helis transbłonowych) na podstawie sekwencji jest bardzo ważnym problemem biologii obliczeniowej. Obecnie istnieje wiele programów, jednak specyficzne wymagania instalacyjne, różna forma danych wejściowych i wyjściowych utrudniają znacząco interpretację wyników. Głowna część rozprawy opisuje metaserwer GeneSilico. Serwis ten pozwala na uruchomienie ponad 100 narzędzi bioinformatycznych i prezentuje wyniki w prostej, intuicyjnej formie. Pod kątem algorytmicznym, główny nacisk położono na przewidywanie regionów wewnętrznie nieuporządkowanych oraz domen w białkach. Pierwszy z problemów rozwiązano za pomocą meta-metodologii, według której mając co najmniej dwie metody możliwe jest stworzenie nowej metody łącząc dwie pierwsze. Główną trudnością tutaj jest integracja wyników pierwotnych metod w taki sposób, aby wzmocnić przewidywania prawdziwe obniżając przewidywania fałszywe jednocześnie. W tym celu wykorzystano algorytm genetyczny. Prezentowany program GeneSilico MetaDisorder wykorzystuje 13 innych programów do przewidywania regionów wewnętrznie nieuporządkowanych, 6 programów do rozpoznawania zwoju oraz dwa programy przewidujące strukturę drugorzędową. Program przetestowano w czasie eksperymentów CASP (ang. Critical Assessment of protein Structure Prediction), w roku 2008 i 2010 GeneSilico MetaDisorder został sklasyfikowany jako najlepszy tego typu program pokonując ponad 20 innych programów. Drugi z problemów, tj. przewidywanie domen białkowych, został rozwiązany za pomocą uczenia maszynowego (maszyna wektorów nośnych), które jako cechy wejściowe bierze typ i względne położenie aminokwasu, entropię Shannona, hydrofobowość, przewidywane kontakty między resztami, regiony wewnętrznie nieuporządkowane, strukturę drugorzędową oraz dostępność reszt dla rozpuszczalnika. Dodatkowo, algorytm uwzględnia informacje dotyczące domen w homologicznych białkach. Ostatecznie program ma ponad 81% skuteczność. Ponadto, w celu przetestowania prezentowanych metod na biologicznie istotnym przykładzie przeprowadzono szczegółową analizę ludzkich białek odpowiedzialnych za modyfikację końca 3ʹ mRNA. Wykazała ona m.in., że ponad 51% reszt aminokwasowych klasyfikowanych jest jako wewnętrznie nieuporządkowane (dla porównania średnia dla genomu ludzkiego wynosi 21%) oraz, że 44% reszt przynależy do obszarów domenowych homologicznych do domen w bazie PFAM. Ponadto, zbudowano modele strukturalne wszystkich 60 białek tworzących omawiany kompleks.

Prediction of protein features (e.g. secondary structure, solvent accessibility, transmembrane helices) from the sequence alone is a very important problem in computational biology. Currently, many programs are available, but the variability of the input and output format, specific requirements for installation etc., makes difficult to compare their results. The major part of thesis describes GeneSilico Metaserver. It is a web server enabling to run over 100 bioinformatics tools. It presents the results in simple and intuitive format. From the algorithmic point of view, the main effort was put on the predicting intrinsic disorder and domains in proteins. The first problem was solved by meta-methodology approach which states that having at least two programs, it is possible to construct new, better method by integrating primary methods. The main difficulty here is to combine the results from external programs as it elevates positives and decrease negatives. For this purpose, genetic algorithm was used. The method, called GeneSilico MetaDisorder, is using 13 disorder predictors, 6 fold recognition methods and two secondary structure predictors. The method was tested during CASP experiments (in 2008 and 2010 it was classified as the best method in competition with over 20 other programs). The second problem, i.e. prediction of protein domains, was solved by machine learning (support vector machines) which takes into account type and relative location of amino acid, Shannon entropy, and hydrophobicity, prediction of residue contacts, intrinsic disorder, secondary structure and solvent accessibility. Additionally, domain information from the homologous structures was used. The program has over 81% accuracy. Additionally, to test presented methods on real example, the detailed analysis of human pre-mRNA 3'-end processing proteins was done. It showed that over 51% of residues can be predicted as being intrinsically disordered (compared to 21% for the entire human proteome). On the other side, 44% of residues can be assigned to known domains with high confidence. Moreover, comparative protein models were built for all 60 proteins forming the complex.
Description
Keywords
Citation