DNA anotacija
DNA anotacija ili bilježenje genoma postupak je identificiranja mjesta gena i svih kodirajućih područja u genomu te određivanja onoga što ti geni rade. Anotacija (neovisno o kontekstu) je bilješka dodana u obliku objašnjenja ili komentara. Nakon što se genom sekvencira, potrebno ga je označiti kako bi imao smisla.[1]
DNA bilješka, koja je prethodno bila nepoznati slijed prikaz genetskog materijala, obogaćena je podacima koji se odnose na genomski položaj na intron-egzon granicama, regulatornim sekvencama, ponavljanjem, imenima gena i proizvoda proteina. Ta bilješka pohranjuje se u genskim bazama podataka, kao što su Mouse Genome Informatics, FlyBase i WormBase. Edukativni materijali o nekim aspektima biološkog bilježenja, i sličnih događaja s anotacijskog kampa Gene Ontology iz 2006. godine, dostupni su na web stranici Gene Ontology.[2]
Nacionalni centar za biomedicinsku ontologiju (www.bioontology.org) razvija alate za automatizirano bilježenje[3] zapisa baze podataka na temelju tekstualnih opisa tih zapisa.
Kao općenita metoda, dcGO[4] ima automatizirani postupak za statističko zaključivanje povezanosti između ontoloških pojmova i proteinskih domena ili kombinacija domena iz postojećih anotacija na razini gena/proteina.
Anotacija genoma sastoji se od tri glavna koraka:.[5]
- identificiranje dijelova genoma koji ne kodiraju proteine
- identificiranje elemenata na genomu, proces koji se naziva predviđanje gena
- dodavanje bioloških informacija tim elementima
Alati za pokušaj automatske anotacije pokušavaju izvesti te korake pomoću računalne analize, za razliku od ručnih zabilješki (kuracija) koje uključuju ljudsku stručnost. U idealnom slučaju, ti pristupi koegzistiraju i međusobno se nadopunjuju u istom nizu anotacija.
Jednostavna metoda bilježenja gena oslanja se na alate za pretraživanje temeljene na homologiji, poput BLAST-a, u potrazi za homolognim genima u određenim bazama podataka; dobivene informacije se zatim koriste za označavanje gena i genoma.[6] Međutim, kako se informacije dodaju na platformu anotacija, ručni bilježnici postaju sposobni dekonvolitirati odstupanja između gena kojima je dana ista anotacija. Neke baze podataka koriste informacije o kontekstu genoma, rezultate sličnosti, eksperimentalne podatke i integracije drugih resursa za pružanje anotacija o genomu kroz svoj Pristup podsustavima. Ostale baze podataka (npr. Ensembl ) oslanjaju se na izabrane izvore podataka kao i niz različitih softverskih alata u svom automatiziranom nizu za bilježenje genoma.[7]
Strukturna napomena sastoji se od identifikacije genskih elemenata.
- ORF-ovi i njihova lokalizacija
- struktura gena
- regije kodiranja
- mjesto regulatornih motiva
Funkcionalna napomena sastoji se od pridavanja bioloških informacija genomskim elementima.
- biokemijska funkcija
- biološka funkcija
- uključena regulacija i interakcije
- ekspresija
Ovi koraci mogu uključivati i biološke eksperimente i in silico analizu. Pristupi temeljeni na proteogenomiji koriste informacije iz eksprimiranih proteina, često izvedenih iz masene spektrometrije, za poboljšanje genomskih anotacija.[8]
Raznovrsni softverski alati razvijeni su kako bi znanstvenicima omogućili pregled i dijeljenje genomskih bilješki; na primjer MAKER.
Bilježenje genoma ostaje glavni izazov znanstvenicima koji istražuju ljudski genom, sada kada su sekvence genoma više od tisuću ljudskih jedinki (Projekt 100 000 genoma, Velika Britanija) i nekoliko modelnih organizama uglavnom dovršene.[9][10] Identificiranje mjesta gena i drugih elemenata genetske kontrole često se opisuje kao definiranje biološkog "popisa dijelova" za sastavljanje i normalan rad organizma.[6] Znanstvenici su još uvijek u ranoj fazi definiranja ovog popisa dijelova i razumijevanja kako se svi dijelovi "spajaju jedan s drugim".[11]
Bilježenje genoma aktivno je područje istraživanja i uključuje niz različitih organizacija u zajednici nauka o životu koje svoje napore objavljuju u javno dostupnim biološkim bazama podataka dostupnim putem weba i drugih elektroničkih sredstava. Ovdje je abecedni popis tekućih projekata relevantnih za označavanje genoma:
- Enciklopedija elemenata DNA (ENCODE)
- Entrez Gene
- Ensembl
- GENCODE]
- Gene Ontology konzorcij
- GeneRIF
- RefSeq
- Uniprot
- Projekt za označavanje kralježnjaka i genoma (Vega)
Na Wikipediji se anotacija genoma počela automatizirati pod pokroviteljstvom Gene Wiki portala koji upravlja robotom koji skuplja genske podatke iz istraživačkih baza podataka i na toj osnovi stvara gene.[12]
- ↑ Medical Definition of Genome annotation. Inačica izvorne stranice arhivirana 8. ožujka 2016. Pristupljeno 4. veljače 2020.
- ↑ GO Teaching Resources. Inačica izvorne stranice arhivirana 10. listopada 2006. Pristupljeno 4. veljače 2020.
- ↑ NCBO Annotator. 14. veljače 2020.
- ↑ Fang, H. 2013. DcGO: Database of domain-centric ontologies on functions, phenotypes, diseases and more. Nucleic Acids Research. 41 (Database issue): D536–44
- ↑ Stein, L. 2001. Genome annotation: from sequence to biology. Nature Reviews Genetics. 2 (7): 493–503
- ↑ a b Bioinformatics and functional genomics
- ↑ Gene annotation in Ensembl. 14. veljače 2020.
- ↑ Gupta, Nitin; Stephen Tanner; Navdeep Jaitly; Joshua N Adkins; Mary Lipton; Robert Edwards; Margaret Romine; Andrei Osterman; Vineet Bafna; Richard D Smith; Pavel A Pevzner. Rujan 2007. Whole proteome analysis of post-translational modifications: applications of mass-spectrometry for proteogenomic annotation. Genome Research. 17 (9): 1362–1377. doi:10.1101/gr.6427907. ISSN 1088-9051. PMC 1950905. PMID 17690205
- ↑ ENCODE Project Consortium. 2011. A User's Guide to the Encyclopedia of DNA Elements (ENCODE). PLOS Biology. 9 (4): e1001046
- ↑ McVean, G. A. 2012. An integrated map of genetic variation from 1,092 human genomes. Nature. 491 (7422): 56–65
- ↑ Dunham, I. 2012. An integrated encyclopedia of DNA elements in the human genome. Nature. 489 (7414): 57–74
- ↑ Huss, Jon W. 2008. A Gene Wiki for Community Annotation of Gene Function. PLoS Biology. 6 (7): e175