Nucleotidesequentie

Een nucleotidesequentie is de lineaire volgorde van nucleotiden in een DNA- of RNA-molecuul, aangegeven met een serie letters (A, C, G, T of U) die elk voor een base in het nucleïnezuur staan. Conventioneel wordt de nucleotidesequentie van het 5'-eind naar het 3'-eind gepresenteerd, omdat dit de richting is waarin het nucleïnezuur wordt gesynthetiseerd. In het geval van dubbelstrengs DNA wordt altijd de sense-streng (coderende streng) getoond.

Omdat nucleïnezuren onvertakte polymeren zijn, geeft de nucleotidesequentie een indruk van de atomaire structuur van het hele molecuul. Om deze reden wordt de nucleïnezuursequentie ook wel de primaire structuur genoemd, naar analogie van die bij eiwitten. Nucleïnezuren hebben tevens karakteristieke secundaire en tertiaire structuren.

De sequentie van een nucleïnezuur is een representatie van informatie. De volgorde van nucleotiden in het DNA vormt een code die gebruikt wordt om eiwitten te maken. Eiwitten vormen op hun beurt de grondslag van de morfologie en fysiologie van het organisme. Tijdens de celdeling en de voortplanting wordt een kopie van de genetische informatie doorgegeven.

Nucleotiden

Nucleïnezuren zijn ketens van gekoppelde monomeren die nucleotiden worden genoemd. Een nucleotide bestaat uit drie delen: een fosfaatgroep, een vijfsuiker (ribose in het geval van RNA, desoxyribose bij DNA) en een nucleobase of stikstofbase. De fosfaatgroepen en vijfsuikers vormen de ruggengraat van de nucleïnezuurketen. De nucleobasen kunnen zich via waterstofbruggen verbinden aan andere basen.

De vier nucleotiden van een DNA-streng – adenine, cytosine, guanine, thymine – zijn covalent gekoppeld aan elkaar door middel van een fosfodiësterbinding. Meestal worden de letters van een sequentie aan elkaar geschreven, zoals in de reeks AAAGTCTGAC, van links naar rechts gelezen in de 5' naar de 3' richting. Een sequentie bevindt zich op de coderende streng als deze dezelfde volgorde heeft als het getranscribeerde RNA.

Een nucleotideketen kan alleen basenparen met een andere keten wanneer de basen van de ene keten complementair zijn aan die van de andere keten: A ligt daarbij tegenover een T en C ligt tegenover een G. De complementaire sequentie van TTAC is bijvoorbeeld GTAA. In een dubbelstrengs DNA-molecuul is de sense-streng complementair aan de antisense-streng.

Notatie

IUPAC-notatiesysteem voor nucleïnezuursequenties^[1]
Beschrijving	Symbool	Base					Complementaire base^[a]
Beschrijving	Symbool	№	A	C	G	T	Complementaire base^[a]
Adenine	A	1	A				T
Cytosine	C			C			G
Guanine	G				G		C
Thymine	T					T	A
Uracil	U					U	A
Zwak	W	2	A			T	W
Sterk	S			C	G		S
Amino	M		A	C			K
Keto	K				G	T	M
Purine	R		A		G		Y
Pyrimidine	Y			C		T	R
Niet A^[b]	B	3		C	G	T	V
Niet C^[b]	D		A		G	T	H
Niet G^[b]	H		A	C		T	D
Niet T^[b]	V		A	C	G		B
Elke base	N	4	A	C	G	T	N
Zero	Z	0					Z
↑ Lees basen in omgekeerde richting. ↑ ^a ^b ^c ^d Vertegenwoordigd door de volgende letter (exclusief U)

De juiste manier waarop een nucleïnezuursequentie genoteerd wordt, werd geformaliseerd door IUPAC in 1970.^[2] Stikstofbasen worden aangegeven met de eerste letters van hun chemische naam: guanine, cytosine, adenine en thymine. Ook bestaan er elf letters voor ambigue nucleotiden, als niet zeker is welke nucleotide zich op een bepaalde positie bevindt; deze verwijzen naar elke mogelijke combinatie van de vier DNA-basen. Amibuguïteit komt onder meer voor bij fouten in DNA-sequencing, het formuleren van een consensussequentie of om enkel-nucleotide polymorfieën te specificeren.

Ondanks de bijna universele acceptatie heeft het IUPAC-systeem een aantal beperkingen, die voortkomen uit zijn afhankelijkheid van het Romeinse alfabet. De beperkte leesbaarheid van Romeinse hoofdletters (zoals het onderscheid tussen C en G) kan bij het verwerken van grote hoeveelheden gegevens een probleem zijn. Er zijn om deze reden andere strategieën bedacht om genetische data weer te geven, zoals de Stave Projection.^[3]

DNA en RNA bevatten naast de vijf basisnucleotiden meestal ook basen die gemodificeerd zijn nadat de nucleïnezuurketen is gevormd. In DNA is de meest voorkomende gemodificeerde base 5-methylcytidine (m5C). In RNA komen veel verschillende gemodificeerde basen voor, zoals pseudouridine (Ψ), dihydrouridine (D), inosine (I), ribothymidine (rT) en 7-methylguanosine (m7G).^[4]

Hypoxanthine en xanthine zijn gedeamineerde basen (dus basen waar de aminegroep vervangen is door een carbonylgroep) die ontstaan in de aanwezigheid van een mutageen. Hypoxanthine wordt geproduceerd uit adenine en xanthine wordt geproduceerd uit guanine.^[5] Deaminering van cytosine resulteert in uracil.

Bepaling van de sequentie

DNA-sequencing is het geheel aan technieken waarmee men de nucleotidesequentie van een bepaald DNA-fragment vaststelt. De volgorde nucleotiden in het DNA codeert de noodzakelijke informatie die bepaalt hoe een cel in leven blijft en hoe het zich voortplant. DNA-sequencing is daarom van groot belang bij fundamenteel onderzoek en bij het in kaart brengen van verwantschap en systematiek. Ook RNA-sequencing is een belangrijke manier om inzicht te krijgen hoe de informatie in het genoom door cellen onder verschillende omstandigheden wordt gebruikt.^[6]

Eind jaren 1970 werden nieuwe manieren ontdekt om de nucleotidesequentie van een gezuiverd DNA-molecuul vast te stellen. Een eenvoudige en efficiënte methode was Sanger-sequencing, die onder meer gebruikt werd om het genoom van E. coli, de fruitvlieg Drosophila, de nematode C. elegans, de muis en de mens te ontcijferen. Sinds de jaren 2010 werden veel goedkopere en snellere technieken ontwikkeld om DNA te sequencen. Dankzij de snelle ontwikkelingen werd het mogelijk om de volledige DNA-sequentie van een persoon binnen een dag op te helderen.^[6]

In de geneeskunde wordt DNA-sequencing gebruikt voor het identificeren en diagnosticeren van genetische aandoeningen en het ontwikkelen van therapieën. Ook genetisch onderzoek naar pathogenen is een belangrijke manier om een gerichte behandeling voor een infectie te ontwikkelen. Biotechnologie is een snelgroeiende discipline die vrijwel volledig gebaseerd is op kennis van DNA; men maakt ingrepen in het genoom via genetische manipulatie en gentechnologie.

Zie ook

Referenties

↑ (en) Cornish-Bowden A. (1985). Nomenclature for incompletely specified bases in nucleic acid sequences: recommendations 1984. Nucleic acids research, 13(9), 3021–3030
↑ (en) IUPAC-IUB (1970). Abbreviations and symbols for nucleic acids, polynucleotides, and their constituents. Biochemistry 9 (20): 4022–4027. DOI: 10.1021/bi00822a023.
↑ (en) Cowin, J. E., Jellis, C. H., Rickwood, D. (1986). A new method of representing DNA sequences which combines ease of visual analysis with machine readability. Nucleic Acids Research 14 (1): 509–15. PMID 3003680. PMC 339435. DOI: 10.1093/nar/14.1.509.
↑ (en) Boccaletto P, Machnicka MA, Purta E, Piatkowski P, Baginski B, Wirecki TK, de Crécy-Lagard V, Ross R, Limbach PA, Kotter A, Helm M, Bujnicki JM (2018). MODOMICS: a database of RNA modification pathways. 2017 update. Nucleic Acids Research 46 (D1): D303–D307. PMID 29106616. PMC 5753262. DOI: 10.1093/nar/gkx1030.
↑ (en) Nguyen, T, Brunson, D, Crespi, C L, Penman, B W, Wishnok, J S (1992). DNA damage and mutation in human cells exposed to nitric oxide in vitro. Proc Natl Acad Sci USA 89 (7): 3030–034. PMID 1557408. PMC 48797. DOI: 10.1073/pnas.89.7.3030.
↑ ^a ^b (en) Alberts, B. et al. (2015). Molecular Biology of The Cell, 6th edition. Garland Science, New York, p. 477. ISBN 1317563751.

Literatuur

(en) Alberts, B. Johnson, AD. (2015). Molecular Biology of The Cell, 6th edition. Garland Science, New York, "Chapter 4: DNA, chromosomes and genomes". ISBN 978-0-8153-4464-3.
(en) Kuriyan J, Konforti B & Wemmer D. (2013). The Molecules of Life. Garland Science, New York, "Chapter 3: Nucleic Acid Structure". ISBN 978-0-8153-4188-8.

[2] Lees basen in omgekeerde richting.

[niet-3] Vertegenwoordigd door de volgende letter (exclusief U)

[1] (en) Cornish-Bowden A. (1985). Nomenclature for incompletely specified bases in nucleic acid sequences: recommendations 1984. Nucleic acids research, 13(9), 3021–3030

[iupac-4] (en) IUPAC-IUB (1970). Abbreviations and symbols for nucleic acids, polynucleotides, and their constituents. Biochemistry 9 (20): 4022–4027. DOI: 10.1021/bi00822a023.

[cowin-5] (en) Cowin, J. E., Jellis, C. H., Rickwood, D. (1986). A new method of representing DNA sequences which combines ease of visual analysis with machine readability. Nucleic Acids Research 14 (1): 509–15. PMID 3003680. PMC 339435. DOI: 10.1093/nar/14.1.509.

[6] (en) Boccaletto P, Machnicka MA, Purta E, Piatkowski P, Baginski B, Wirecki TK, de Crécy-Lagard V, Ross R, Limbach PA, Kotter A, Helm M, Bujnicki JM (2018). MODOMICS: a database of RNA modification pathways. 2017 update. Nucleic Acids Research 46 (D1): D303–D307. PMID 29106616. PMC 5753262. DOI: 10.1093/nar/gkx1030.

[7] (en) Nguyen, T, Brunson, D, Crespi, C L, Penman, B W, Wishnok, J S (1992). DNA damage and mutation in human cells exposed to nitric oxide in vitro. Proc Natl Acad Sci USA 89 (7): 3030–034. PMID 1557408. PMC 48797. DOI: 10.1073/pnas.89.7.3030.

[Alberts477-8] (en) Alberts, B. et al. (2015). Molecular Biology of The Cell, 6th edition. Garland Science, New York, p. 477. ISBN 1317563751.

[1]

[a]

[b]

[2]

[3]

[4]

[5]

[6]