CpG-eiland
CpG-eilanden (engl.: CpG islands) zijn gebieden in het genoom van Eukaryoten met een statistisch hogere CpG-dinucleotidedichtheid. De dichtheid heeft betrekking op het voorkomen van nucleotiden- en dinucleotiden in het totale genoomgedeelte. CpG betekent Cytosin-phosphatidyc-Guanin. De p (in het Nederlands f van fosfaat) wordt aangegeven om beter onderscheid te kunnen maken tussen het CG-gehalte van een DNA-streng en de CG-basenparing van een DNA-dubbelstreng. De p staat hier voor de fosfodi-esterbinding tussen de nucleosiden cytidine en guanosine. Een CpG-plaats (CpG-dinucleotide) is een gebied waar een cytosine gevolgd wordt door een guanine in de 5' → 3' richting. CpG-eilanden zijn DNA-gedeelten met een lengte van de eukaryotische promotor van 0,5 kb tot 2 kb basenparen en die een verhoogd GC-gehalte hebben van meer dan 60 %. Het GC-gehalte van het hele genoom is 41 %. CpG-eilanden ontstaan door mechanismen, die te maken hebben met de exploitatie van het genenmateriaal als informatiedrager.
Een stukje DNA met CpG plaatsen (CpG-dinucleotiden) op de ene streng en op de andere streng kan als volgt worden weergegeven:
5' | --- | A | T | G | C | C | G | T | T | A | G | A | C | C | G | T | T | A | G | C | G | G | A | C | C | T | G | A | C | → | 3' |
3' | ← | T | A | C | G | G | C | A | A | T | C | T | G | G | C | A | A | T | C | G | C | C | T | G | G | A | C | T | G | --- | 5' |
De C G onderelkaar is een basenparing.
CpG-eilanden zijn belangrijke markeringen voor bijvoorbeeld de genetica, geneeskunde en bio-informatica.
Eigenschappen
bewerkenBij zoogdieren is afhankelijk van de soort 2 % tot 7 % cytosine in een cel gemethyleerd en ongeveer 70 tot 85 % van de CpG-dinucleotiden,[1][2] terwijl CpG-eilanden overwegend ongemethyleerd zijn,[3] waardoor de genexpressie epigenetisch gereguleerd wordt.[4] Ongeveer 5 % van de CpG-dinucleotiden liggen in een van de 20.000 CpG-eilanden van een genoom van zoogdieren.[2] De helft van de CpG-eilanden ligt bij zoogdieren in huishoudgenen.[2] Ongeveer 40 % van de promotoren bij zoogdieren hebben een CpG-eiland.[5]
Meestal zijn het de cytosinen van de 5'-CpG-3' dinucleotiden, die op beide complementaire DNA-strengen een methylgroep hebben, waardoor er een palindroomachtige methylering ontstaat. Zijn de twee cytosinen in deze opstelling gemethyleerd dan ontstaat er een verandering in de driedimensionale structuur in de grote groeve van de DNA-dubbelstreng.
Het gemiddelde GC-gehalte bij de mensen is 41 %, waarmee rekenkundig gezien het dinucleotide CpG met 4 % in het genoom voorkomt. CpG-dinucleotiden zijn met 0,8 % sterk ondervertegenwoordigd, dat hoofdzakelijk te maken heeft met de relatief spontane omzetting van 5-methylcytosine in thymine (desaminering) ( zie voor de verklaring de afbeelding verderop). Daarmee is de CpG-dinucleotidedichtheid in de CpG-eilanden 10–20 keer hoger dan in andere gebieden van het genoom van gewervelden. In vergelijking met andere dinucleotiden, zoals bijvoorbeeld GpC, ApT of TpA, vormt het CpG-dinucleotide in vele eukaryotische organismen een uitzondering. Ze spelen bij de genregulatie een ondersteunende rol, daar CpG-eilanden bij de gewervelden vaak in de nabijheid van promotoren voorkomen, speciaal bij huishoudgenen.[6]
CpG-eilanden worden ook gebruikt bij de regulatie van de genexpressie en zijn daarmee een mechanisme voor epigenetische genregulatie. De gemethyleerde CpG-eilanden kunnen herkend worden door het enzym histon-acetyltransferase (HATs). Methylering van de CpG-eilanden van een gen betekent dat dit gen niet afgelezen kan worden (genrepressie). Ongeveer 40–45 % van alle menselijke genen hebben CpG-eilanden in het promotorgebied.[7]
Methylering van CpG-eilanden speelt, zowel bij het ontstaan van kanker (als mechanisme voor het blokkeren van tumorsuppressorgenen), als ook bij de genomische imprinting een rol. In tumoren gebeurt vaak een algemene ondermethylering van cytosine in de CpG-dinucleotiden en een overmethylering in de CpG-eilanden van bepaalde tumorsuppressorgenen.[8]
De beide cytosinen in een CpG-dinucleotide zijn in het menselijk genoom het meeste gemethyleerd (DNA-methylering). In sommige gebieden wordt de methylering voortdurend onderdrukt. Vaak zijn deze gebieden CpG-eilanden en liggen vaak voor de genen (de zogenaamde promotorgebieden). De CpG van deze regio's zijn meestal niet gemethyleerd en hebben daardoor een mutatiedruk, die als volgt beschreven wordt:
Cytosinen zijn chemisch labiel. Ze kunnen in de cel aan een desaminering (–NH2 wordt vervangen door =O) ten grondslag liggen. Gemethyleerd cytosine wordt daarbij omgezet in thymine en niet gemethyleerde cytosine (bijvoorbeeld in de CpG-eilanden) wordt uracil. Terwijl thymidine een „normale“ nucleobase van het DNA is, behoort uracil niet in het DNA. Uracil – eigenlijk een base van het RNA – wordt zeer goed herkend en door cytosine omgezet. De DNA-reparatiemechanismen van de cel nemen het uit de tegenoverliggende DNA-streng zittende guanosine als basis voor de foutcorrectie. In de gemethyleerde CpG-dinucleotiden ontstaat door de desaminering daarentegen thymidine. Deze „fout“ wordt vaker getolereerd dan uracil en zorgt voor een blijvende mutatie.
Het volgende schema toont de mogelijke veranderingen door desaminering en de gevolgen van reparatie van het DNA respectievelijk blijvende mutaties.
1. 2. 3. | Gemethyleerd: | m | m a) --CpG-- desaminering --TpG-- vaak --CpG-- | → --CpG-- --GpC-- --GpC-- --GpC-- | --GpC-- m m m | m | | b) zelden --TpG-- | → --TpG-- --ApC-- | --ApC-- m | Niet gemethyleerd: | | c) --CpG-- desaminering --UpG-- zeer vaak --CpG-- | --GpC-- --GpC-- --GpC-- | | | | d) zeer zelden --UpG-- | → --TpG-- --ApC-- | --ApC-- |
Legenda bij het schema: Er zijn twee CpG-dinucleotiden, waarvan een gemethyleerd (m) kan worden [a) en b)], terwijl het andere niet gemethyleerd kan worden – bijvoorbeeld een CpG-eiland – [c) und d)]. De bij 2) veranderende nucleobasen zijn in vet aangegeven.
1. Een desaminering geeft een nieuw dinucleotide, waarvan de complementaire basenparing verbroken is.
2. Voor het daaropvolgende herstel van de complementaire basenparing zijn er twee mogelijkheden, die met een verschillende waarschijnlijkheid optreden. Het onderscheid tussen a) en b) met vaak en zelden komt doordat de tegenovergestelde streng een methylering van CpG geeft. Daardoor wordt deze streng in het DNA-reparatiesysteem als „oudere“, geconserveerde streng aangezien. Het grotere verschil tussen c) en d) met zeer vaak en zeer zelden berust op het feit dat uracil geen DNA-base is.
3. In vervolg op de ontstane mutatie worden verkeerde methyleringen of nucleobasen vervangen.
Bioinformatische analyse
bewerkenVerscheidene algoritmen voor identificatie van CpG-eilanden worden beschreven.[9]
Het identificeren van CpG-eilanden met behulp van de Markovketen
bewerkengeeft het aantal van de st-paren op de CpG-eilanden aan en anders (geen CpG-eilanden) met . De overgangswaarschijnlijkheden worden met de meest aannemelijke schatter berekend: en De vaststelling berust op sequentiedelen, waarvan men weet of het al of niet CpG-eilanden zijn.
Gegeven is nu een onbekende sequentie X.
Vraag: "Is het een CpG-eiland?"
- P(+|X) is de waarschijnlijkheid dat X een CpG-eiland is
- P(-|X) is de waarschijnlijkheid dat X geen CpG-eiland is
Daartoe wordt een score-functie gedefinieerd:
Als "prior" (van tevoren aangenomen waarschijnlijkheid) wordt de totale lengte van alle CpG-eilanden relatief ten opzichte van de totale lengte van het genoom gebruikt.
Het identificeren van CpG-eilanden met behulp van het Hidden Markov model
bewerkenAls waarneembare parameters worden de basen (G,C,A,T) op elke plaats in de DNA-sequentie genomen. De verborgen parameter zegt iets over het feit of dit basengedeelte een CpG-eiland is of niet (+,-).
Er zijn 4 mogelijke overgangswaarschijnlijkheden:
.
Elke verborgen parameter s levert een emissiewaarschijnlijkheid van een waarneembare parameter b (een base) op:
De waarschijnlijkheid dat een waarneembare parameter aangezien wordt voor een verborgen parameter, geeft:
met: (zie Markovketen)
Daarmee wordt gegeven:
Daar de inspanning voor maximering van P(Z | X) met de lengte van de sequentie exponentieel stijgt, is het recursieve Viterbi-Algoritme geschikt voor de oplossing van het probleem.
- ↑ K. Jabbari, G. Bernardi: Cytosine methylation and CpG, TpG (CpA) and TpA frequencies. In: Gene. Band 333, Mai 2004, S. 143–149, DOI:10.1016/j.gene.2004.02.043, PMID 15177689.
- ↑ a b c R. Chatterjee, C. Vinson: CpG methylation recruits sequence specific transcription factors essential for tissue specific gene expression. In: Biochimica et biophysica acta. Band 1819, Nummer 7, Juli 2012, S. 763–770, DOI:10.1016/j.bbagrm.2012.02.014, PMID 22387149, PMC 3371161.
- ↑ A. M. Deaton, A. Bird: CpG islands and the regulation of transcription. In: Genes & development. Band 25, Nummer 10, Mai 2011, S. 1010–1022, DOI:10.1101/gad.2037511, PMID 21576262, PMC 3093116.
- ↑ J. A. Law, S. E. Jacobsen: Establishing, maintaining and modifying DNA methylation patterns in plants and animals. In: Nature reviews. Genetics. Band 11, Nummer 3, März 2010, S. 204–220, DOI:10.1038/nrg2719, PMID 20142834, PMC 3034103.
- ↑ M. Fatemi, M. M. Pao, S. Jeong, E. N. Gal-Yam, G. Egger, D. J. Weisenberger, P. A. Jones: Footprinting of mammalian promoters: use of a CpG DNA methyltransferase revealing nucleosome positions at a single molecule level. In: Nucleic acids research. Band 33, Nummer 20, 2005, S. e176, DOI:10.1093/nar/gni180, PMID 16314307, PMC 1292996.
- ↑ S. Saxonov, P. Berg, D. L. Brutlag: A genome-wide analysis of CpG dinucleotides in the human genome distinguishes two distinct classes of promoters. In: Proceedings of the National Academy of Sciences of the United States of America. Band 103, Nummer 5, Januar 2006, S. 1412–1417, DOI:10.1073/pnas.0510310103, PMID 16432200, PMC 1345710.
- ↑ Rolf Knippers: Molekulare Genetik. 9., komplett überarbeitete Auflage. Stuttgart, 2006, S. 340.
- ↑ D. Sproul, R. R. Meehan: Genomic insights into cancer-associated aberrant CpG island hypermethylation. In: Briefings in functional genomics. Band 12, Nummer 3, Mai 2013, S. 174–190, DOI:10.1093/bfgp/els063, PMID 23341493, PMC 3662888.
- ↑ Z. Zhao, L. Han: CpG islands: algorithms and applications in methylation studies. In: Biochemical and biophysical research communications. Band 382, Nummer 4, Mai 2009, S. 643–645, DOI:10.1016/j.bbrc.2009.03.076, PMID 19302978, PMC 2679166.