Einzelnukleotid-Polymorphismus - Single-nucleotide polymorphism

Das obere DNA-Molekül unterscheidet sich vom unteren DNA-Molekül an einer einzigen Basenpaarstelle (ein G/A-Polymorphismus)

In genetics , a single-nucleotide polymorphism ( SNP / s n ɪ p / ; Plural SNPs / s n ɪ p s / ) ist eine Keimbahn - Substitution eines einzigen Nucleotids an einer bestimmten Position in dem Genom . Obwohl bestimmte Definitionen verlangen, dass die Substitution in einem ausreichend großen Anteil der Bevölkerung vorhanden ist (zB 1 % oder mehr), wenden viele Publikationen eine solche Häufigkeitsschwelle nicht an.

Beispielsweise kann das G-Nukleotid an einer spezifischen Basenposition im menschlichen Genom bei den meisten Individuen erscheinen, aber bei einer Minderheit von Individuen wird die Position von einem A besetzt . Dies bedeutet, dass sich an dieser spezifischen Position ein SNP befindet und die beiden möglichen Nukleotidvarianten – G oder A – die Allele für diese spezifische Position sind.

SNPs zeigen Unterschiede in unserer Anfälligkeit für eine Vielzahl von Krankheiten (zB Sichelzellenanämie , β-Thalassämie und Mukoviszidose ) auf. Die Schwere der Erkrankung und die Art und Weise, wie der Körper auf Behandlungen anspricht, sind auch Manifestationen genetischer Variationen, die durch SNPs verursacht werden. So ist beispielsweise eine einbasige Mutation im APOE ( Apolipoprotein E )-Gen mit einem geringeren Risiko für die Alzheimer-Krankheit verbunden .

Eine Single-Nukleotid-Variante ( SNV ) ist eine Variation in einem einzelnen Nukleotid. SNVs unterscheiden sich von SNPs, dass ein SNV sein können somatische und kann durch Krebs verursacht werden, aber ein SNP hat entmischen in einer Art Population von Organismen. SNVs treten auch häufig in der Molekulardiagnostik auf, z. B. bei der Entwicklung von PCR-Primern zum Nachweis von Viren, bei denen die virale RNA- oder DNA-Probe SNVs enthalten kann.

Typen

Arten von SNPs
Arten von Single-Nukleotid-Polymorphismus (SNPs)

Einzelnukleotid- Polymorphismen können in kodierende Sequenzen von Genen , nicht kodierende Regionen von Genen oder in die intergenischen Regionen (Regionen zwischen Genen) fallen. SNPs innerhalb einer kodierenden Sequenz ändern aufgrund der Degeneration des genetischen Codes nicht unbedingt die Aminosäuresequenz des produzierten Proteins .

Es gibt zwei Arten von SNPs in der kodierenden Region: synonyme und nicht-synonyme SNPs. Synonyme SNPs beeinflussen die Proteinsequenz nicht, während nicht synonyme SNPs die Aminosäuresequenz des Proteins verändern.

  • SNPs in nicht-kodierenden Regionen können sich in einem erhöhten Krebsrisiko manifestieren und können die mRNA-Struktur und die Krankheitsanfälligkeit beeinflussen. Nicht-kodierende SNPs können auch das Expressionsniveau eines Gens als eQTL (Expression quantitativer Trait Locus) verändern.
  • SNPs in kodierenden Regionen :
    • synonyme Substitutionen führen definitionsgemäß nicht zu einer Veränderung der Aminosäure im Protein, können aber dennoch seine Funktion auf andere Weise beeinflussen. Ein Beispiel wäre eine scheinbar stille Mutation im Multidrug-Resistenz-Gen 1 ( MDR1 ), das für eine zelluläre Membranpumpe kodiert, die Medikamente aus der Zelle ausstößt, die Translation verlangsamen und der Peptidkette ermöglichen kann, sich in eine ungewöhnliche Konformation zu falten, wodurch die mutierte Pumpe weniger funktionell sein (im MDR1-Protein ändert z. B. der C1236T-Polymorphismus ein GGC-Codon in GGT an der Aminosäureposition 412 des Polypeptids (beide codieren Glycin) und der C3435T-Polymorphismus ändert ATC in ATT an Position 1145 (beide codieren Isoleucin)).
    • nicht synonyme Ersetzungen :

SNPs, die sich nicht in proteinkodierenden Regionen befinden, können dennoch das Spleißen von Genen , die Bindung von Transkriptionsfaktoren , den Abbau von Messenger-RNA oder die Sequenz nichtkodierender RNA beeinflussen. Die von dieser Art von SNP beeinflusste Genexpression wird als eSNP (Expressions-SNP) bezeichnet und kann stromaufwärts oder stromabwärts des Gens erfolgen.

Frequenz

Mehr als 335 Millionen SNPs wurden bei Menschen aus mehreren Populationen gefunden. Ein typisches Genom unterscheidet sich vom menschlichen Referenzgenom an 4 bis 5 Millionen Stellen, von denen die meisten (mehr als 99,9%) aus SNPs und kurzen Indels bestehen .

Innerhalb eines Genoms

Die genomische Verteilung von SNPs ist nicht homogen; SNPs treten häufiger in nicht-kodierenden Regionen auf als in kodierenden Regionen oder allgemein dort, wo die natürliche Selektion wirkt und das Allel des SNP "fixiert" (wodurch andere Varianten eliminiert werden), das die günstigste genetische Anpassung darstellt. Andere Faktoren wie genetische Rekombination und Mutationsrate können ebenfalls die SNP-Dichte bestimmen.

Die SNP-Dichte kann durch das Vorhandensein von Mikrosatelliten vorhergesagt werden : Insbesondere AT-Mikrosatelliten sind potente Prädiktoren für die SNP-Dichte, wobei lange (AT)(n)-Wiederholungsbahnen dazu neigen, in Regionen mit signifikant reduzierter SNP-Dichte und niedrigem GC-Gehalt zu finden .

Innerhalb einer Population

Es gibt Unterschiede zwischen menschlichen Populationen, so dass ein SNP-Allel, das in einer geografischen oder ethnischen Gruppe häufig vorkommt, in einer anderen viel seltener sein kann. Dieses Variationsmuster ist jedoch relativ selten; in einer globalen Stichprobe von 67,3 Millionen SNPs, dem Human Genome Diversity Project

haben keine solche privaten Varianten, sind festgelegt in einem bestimmten Kontinent oder große Region. Die höchsten Häufigkeiten werden von einigen Dutzend Varianten erreicht, die mit >70% (und einigen Tausend mit >50%) in Afrika, Amerika und Ozeanien vorhanden sind. Die höchsten Frequenzvarianten privat nach Europa, Ostasien, dem Nahen Osten oder Zentral- und Südasien erreichen dagegen nur 10 bis 30 %.

Innerhalb einer Population kann eine SNPs zugeordnet werden kleinere Allelfrequenz bei einer -die untersten Allelfrequenz Locus , der in einer bestimmten Population beobachtet wird. Dies ist einfach die kleinere der beiden Allelfrequenzen für Einzelnukleotid-Polymorphismen.

Mit diesem Wissen haben Wissenschaftler neue Methoden zur Analyse von Populationsstrukturen bei weniger untersuchten Arten entwickelt. Durch die Verwendung von Pooling-Techniken werden die Kosten der Analyse deutlich gesenkt. Diese Techniken basieren auf der Sequenzierung einer Population in einer gepoolten Probe, anstatt jedes Individuum innerhalb der Population für sich zu sequenzieren. Mit neuen bioinformatischen Werkzeugen besteht die Möglichkeit, Populationsstruktur, Genfluss und Genmigration durch Beobachtung der Allelfrequenzen innerhalb der gesamten Population zu untersuchen. Mit diesen Protokollen besteht die Möglichkeit, die Vorteile von SNPs mit Mikrosatellitenmarkern zu kombinieren. Dabei gehen jedoch Informationen verloren, wie z. B. Kopplungsungleichgewichts- und Zygositätsinformationen.

Anwendungen

  • Assoziationsstudien können feststellen, ob eine genetische Variante mit einer Krankheit oder einem Merkmal assoziiert ist.
  • Ein Tag-SNP ist ein repräsentativer Einzelnukleotid-Polymorphismus in einer Region des Genoms mit hohem Kopplungsungleichgewicht (der nicht zufälligen Assoziation von Allelen an zwei oder mehr Loci). Tag-SNPs sind nützlich in Ganzgenom-SNP-Assoziationsstudien, bei denen Hunderttausende von SNPs über das gesamte Genom genotypisiert werden.
  • Haplotyp- Mapping: Sätze von Allelen oder DNA-Sequenzen können geclustert werden, sodass ein einzelner SNP viele verbundene SNPs identifizieren kann.
  • Kopplungsungleichgewicht (LD), ein Begriff aus der Populationsgenetik, bezeichnet eine nicht-zufällige Assoziation von Allelen an zwei oder mehr Loci, nicht unbedingt auf demselben Chromosom. Es bezieht sich auf das Phänomen, dass SNP-Allel oder DNA-Sequenzen, die im Genom nahe beieinander liegen, dazu neigen, gemeinsam vererbt zu werden. Die LD kann von zwei Parametern beeinflusst werden (neben anderen Faktoren, wie der Bevölkerungsstratifizierung): 1) Der Abstand zwischen den SNPs [je größer der Abstand, desto geringer der LD]. 2) Rekombinationsrate [je niedriger die Rekombinationsrate, desto höher die LD].

Bedeutung

Variationen in den DNA-Sequenzen des Menschen können beeinflussen, wie Menschen Krankheiten entwickeln und auf Krankheitserreger , Chemikalien , Medikamente , Impfstoffe und andere Wirkstoffe reagieren . SNPs sind auch für die personalisierte Medizin von entscheidender Bedeutung . Beispiele sind biomedizinische Forschung, Forensik, Pharmakogenetik und Krankheitsverursachung, wie unten beschrieben.

Klinische Forschung

Die größte Bedeutung von SNPs in der klinischen Forschung liegt im Vergleich von Genomregionen zwischen Kohorten (z. B. mit übereinstimmenden Kohorten mit und ohne Krankheit) in genomweiten Assoziationsstudien . SNPs wurden in genomweiten Assoziationsstudien als hochauflösende Marker bei der Genkartierung im Zusammenhang mit Krankheiten oder normalen Merkmalen verwendet. SNPs ohne beobachtbaren Einfluss auf den Phänotyp (sog. stille Mutationen ) sind aufgrund ihrer Quantität und der stabilen Vererbung über Generationen hinweg noch immer als genetische Marker in genomweiten Assoziationsstudien nützlich.

Forensik

SNPs wurden in der Vergangenheit verwendet, um eine forensische DNA-Probe einem Verdächtigen zuzuordnen , wurden jedoch aufgrund der fortschreitenden STR- basierten DNA-Fingerprinting- Techniken obsolet . Die Entwicklung der Next-Generation-Sequencing (NGS)-Technologie könnte jedoch mit einer guten Wahrscheinlichkeit einer Übereinstimmung mehr Möglichkeiten für die Verwendung von SNPs bei phänotypischen Hinweisen wie Ethnizität, Haarfarbe und Augenfarbe eröffnen. Dies kann zusätzlich angewendet werden, um die Genauigkeit von Gesichtsrekonstruktionen zu erhöhen, indem Informationen bereitgestellt werden, die ansonsten möglicherweise unbekannt sind, und diese Informationen können verwendet werden, um Verdächtige auch ohne STR- DNA- Profilübereinstimmung zu identifizieren .

Einige Nachteile bei der Verwendung von SNPs gegenüber STRs sind, dass SNPs weniger Informationen liefern als STRs und daher mehr SNPs für die Analyse benötigt werden, bevor ein Profil eines Verdächtigen erstellt werden kann. Darüber hinaus verlassen sich SNPs stark auf das Vorhandensein einer Datenbank für die vergleichende Analyse von Proben. In Fällen mit degradierten oder kleinvolumigen Proben sind SNP-Techniken jedoch eine hervorragende Alternative zu STR-Methoden. SNPs (im Gegensatz zu STRs) haben eine Fülle potenzieller Marker, können vollständig automatisiert werden und können die erforderliche Fragmentlänge auf weniger als 100 bp reduzieren.[26]

Pharmakogenetik

Einige SNPs sind mit dem Metabolismus verschiedener Medikamente verbunden. SNPs können Mutationen sein, wie Deletionen, die enzymatische Aktivität hemmen oder fördern können; Eine solche Veränderung der enzymatischen Aktivität kann zu einer verringerten Rate des Arzneimittelstoffwechsels führen. Die Assoziation einer Vielzahl von menschlichen Krankheiten wie Krebs , Infektionskrankheiten ( AIDS , Lepra , Hepatitis usw.), Autoimmunkrankheiten , Neuropsychiatrie und viele andere Krankheiten mit verschiedenen SNPs kann vorgenommen werden als relevante pharmakogenomische Ziele für die medikamentöse Therapie.

Krankheit

Ein einzelner SNP kann eine Mendelsche Krankheit verursachen, obwohl SNPs bei komplexen Krankheiten normalerweise nicht einzeln funktionieren, sondern in Koordination mit anderen SNPs arbeiten, um eine Krankheit wie bei Osteoporose zu manifestieren.[33] Einer der frühesten Erfolge auf diesem Gebiet war das Auffinden einer Single-Base- Mutation in der nicht-kodierenden Region des APOC3 (Apolipoprotein C3-Gen), die mit einem höheren Risiko für Hypertriglyceridämie und Atherosklerose einherging .[34] Einige durch SNPs verursachte Krankheiten umfassen rheumatoide Arthritis , Morbus Crohn , Brustkrebs , Alzheimer und einige Autoimmunerkrankungen . Es wurden groß angelegte Assoziationsstudien durchgeführt, um zu versuchen, zusätzliche krankheitsverursachende SNPs innerhalb einer Population zu entdecken, aber eine große Anzahl von ihnen ist noch unbekannt.

Beispiele

Datenbanken

Wie für Gene existieren auch für SNPs bioinformatische Datenbanken.

  • dbSNP ist eine SNP-Datenbank des National Center for Biotechnology Information (NCBI). Am 8. Juni 2015 listete dbSNP 149.735.377 SNPs beim Menschen auf.
  • Kaviar ist ein Kompendium von SNPs aus mehreren Datenquellen, einschließlich dbSNP.
  • SNPedia ist eine Datenbank im Wiki-Stil, die persönliche Genom-Annotation, Interpretation und Analyse unterstützt.
  • Die OMIM- Datenbank beschreibt den Zusammenhang zwischen Polymorphismen und Krankheiten (z. B. gibt Krankheiten in Textform an)
  • dbSAP – Einzel-Aminosäure-Polymorphismus-Datenbank zur Erkennung von Proteinvariationen
  • Die Human Gene Mutation Database bietet Genmutationen, die beim Menschen vererbte Krankheiten und funktionelle SNPs verursachen oder damit in Zusammenhang stehen
  • Das Internationale HapMap-Projekt , bei dem Forscher Tag-SNPs identifizieren , um die Sammlung von Haplotypen bestimmen zu können, die in jedem Subjekt vorhanden sind.
  • GWAS Central ermöglicht es Benutzern, die tatsächlichen Assoziationsdaten auf Zusammenfassungsebene in einer oder mehreren genomweiten Assoziationsstudien visuell abzufragen .

Die Arbeitsgruppe International SNP Map kartierte die Sequenz, die jeden SNP flankiert, durch Abgleich mit der genomischen Sequenz von Klonen mit großem Insert in der Genebank. Diese Alignments wurden in chromosomale Koordinaten umgewandelt, die in Tabelle 1 gezeigt sind. Diese Liste ist stark gewachsen, da beispielsweise die Kaviar-Datenbank jetzt 162 Millionen Einzelnukleotidvarianten (SNVs) auflistet.

Chromosom Länge (bp) Alle SNPs TSC- SNPs
Gesamt-SNPs kb pro SNP Gesamt-SNPs kb pro SNP
1 214.066.000 129.931 1.65 75.166 2.85
2 222.889.000 103.664 2.15 76.985 2,90
3 186.938.000 93.140 2.01 63.669 2.94
4 169.035.000 84.426 2,00 65.719 2,57
5 170.954.000 117.882 1.45 63.545 2.69
6 165.022.000 96.317 1,71 53.797 3.07
7 149.414.000 71.752 2.08 42.327 3,53
8 125.148.000 57.834 2.16 42.653 2.93
9 107.440.000 62.013 1,73 43.020 2.50
10 127.894.000 61.298 2.09 42.466 3.01
11 129.193.000 84.663 1,53 47.621 2,71
12 125.198.000 59.245 2.11 38.136 3.28
13 93.711.000 53.093 1,77 35.745 2.62
14 89.344.000 44.112 2.03 29.746 3.00
fünfzehn 73.467.000 37.814 1,94 26.524 2,77
16 74.037.000 38.735 1,91 23.328 3.17
17 73.367.000 34.621 2.12 19.396 3.78
18 73.078.000 45.135 1.62 27.028 2,70
19 56.044.000 25.676 2.18 11.185 5.01
20 63.317.000 29.478 2.15 17.051 3.71
21 33.824.000 20.916 1.62 9.103 3.72
22 33.786.000 28.410 1,19 11.056 3.06
x 131.245.000 34.842 3.77 20.400 6.43
Ja 21.753.000 4.193 5.19 1.784 12.19
RefSeq 15.696.674 14.534 1.08
Summen 2.710.164.000 1.419.190 1,91 887.450 3.05

Nomenklatur

Die Nomenklatur für SNPs umfasst mehrere Variationen für einen einzelnen SNP, ohne dass ein gemeinsamer Konsens vorliegt.

Der rs###-Standard wurde von dbSNP übernommen und verwendet das Präfix "rs" für "Referenz-SNP", gefolgt von einer eindeutigen und willkürlichen Zahl. SNPs werden häufig mit ihrer dbSNP rs-Nummer bezeichnet, wie in den obigen Beispielen.

Die Human Genome Variation Society (HGVS) verwendet einen Standard, der mehr Informationen über den SNP vermittelt. Beispiele sind:

  • c.76A>T: "c." für die kodierende Region , gefolgt von einer Zahl für die Position des Nukleotids, gefolgt von einer einbuchstabigen Abkürzung für das Nukleotid (A, C, G, T oder U), gefolgt von einem Größer-als-Zeichen (">"), um anzuzeigen Substitution, gefolgt von der Abkürzung des Nukleotids, das das erstere ersetzt
  • p.Ser123Arg: "p." für Protein, gefolgt von einer dreibuchstabigen Abkürzung für die Aminosäure, gefolgt von einer Zahl für die Position der Aminosäure, gefolgt von der Abkürzung der Aminosäure, die die erstere ersetzt.

SNP-Analyse

SNPs können leicht getestet werden, da sie nur zwei mögliche Allele und drei mögliche Genotypen mit den beiden Allelen enthalten: homozygot A, homozygot B und heterozygot AB, was zu vielen möglichen Analysetechniken führt. Einige umfassen: DNA-Sequenzierung ; Kapillarelektrophorese ; Massenspektrometrie ; Einzelstrang-Konformationspolymorphismus (SSCP); Einzelsockelverlängerung ; elektrochemische Analyse; denaturierende HPLC und Gelelektrophorese ; Restriktionsfragmentlängenpolymorphismus ; und Hybridisierungsanalyse .

Programme zur Vorhersage von SNP-Effekten

Eine wichtige Gruppe von SNPs sind solche, die Missense-Mutationen entsprechen, die eine Aminosäureänderung auf Proteinebene verursachen. Die Punktmutation eines bestimmten Rests kann unterschiedliche Auswirkungen auf die Proteinfunktion haben (von keiner Wirkung bis zur vollständigen Unterbrechung seiner Funktion). Normalerweise hat die Änderung von Aminosäuren mit ähnlicher Größe und physikalisch-chemischen Eigenschaften (zB Substitution von Leucin zu Valin) eine milde Wirkung und das Gegenteil. In ähnlicher Weise kann eine solche Mutation , wenn SNP Sekundärstrukturelemente (zB Substitution zu Prolin in der Alpha-Helix- Region) zerstört, normalerweise die gesamte Proteinstruktur und -funktion beeinträchtigen. Unter Verwendung dieser einfachen und vieler anderer vom maschinellen Lernen abgeleiteten Regeln wurde eine Gruppe von Programmen zur Vorhersage des SNP-Effekts entwickelt:

  • SIFT Dieses Programm bietet Einblicke in die Auswirkungen einer im Labor induzierten Missense- oder nicht synonymen Mutation auf die Proteinfunktion basierend auf den physikalischen Eigenschaften der Aminosäure und der Sequenzhomologie.
  • LIST (Local Identity and Shared Taxa) schätzt die potenzielle Schädlichkeit von Mutationen, die aus der Veränderung ihrer Proteinfunktionen resultieren. Es basiert auf der Annahme, dass die bei eng verwandten Arten beobachteten Variationen bei der Bewertung des Naturschutzes signifikanter sind als bei entfernt verwandten Arten.
  • SNAP2
  • Verdächtig
  • PolyPhen-2
  • PredictSNP
  • MutationTaster : offizielle Website
  • Variant Effect Predictor aus dem Ensembl- Projekt
  • SNPViz Dieses Programm bietet eine 3D-Darstellung des betroffenen Proteins und hebt die Aminosäureänderung hervor, damit Ärzte die Pathogenität des mutierten Proteins bestimmen können.
  • PROVEAN
  • PhyreRisk ist eine Datenbank, die Varianten experimentellen und vorhergesagten Proteinstrukturen zuordnet .
  • Missense3D ist ein Tool, das einen stereochemischen Bericht über die Wirkung von Missense-Varianten auf die Proteinstruktur liefert.

Siehe auch

Verweise

Weiterlesen

Externe Links