Einzelzell-DNA-Matrizenstrang-Sequenzierung - Single-cell DNA template strand sequencing

Die Einzelzell-DNA-Matrizenstrang-Sequenzierung oder Strand-seq ist eine Technik zur selektiven Sequenzierung der Eltern-Matrizenstränge einer Tochterzelle. Diese Technik bietet eine Vielzahl von Anwendungen, einschließlich der Identifizierung von Schwester - Chromatid - Austausch in der elterlichen Zelle vor der Trennung, die Beurteilung der nicht-zufälliger Trennung der Schwesterchromatiden, die Identifizierung von falsch ausgerichtet Contigs in Genom - Baugruppen, de novo Genomassemblierung sowohl Haplotypen in diploiden Organismen einschließlich des Menschen, Ganzchromosomen- Haplotypisierung und die Identifizierung von Keimbahn- und somatischer genomischer Strukturvariation , wobei letztere sogar in Einzelzellen robust nachgewiesen werden können.

Hintergrund

Strand-seq (Einzelzell- und Einzelstrang-Sequenzierung) war eines der ersten Einzelzell-Sequenzierungsprotokolle, das 2012 beschrieben wurde. Diese genomische Technik sequenziert selektiv die parentalen Template-Stränge in DNA-Bibliotheken einzelner Tochterzellen . Als Proof-of-Concept-Studie demonstrierten die Autoren die Fähigkeit, Sequenzinformationen aus den Watson- und/oder Crick-Chromosomensträngen in einer individuellen DNA-Bibliothek zu erhalten, je nach Art der Chromatid-Segregation; eine typische DNA-Bibliothek enthält immer DNA von beiden Strängen. Die Autoren waren insbesondere daran interessiert, den Nutzen von Strang-Seq beim Nachweis von Schwesterchromatidaustauschen (SCEs) mit hoher Auflösung zu zeigen. Sie identifizierten erfolgreich acht mutmaßliche SCE in der embryonalen Stammzelllinie (meS) der Maus (Maus) mit einer Auflösung von bis zu 23 bp . Es hat sich auch gezeigt, dass diese Methodik bei der Erkennung von Mustern nicht-zufälliger Chromatidsegregation, insbesondere in Stammzelllinien, von großem Nutzen ist. Darüber hinaus wurden SCEs als diagnostische Indikatoren für Genomstress angesehen, eine Information, die in der Krebsbiologie von Nutzen ist. Die meisten Forschungen zu diesem Thema beinhalten die Beobachtung des Sortiments chromosomaler Template-Stränge durch viele Zellentwicklungszyklen und die Korrelation nicht zufälliger Sortimente mit bestimmten Zellschicksalen. Protokolle zur Einzelzell-Sequenzierung waren grundlegend für die Entwicklung dieser Technik, unterscheiden sich jedoch in mehreren Aspekten.

Methodik

Ähnliche Methoden

Frühere Methoden wurden verwendet, um die Vererbungsmuster von Chromatiden pro Strang zu verfolgen und den Prozess der nicht-zufälligen Segregation aufzuklären:

Pulsverfolgung

Pulse-Chase-Experimente wurden zur Bestimmung der Segregationsmuster von Chromosomen zusätzlich zur Untersuchung anderer zeitabhängiger zellulärer Prozesse verwendet. Kurz gesagt, Pulse-Chase-Assays ermöglichen es Forschern, radioaktiv markierte Moleküle in der Zelle zu verfolgen. In Experimenten, die verwendet werden, um ein nicht-zufälliges Chromosomensortiment zu untersuchen, werden Stammzellen mit einem Nukleotid-Analogon markiert oder "gepulst", das in die replizierten DNA-Stränge eingebaut wird. Dadurch können die entstehenden Bestände durch viele Replikationsrunden verfolgt werden . Leider hat diese Methode eine schlechte Auflösung, da sie nur auf Chromatidebene beobachtet werden kann.

Chromosomenorientierte Fluoreszenz-in-situ-Hybridisierung (CO-FISH)

CO-FISH oder strangspezifische Fluoreszenz- in-situ- Hybridisierung erleichtert das strangspezifische Targeting von DNA mit fluoreszenzmarkierten Sonden. Es nutzt die einheitliche Ausrichtung der Hauptsatelliten relativ zur Richtung der Telomere aus , wodurch Stränge eindeutig als "Watson"- oder "Crick"-Stränge bezeichnet werden können. Unter Verwendung unidirektionaler Sonden, die Hauptregionen von Satelliten erkennen, gekoppelt an fluoreszenzmarkierte Farbstoffe, können einzelne Stränge gebunden werden. Um sicherzustellen, dass nur der Matrizenstrang markiert wird, müssen die neu gebildeten Stränge durch BrdU- Einbau und Photolyse abgebaut werden . Dieses Protokoll bietet eine verbesserte zytogenetische Auflösung, die es Forschern ermöglicht, einzelne Stränge im Gegensatz zu ganzen Chromatiden mit Pulse-Chase-Experimenten zu beobachten. Darüber hinaus kann die nicht-zufällige Segregation von Chromatiden direkt getestet werden, indem man auf die wichtigsten Satellitenmarker abzielt.

Ein Beispiel für ein vereinfachtes Strand-Seq-Protokoll, beginnend mit interessierenden Zellen. Sobald die dargestellten Schritte abgeschlossen sind, können die Matrizenstränge für die Sequenzierung vorbereitet werden.

Nasslaborprotokolle

Zellen von Interesse werden entweder in vivo oder in vitro kultiviert. Während der S-Phase werden die Zellen mit Bromdesoxyuridin (BrdU) behandelt, das dann als Ersatz für Thymidin in ihre naszierende DNA eingebaut wird. Nachdem mindestens ein Replikationsereignis aufgetreten ist, werden die Tochterzellen in der G2-Phase synchronisiert und einzeln durch fluoreszenzaktivierte Zellsortierung (FACS) getrennt . Die Zellen werden direkt in Lysepuffer sortiert und ihre DNA extrahiert. Nach einer bestimmten Anzahl von Generationen (normalerweise einer) verhaftet, können die Vererbungsmuster von Schwesterchromatiden beurteilt werden. Die folgenden Verfahren konzentrieren sich auf die DNA-Sequenzierung der DNA einer einzelnen Tochterzelle. An diesem Punkt sind die Chromosomen aus naszierenden Strängen mit BrdU anstelle von Thymidin zusammengesetzt und die ursprünglichen Matrizenstränge werden für die DNA-Sequenzierungsbibliotheksherstellung geprimt. Da dieses Protokoll im Jahr 2012 veröffentlicht wurde, ist die kanonische Methodik nur für Illumina- Sequenzierungsplattformen gut beschrieben ; das Protokoll könnte je nach Anwendung sehr leicht für andere Sequenzierungsplattformen angepasst werden. Als nächstes wird die DNA mit einem speziellen Farbstoff inkubiert, so dass bei Anregung des BrdU-Farbstoffkomplexes durch UV-Licht entstehende Stränge durch Photolyse zerschnitten werden . Dieser Prozess hemmt die Amplifikation der Polymerase-Kettenreaktion (PCR) des naszierenden Strangs, so dass nur die parentalen Matrizenstränge amplifiziert werden können. Der Aufbau der Bibliothek verläuft wie bei der Paired-End-Sequenzierung mit Illumina üblich. Multiplexing-PCR-Primer werden dann an die PCR-Amplikons mit Hexamer-Barcodes ligiert, die identifizieren, von welcher Zelle jedes Fragment sie abstammt. Im Gegensatz zu Einzelzell-Sequenzierungsprotokollen verwendet Strand-seq keine Multiple-Displacement-Amplifikation oder MALBAC für die DNA-Amplifikation. Sie ist vielmehr allein von der PCR abhängig.

Bioinformatische Verarbeitung

Die Ausgabe von BAIT, die die Lesezahlen für Watson (W, grün) und Crick (C, blau) anzeigt. Jeder Read-Count-Balken zeigt die Anzahl der Reads an, die auf einen bestimmten 200-kb-Bin des Referenzgenoms ausgerichtet sind. Von hier wird die Vererbung des elterlichen Template-Strangs abgeleitet. Wenn beispielsweise beide Kopien eines 200-kb-Chromosomensegments in der Tochterzelle aus Watson-Matrizensträngen in der Elternzelle synthetisiert würden, würde dies durch einen großen grünen Balken dargestellt, der eine reine W-Ausrichtung in dieser chromosomalen Region anzeigt. Darüber hinaus werden Wechsel zwischen homozygoten und heterozygoten Zuständen der Templatstrangvererbung als Schwesterchromatidaustausch (SCEs) interpretiert.

Die meisten aktuellen Anwendungen für Strand-seq beginnen damit, sequenzierte Reads mit einem Referenzgenom abzugleichen. Das Alignment kann mit einer Vielzahl von Short-Read-Alignern wie BWA und Bowtie durchgeführt werden. Durch Abgleichen von Strand-seq-Reads von einer einzelnen Zelle zum Referenzgenom können die vererbten Template-Stränge bestimmt werden. Wenn die Zelle nach mehr als einer Generation sequenziert wurde, kann ein Muster des Chromatidsortiments für die jeweilige Zelllinie ermittelt werden. Die Bioinformatic Analysis of Inherited Templates (BAIT) war die erste bioinformatische Software, die ausschließlich Reads analysiert, die aus der Strand-seq-Methodik generiert wurden. Es beginnt damit, die Reads an einer Referenzsequenz auszurichten, das Genom in Abschnitte einzuteilen und schließlich die Anzahl der Watson- und Crick-Reads zu zählen, die in jeden Bin fallen. Von hier aus ermöglicht BAIT die Identifizierung von SCE-Ereignissen, fehlorientierten Contigs im Referenzgenom, aneuploiden Chromosomen und Arten der Schwesterchromatid-Segregation. Es kann auch beim Zusammenbauen von Genomen mit frühem Aufbau und der Zuweisung von verwaisten Gerüsten zu Orten innerhalb von Genomen mit spätem Aufbau helfen. Nach BAIT wurden in letzter Zeit zahlreiche Bioinformatik-Tools eingeführt, die Strand-seq-Daten für eine Vielzahl von Anwendungen verwenden (siehe beispielsweise die folgenden Abschnitte über Haplotypisierung, de novo Genom-Assemblierung und Entdeckung struktureller Variationen in Einzelzellen mit Bezug auf die jeweiligen verlinkten Artikel).

Einschränkungen

Strand-seq erfordert für die BrdU-Markierung Zellen, die sich einer Zellteilung unterziehen, und ist daher nicht auf formalinfixierte Proben oder sich nicht teilende Zellen anwendbar. Es kann jedoch auf normale mitotische Zellen und Gewebe, Organoide sowie Leukämie- und Tumorproben mit frischen oder gefrorenen Primärproben angewendet werden. Strand-seq verwendet die Illumina-Sequenzierung, und Anwendungen, die Sequenzinformationen aus verschiedenen Sequenzierungstechnologien erfordern, erfordern neue Protokolle oder alternativ die Integration von Daten, die mit unterschiedlichen Sequenzierungsplattformen generiert wurden, wie kürzlich gezeigt.

Die Autoren der ersten Veröffentlichungen, die Strand-seq beschreiben, zeigten, dass sie in der Lage waren, eine Auflösung von 23 bp für die Kartierung von SCE zu erreichen, und andere große chromosomale Anomalien werden wahrscheinlich diese Kartierungsauflösung teilen (wenn eine Breakpoint-Feinkartierung durchgeführt wird). Die Auflösung hängt jedoch von einer Kombination der verwendeten Sequenzierungsplattform, der Protokolle zur Bibliotheksvorbereitung und der Anzahl der analysierten Zellen sowie der Sequenzierungstiefe pro Zelle ab. Es wäre jedoch sinnvoll, die Präzision mit Sequenzierungstechnologien, die keine Fehler in homopolymeren Wiederholungen verursachen, weiter zu erhöhen.

Anwendungen und Nutzen

Identifizierung von Schwesterchromatidaustauschen

Strand-seq wurde ursprünglich als Werkzeug zur Identifizierung von Schwesterchromatidaustauschen vorgeschlagen. Da es sich um einen Prozess handelt, der auf einzelne Zellen lokalisiert ist, würde die DNA-Sequenzierung von mehr als einer Zelle diese Effekte natürlich streuen und auf das Fehlen von SCE-Ereignissen hinweisen. Darüber hinaus sind klassische Einzelzellsequenzierungstechniken aufgrund heterogener Amplifikationsfehler und doppelsträngiger Sequenzinformationen nicht in der Lage, diese Ereignisse zu zeigen, wodurch Strand-seq. Unter Verwendung der Referenz-Alignment-Informationen können Forscher ein SCE identifizieren, wenn sich die Richtung eines geerbten Templatstrangs ändert.

Identifizieren von fehlorientierten Contigs

Fehlorientierte Contigs sind in Referenzgenomen mit signifikanten Raten vorhanden (z. B. 1% im Referenzgenom der Maus). Strand-seq kann im Gegensatz zu herkömmlichen Sequenzierungsverfahren diese Fehlorientierungen erkennen. Fehlorientierte Contigs liegen vor, wenn sich die Strangvererbung von einem homozygoten Zustand in den anderen ändert (z. B. WW zu CC oder CC zu WW). Darüber hinaus ist diese Zustandsänderung in jeder Strand-seq-Bibliothek sichtbar und verstärkt das Vorhandensein eines fehlorientierten Contigs.

Identifizierung nicht-zufälliger Segregation von Schwesterchromatiden

Vor den 1960er Jahren wurde angenommen, dass Schwesterchromatiden zufällig in Tochterzellen aufgeteilt werden. Seitdem wurde jedoch in Säugerzellen eine nicht-zufällige Segregation von Schwesterchromatiden beobachtet. Es wurden einige Hypothesen vorgeschlagen, um die nicht-zufällige Segregation zu erklären, einschließlich der Immortal-Strand-Hypothese und der Silent-Sister-Hypothese, von denen eine hoffentlich durch Methoden mit Strand-seq.

''Unsterbliche Strang-Hypothese''

Mutationen treten jedes Mal auf, wenn sich eine Zelle teilt. Bestimmte langlebige Zellen (z. B. Stammzellen) können von diesen Mutationen besonders betroffen sein. Die Immortal-Strand-Hypothese schlägt vor, dass diese Zellen eine Mutationsakkumulation vermeiden, indem sie die elterlichen Template-Stränge konsequent beibehalten[9]. Damit diese Hypothese wahr ist, müssen sich Schwesterchromatiden von jedem einzelnen Chromosom auf nicht zufällige Weise trennen. Darüber hinaus behält eine Zelle nach jeder Teilung genau den gleichen Satz von Matrizensträngen und gibt den Rest an die anderen Zellprodukte der Teilung ab.

''Stille Schwester Hypothese''

Diese Hypothese besagt, dass Schwesterchromatiden unterschiedliche epigenetische Signaturen und damit auch unterschiedliche Expressionsregulationen aufweisen. Bei der Replikation sichert die nicht zufällige Segregation von Schwesterchromatiden das Schicksal der Tochterzellen. Um die Gültigkeit dieser Hypothese zu beurteilen, wäre eine gemeinsame Analyse der Strang-Seq- und Genexpressionsprofile für beide Tochterzellen erforderlich.

Entdeckung von Strukturvariationen & aneuploiden Chromosomen

Die Ausgabe von BAIT zeigt die Vererbung von elterlichen Template-Strängen entlang des Genoms. Normalerweise werden für jedes Autosom zwei Matrizenstränge vererbt, und jede Abweichung von dieser Zahl weist auf eine Aneuploidie hin , die in einzelnen Zellen sichtbar gemacht werden kann.

Inversionen sind eine Klasse von kopienzahlausgeglichenen strukturellen Variationen , die zu einer Änderung der Strangrichtung führen, die durch Strand-seq. Strand-seq kann daher verwendet werden, um polymorphe Inversionen bei Menschen und Primaten leicht zu erkennen, einschließlich Ereignissen von Megbase-Größe, die in große segmentale Duplikationen eingebettet sind, von denen bekannt ist, dass sie für die Illumina-Sequenzierung nicht zugänglich sind .

Eine im Jahr 2019 online veröffentlichte Studie zeigte außerdem, dass mit Strand-seq alle Klassen der strukturellen Variation ≥200 kb, einschließlich Deletionen, Duplikationen, Inversionen, invertierte Duplikationen, balancierte Translokationen, unbalancierte Translokationen, Bruch-Fusions-Brücken-Zyklus komplexe DNA-Umlagerungen und Chromothripsis vermittelten Ereignisse werden sensitiv in Einzelzellen oder Subklonen unter Verwendung von Single-Cell-Tri-Channel-Processing (scTRIP) nachgewiesen. scTRIP funktioniert über die gemeinsame Modellierung von Leseorientierung, Lesetiefe und Haplotyp-Phase, um SVs in einzelnen Zellen zu entdecken. Unter Verwendung von scTRIP werden strukturelle Varianten durch den Chromosomenlängen-Haplotyp aufgelöst, der eine höhere Sensitivität und Spezifität für das Aufrufen von Einzelzell-Strukturvarianten als andere aktuelle Technologien verleiht. Da scTRIP für das Aufrufen von Varianten keine Reads (oder Read-Paare) benötigt, die die Grenzen (oder Breakpoints) von Strukturvarianten in Einzelzellen überschreiten, leidet es nicht unter den bekannten Artefakten von Einzelzellmethoden, die auf der Amplifikation des gesamten Genoms basieren (dh sog. Lesechimäre), die dazu neigen, die strukturelle Variationsanalyse in einzelnen Zellen zu verwirren.

Haplotypisierung, Genom-Assembly & Generierung von hochauflösenden humanen genetischen Variationskarten

Früh aufgebaute Genome sind ziemlich fragmentiert, mit ungeordneten und unorientierten Contigs. Die Verwendung von Strand-seq liefert Direktionalitätsinformationen, die die Sequenz begleiten, was letztendlich dazu beiträgt, die Platzierung von Contigs zu lösen. Contigs, die auf demselben Chromosom vorhanden sind, weisen dieselbe Direktionalität auf, sofern keine SCE-Ereignisse aufgetreten sind. Umgekehrt zeigen Contigs, die in verschiedenen Chromosomen vorhanden sind, nur in 50% der Strand-seq-Bibliotheken die gleiche Direktionalität. Gerüste, aufeinanderfolgende Contigs, die von einer Lücke geschnitten werden, können auf die gleiche Weise lokalisiert werden.

Das gleiche Prinzip der Verwendung der Strangrichtung zur Unterscheidung großer DNA-Moleküle ermöglicht die Verwendung von Strand-seq als Werkzeug zur Konstruktion von Haplotypen der gesamten Chromosomen mit genetischer Variation, von Telomer zu Telomer.

Jüngste Berichte haben gezeigt, dass Strand-seq rechnerisch mit der Long-Read-Sequenzierungstechnologie integriert werden kann, wobei die einzigartigen Vorteile beider Technologien die Erzeugung hoch zusammenhängender, haplotyp-aufgelöster de novo-Genomanordnungen des Menschen ermöglichen. Diese genomischen Anordnungen integrieren alle Formen genetischer Variation, einschließlich einzelner Nukleotidvarianten, Indels und struktureller Variation sogar über komplexe Genomloci hinweg, und wurden kürzlich verwendet, um umfassende haplotypbewusste Karten der strukturellen Variation in einem Diversitätspanel von Menschen unterschiedlicher Vorfahren zu erstellen.

Überlegungen

Die Möglichkeit, dass Thymin durch BrdU in der genomischen DNA substituiert wird, könnte doppelsträngige Chromosomenbrüche induzieren und spezifisch zu SCEs führen, wurde zuvor in der Literatur diskutiert. Darüber hinaus wurde vorgeschlagen, dass der Einbau von BrdU die Segregationsmuster der Stränge stört. Wenn dies der Fall ist, würde es zu einer Inflation bei falsch positiven SCEs kommen, die kommentiert werden können. Daher sollten viele Zellen mit dem Strand-seq-Protokoll analysiert werden, um sicherzustellen, dass SCEs tatsächlich in der Population vorhanden sind. Bei in einzelnen Zellen nachgewiesenen Strukturvarianten kann der Nachweis derselben Variante (auf demselben Haplotyp) in mehr als einer Zelle den Einbau von BrdU als mögliche Ursache ausschließen.

Die Anzahl der einzelnen Zellstränge, die sequenziert werden müssen, damit eine Annotation akzeptiert wird, muss noch vorgeschlagen werden und hängt stark von den gestellten Fragen ab. Da Strand-seq auf Einzelzellsequenzierungstechniken basiert, müssen auch die Probleme der Einzelzellsequenzierung berücksichtigt werden. Dazu gehören die fehlenden Standards für die Zellisolierung und Amplifikation. Obwohl frühere Strand-seq isolierte Zellen mit FACS untersucht haben, ist die Mikrofluidik auch eine attraktive Alternative. Es hat sich gezeigt, dass die PCR im Vergleich zu auf Strangverdrängung basierenden Methoden wie MDA und MALBAC mehr fehlerhafte Amplifikationsprodukte produziert, während die letzteren beiden Techniken als Nebenprodukt chimäre Reads erzeugen, die zu fehlerhaften Aufrufen der Strukturvariation führen können. MDA und MALBAC erzeugen während der SV-Erkennung auch mehr Aussetzer als Strand-seq, da sie Lesevorgänge erfordern, die den Breakpoint eines SV überschreiten, um seine Erkennung zu ermöglichen (dies ist für keine der verschiedenen SV-Klassen erforderlich, die Strand-seq erkennen kann). Die Amplifikation der Strangverdrängung neigt auch dazu, mehr Sequenz und längere Produkte zu erzeugen, was für Long-Read-Sequenzierungstechnologien von Vorteil sein könnte.

Verweise