哈佛大学ChIP/ATAC/CUT&TAG/CUT&RUN教程01: 生物学背景揭秘表观遗传图谱

显然，仅靠DNA序列和转录因子的可用性还不足以有效地调控真核生物中的基因，但是表观遗传因素在各个层面上也起着至关重要的作用。DNA缠绕在组蛋白上形成核小体，这些核小体折叠并压缩形成染色质。在DNA复制和转录过程中，某些染色质区域会被打开，使调控机制能够结合到暴露出来的DNA结合位点。此外，染色质结构还可以经历动态的表观遗传修饰，如DNA甲基化、组蛋白修饰和染色质重塑。

所有这些因素共同作用，对于全面理解转录调控至关重要。

ChIP-seq：一种用于检测和表征蛋白质-DNA相互作用的方法

染色质免疫沉淀后进行测序（ChIP-seq）是表观基因组研究中的核心方法。在ChIP实验中，通过免疫沉淀从交联细胞中富集感兴趣的转录因子、辅因子或其他染色质蛋白及其相关的DNA。然后对免疫沉淀的DNA片段进行测序，并识别富集的DNA区域或峰值。这些峰值可以用来通过确定相关的基因组特征和/或过度代表的序列基序来进行生物学推断。

ChIP-seq技术已被广泛应用于多种生物体中的许多转录因子、组蛋白修饰、染色质修饰复合物以及其他与染色质相关的蛋白质。因此，ChIP-seq实验的设计方式和分析方法具有很大的多样性。

CUT&RUN：一种改进的替代ChIP-seq的方法

ChIP-seq 是一种众所周知的具有挑战性的方法。尽管经过了严格的优化和洗涤，该方法仍然存在较高的背景噪音。由此导致的低信噪比使得识别真正的结合位点变得困难。

靶标下的切割与使用核酸酶释放（CUT&RUN）是一种创新的染色质图谱策略，正在该领域迅速获得认可。该协议从细胞到DNA所需时间不到一天，并且可以完全在实验台上使用大多数分子生物学实验室中已有的标准设备完成。

CUT&RUN 是一种基于天然内切酶的方法，基于抗体在原位结合染色质相关蛋白，并招募蛋白A-微球菌核酸酶融合蛋白（pA-MN）到抗体上，从而有效地切割结合位点周围的DNA。

细胞/细胞核被结合到刀豆球蛋白A包被的磁珠上。

在Henikoff实验室最初的论文中，他们分离了细胞核。使用纯化的细胞核可以最大化抗体与核因子的结合，并且相比使用整个细胞的协议，CUT&RUN信号会更干净。

在Henikoff实验室最近的一篇论文中，他们收获了整个细胞。他们引入了一种强去污剂来渗透细胞，而不是依赖于细胞核的提取。

使用皂苷渗透细胞膜（或核膜），使抗体能够接触到其靶标（1小时至过夜）。
然后加入与蛋白A融合的微球菌核酸酶（MNase）。蛋白A与初级抗体上的免疫球蛋白G（IgG）结合（或模拟IgG），从而将MNase引导到抗体结合的蛋白质上。
短暂激活核酸酶以消化目标蛋白周围的DNA。这种靶向消化通过释放先前螯合的钙来控制，MNase需要钙才能发挥其核酸酶活性。核酸酶反应在冰上进行，并且只持续很短的时间，从而精确控制切割量，从而减少非特异性消化产生的噪音。
在这一点上，加入来自不同生物体的单核小体大小的DNA片段（外源DNA）。
通过在37摄氏度下短暂孵育，从细胞核中释放这些片段。
这些短DNA片段随后被纯化，用于后续的文库制备和高通量测序。

CUT&TAG

对于靶标下的切割和转座酶标记测定（CUT&Tag），pAG与预装有测序接头的高活性Tn5转座酶（pAG-Tn5）融合，并通过镁离子激活，从而同时切割并用接头“标记”抗体标记的染色质。这绕过了传统的文库制备步骤，加速了样品处理。然而，这种方法仅适用于细胞核。

这两种测定方法都是在美国西雅图弗雷德·哈钦森癌症研究中心的Steven Henikoff博士实验室和瑞士日内瓦大学的Ulrich Laemmli博士实验室开发的。

CUT&RUN 与 ChIP-seq 对比

CUT&RUN的优势	CUT&RUN的局限性
需要较少的起始材料：可以使用较少数量的细胞。	并非所有蛋白质都已优化：并非所有蛋白质都适用于该方法。你可能需要投入时间进行预实验来优化条件。
较低的测序深度	DNA过度消化的风险：由于钙依赖性MNase反应的时间控制不当，可能导致DNA过度消化。
显著降低背景噪音：通过靶向释放基因组片段，减少了背景噪音	染色质复合物可能太大：染色质复合物可能太大而无法扩散出来，或者蛋白-蛋白相互作用可能保留被切割的复合物，影响结果 .
降低成本：通过减少抗体使用量、文库制备和测序深度要求，降低了整体成本。

ATAC-seq：检测基因组中的开放区域

一种常用的方法来识别基因组中的开放区域是转座酶可及染色质分析（ATAC），随后进行高通量测序。ATAC-Seq 方法首次于2013年在《Nature Methods》杂志上由斯坦福大学Howard Chang和William Greenleaf实验室的主要研究人员Jason Buenrostro发表。

它是如何工作的？

利用高活性的Tn5转座酶将测序接头插入开放的染色质区域。
n5转座酶同时切割基因组并用测序接头标记产生的DNA片段。
扩增并测序。

该方法依赖于已经在基于转座酶的NGS文库制备方法中使用的高活性Tn5转座酶。作者假设，如果在活体中使用类似的方法，接头的插入将主要发生在开放染色质区域，因为这些区域没有空间位阻，允许转座酶优先进去这些区域。

为什么选择ATAC-seq？

与现有方法相比，ATAC-seq的主要优势在于文库制备协议的简单性：

Tn5插入后进行两轮PCR。
不需要像FAIRE-seq那样的超声破碎或酚-氯仿提取。
不需要像ChIP-seq那样的抗体。
不需要像MNase-seq或DNase-seq那样敏感的酶切消化。
时间要求短。与其他可能需要多达四天才能完成的方法不同，ATAC-seq的准备可以在三小时内完成。
起始细胞数量低。与其他开放染色质测定方法相比，ATAC-seq推荐使用的细胞数量较少（建议用于人类样本的细胞数量为500到50,000个）。

这些优势使得ATAC-seq成为一种高效且易于操作的方法，特别适用于研究基因组中的开放染色质区域。

染色质结构分析

蛋白质-DNA结合

在典型的ChIP-seq分析流程中，序列读段被映射到参考基因组，并确定覆盖度最高的区域（峰）。在基因组浏览器中可视化这些读段时，根据感兴趣的蛋白质，这些区域会呈现特定的信号特征。

窄峰：信号覆盖一个小区域但幅度很高（如下图红色轨道所示）。这种窄峰特征通常出现在大多数转录因子中，但也出现在一些调控元件（如CTCF）中。
混合峰：较难分辨，因为其信号特征是窄峰和宽峰的混合。例如，RNA聚合酶II（橙色），它有一个尖锐的峰，后面跟着一个较宽（幅度较低）的富集区域。
宽峰：表现为较大区域的富集，通常跨越整个基因体，常见于特定的组蛋白修饰。

组蛋白修饰

在分析组蛋白修饰时，组蛋白密码可能非常复杂，因为四个标准组蛋白（H2A、H2B、H3和H4）的N端末端可能在多个位点上发生不同的修饰。但在实际研究中，研究人员通常会关注组蛋白H3上的一些具有明确基因调控作用的修饰。

常见的组蛋白H3修饰及其功能

活跃启动子（窄峰）：

H3K4me3：三甲基化组蛋白H3赖氨酸4，通常与活跃转录的启动子相关。
H3K9Ac：乙酰化组蛋白H3赖氨酸9，也与活跃转录的启动子相关。

活跃增强子（窄峰）：

H3K27Ac：乙酰化组蛋白H3赖氨酸27，通常与活跃增强子相关。
H3K4me1：单甲基化组蛋白H3赖氨酸4，也与增强子相关。

抑制性区域（宽峰）：

H3K9me3：三甲基化组蛋白H3赖氨酸9，通常与异染色质和基因沉默相关。
H3K27me3：三甲基化组蛋白H3赖氨酸27，通常与多梳复合物介导的基因沉默相关。

活跃转录的基因体（宽峰）：

H3K36me3：三甲基化组蛋白H3赖氨酸36，通常与活跃转录的基因体相关。

染色质可及性

下图示意了当前染色质可及性测定方法所获得的代表性DNA片段及其预期信号特征。

开放染色质：FAIRE-seq、DNase-seq
转录因子结合：DNase-seq
核小体占有率：MNase-seq

ATAC-seq能够在高分辨率下同时评估染色质结构的三个方面。因此，在我们的数据中，我们通常会看到以下区域：

无核小体区域（NFR）：<100 bp
单核小体：约200 bp
双核小体：约400 bp
三核小体：约600 bp

这样，ATAC-seq可以提供关于染色质可及性、转录因子结合和核小体排布的综合信息。

公共资源

大量可自由访问的功能基因组数据是通过大规模比较分析来研究多个DNA相互作用因子和染色质修饰的生物功能的宝贵资源。许多联盟已经成立，旨在收集跨研究的数据并将其提供给研究社区。最终，这些资源使研究人员能够拼凑出影响细胞身份、发育、谱系特化和疾病的表观基因组景观。下面描述了两个流行的资源，但请注意，还有其他存储库和用于快速检索及比较分析的各种平台。

ENCODE 项目

ENCODE（DNA元件百科全书）项目是人类基因组计划的后续项目。它是一个公共研究联盟，旨在为人类和小鼠基因组中的所有元件赋予功能。2003年，随着人类基因组计划的完成，ENCODE项目启动，涉及全球30多个研究小组和400多名科学家。

ENCODE产生了大量的数据，可以通过项目的免费数据库ENCODE Portal访问。ENCODE“百科全书”将这些数据组织成两个层次的注释：

整合层次注释：包括候选顺式调控元件的注册表。
基础层次注释：直接从实验数据中得出的注释。

注意：对于研究其他模式生物的研究人员，还有modENCODE（模式生物DNA元件百科全书）项目，专门针对果蝇（Drosophila melanogaster）和秀丽隐杆线虫（Caenorhabditis elegans）基因组中的功能元件进行鉴定。

NIH Roadmap Epigenomics Mapping Consortium

NIH Roadmap表观基因组项目继续这一研究旅程，专注于人类表观基因组数据。该项目于2008年启动，旨在阐明表观遗传调控如何影响人类发育和疾病。Roadmap表观基因组项目使用了许多与ENCODE相同的技术，但几乎完全专注于DNA甲基化和组蛋白修饰等表观遗传特征，而ENCODE则更侧重于识别DNA结合因子的结合位点。

数据以图谱的形式呈现，用户可以探索干细胞和原代外体组织的表观基因组图谱，这些组织被选为代表那些在人类疾病中常涉及的正常组织和器官系统的对应物。数据可以在浏览器中查看或本地下载。

Reference

https://hbctraining./Intro-to-ChIPseq-flipped/lessons/01a_Understanding_chromatin_with_HTS.html

微精选