生信数据分析的底层确实是统计学

生信数据分析其实是学不完的，尤其是单细胞领域，五花八门，我以为在2018到2022我写了4个专辑就可以“退休了”：

没想到的说2024我又创作了50+的单细胞笔记，实在是求助我的小伙伴们实在是领域太分散了，而且确实是单细胞数据分析方向总会涌现出来各种看起来是奇奇怪怪的分析，但其实就是统计学底层小细节罢了。

比如这次粉丝提问的又是张泽民课题组新鲜出炉的（2024年8月）的单细胞数据挖掘文章：《Integrative single-cell analysis of human colorectal cancer reveals patient stratification with distinct immune evasion mechanisms》，如下所示有一个基因交集的可视化。正常情况下，交集应该是韦恩图，但是作者把一个简简单单交集玩出花来了。其中交集的左边是 mapped genes of CRC risk loci 是来源于前人的研究，下载一个基因列表即可。然后交集的另外一部分就是单细胞降维聚类分群之后的每个亚群在癌症和癌旁的差异基因列表。如下所示：

每个亚群在癌症和癌旁的差异基因列表

比如，在正文里面，研究者们单独可视化了这个排名靠前的COL4A2基因，如下所示很明显的在肿瘤里面是高表达的，相对于癌旁组织来说：

单独可视化了这个排名靠前的COL4A2基因

这个COL4A2基因首先应该是 mapped genes of CRC risk loci 是来源于前人的研究，然后它在多个单细胞亚群里面都表现出来了很明显的在肿瘤里面是高表达，相对于癌旁组织来说！

如果仅仅是交集，应该是韦恩图，统计一下各个单细胞亚群交集基因数量即可，发现成纤维细胞（Fibroblasts）和内皮细胞（Endothelial Cells, ECs） 的交集排名靠前。不应该是出现上面的散点图，需要理解一些统计学概念：

遗传调控（Genetic Regulations）：指的是基因表达和功能受到其他分子（如转录因子、microRNA等）调控的过程。
结直肠癌风险位点（CRC Risk Loci）：是指与结直肠癌发生风险相关的基因组区域。
映射基因（Mapped Genes）：是指在特定的遗传风险位点上找到的基因，这些基因可能与疾病风险相关。
P值分布（P-value Distribution）：P值是统计学中用来衡量观察到的数据与假设之间的差异是否具有统计学意义的一个指标。在这段描述中，研究者比较了肿瘤组织和癌旁组织中不同细胞类型的基因表达差异，并计算了相应的P值。
预期的均匀分布（Expected Uniform Distribution）：是指如果基因表达差异是随机的，那么P值应该在0到1之间均匀分布。
Lambda统计量（Lambda Statistic）：这是一种用于检测偏离预期分布的统计量。在这里，它被用来评估实际观察到的P值分布与预期的均匀分布之间的偏差程度。
膨胀的偏差（Inflated Deviations）：指的是实际观察到的P值分布与预期的均匀分布相比，出现了较大的偏差，这可能表明某些细胞类型的基因表达差异不是随机的，而是受到了特定的遗传调控。

其实不同单细胞亚群是否有这些 mapped genes of CRC risk loci 的差异情况，应该是下面的热图展示：

同样的，也可以看到这个COL4A2基因在内皮细胞和成纤维，都是统计学上调基因啦，但是这个并不足矣让它从全部的mapped genes of CRC risk loci里面脱颖而出，因为出现在多个单细胞亚群都表现出差异的基因有很多，需要一个统计学指标：

A larger deviation, as determined by a larger lambda statistic, indicates a stronger transcriptional alteration in tumors for a certain cell type

如果看文章里面的方法学描述，其实就会发现，描述的确实是过于简单：

描述的确实是过于简单

值得注意的是，如果做这样的单细胞亚群在不同分组的大量细胞之间的差异分析，是需要抹去细胞数量这个变量的。这段描述涉及到的是统计学中的一些概念，用于研究特定细胞类型在肿瘤和癌旁组织中的基因表达差异。下面是对这些概念的解释：

差异表达分析（Differential Expression Analysis）：这是一种统计方法，用于识别在不同条件下（如肿瘤组织和癌旁组织）表达水平有显著差异的基因。
表达阈值（>10% of cells）：研究者只关注在肿瘤或癌旁组织中表达水平超过10%的细胞的基因。这是一个筛选标准，用于确保分析的基因在至少10%的细胞中有表达。
风险基因（Risk Genes）：这里指的是那些位于结直肠癌风险位点上的基因，它们可能与疾病风险相关。
P值（P values）：在差异表达分析中，P值用于衡量观察到的基因表达差异是否具有统计学意义。P值越小，表示基因表达差异越显著。
分位数-分位数图（Quantile–Quantile Plot）：这是一种图形工具，用于比较两个分布的形状。在这里，它被用来展示实际观察到的P值分布与预期的均匀分布之间的偏差。
预期的均匀分布：如果基因表达差异是完全随机的，那么P值应该在0到1之间均匀分布。
偏差（Deviation）：分位数-分位数图上的偏差表示实际观察到的P值分布与预期的均匀分布之间的差异。
Lambda统计量（Lambda Statistic）：这是一个用于衡量P值分布偏差的统计量。Lambda值越大，表示偏差越大，即基因表达差异越显著。
转录调控（Transcriptional Alteration）：指的是基因表达水平的变化，这可能是由于遗传或环境因素导致的。

总的来说，这段描述是关于如何使用统计学方法来分析特定细胞类型在肿瘤和癌旁组织中的基因表达差异。通过差异表达分析，研究者可以识别出表达水平有显著差异的基因，并通过分位数-分位数图和Lambda统计量来评估这些差异的显著性。这些分析有助于理解肿瘤发生过程中不同细胞类型的转录调控变化。

统计学重要吗

其实上面的单细胞转录组表达量矩阵的降维聚类分群，然后是细胞亚群的生物学命名，然后是差异分析，都是有整理好的流程，基本上可以无脑运行的，看起来统计学其实并不重要。

然后呢，如果是gwas记录的crc的1000个基因去跟各个亚群取交集，似乎是也不需要统计学。但是交集后仍然是有一两百个基因，如果继续从这里面定位到最关键的呢，其实粗浅的可以直接看变化倍数或者表达百分比差异即可。并不一定要看文章那样的搞一个统计学概念。

统计学是一块的难啃的骨头，所以我们整理了技能树往年笔记，以及一些优秀同行的分享分享给大家，每一篇都值得细细品读！

如果不学统计学，那么你就不可能看懂下面这图，生物信息学领域耳熟能详的生存分析，主成分分析，差异分析你都无法理解。

首先是statquest学习小组长笔记

StatQuest生物统计学专题 – 基础概念

StatQuest生物统计学专题 – p值

StatQuest生物统计学专题 – 生物重复和技术重复

StatQuest生物统计学专题 – RPKM,FPKM,TPM

StatQuest生物统计学专题 – library normalization进阶之DESeq2的标准化方法

StatQuest生物统计学专题 – library normalization进阶之edgeR的标准化方法

StatQuest生物统计学 – Independent Filtering

StatQuest生物统计学 – FDR及Benjamini-Hochberg方法

StatQuest生物统计学 – 拟合基础

StatQuest生物统计学 – 线性拟合的R2和p值

StatQuest生物统计学专题 – 分位数及其应用

StatQuest生物统计学专题 – 极大似然估计

StatQuest生物统计学专题 – PCA

StatQuest生物统计学专题 – PCA的奇异值分解过程

StatQuest生物统计学专题 – LDA

StatQuest生物统计学专题 – MDS

StatQuest生物统计学专题 – tSNE的基础概念

StatQuest生物统计学专题 – 聚类及其算法(1)

StatQuest生物统计学专题 – 聚类及其算法(2)

StatQuest生物统计学专题 – K近邻算法

StatQuest生物统计学专题 – 决策树(1)

StatQuest生物统计学专题 – 决策树(2)

StatQuest生物统计学专题 – 随机森林(1) 构建与评价

StatQuest生物统计学专题 – 随机森林(2) R实例

待续，持续更新

单细胞结合GWAS

其实就跟结合生存分析是一回事，因为有gwas数据库资源提供注释信息和基因列表，因为很容易去搜索拿到各个疾病的GWAS相关基因，然后就可以去对应疾病的单细胞转录组数据降维聚类分群后的结果里面看看是否有富集，比如：2020的《NATURE》文章：《Cells of the human intestinal tract mapped across space and time》，就是做了人类的正常肠道相关组织的单细胞图谱后，就顺理成章的看看 Cell-type enrichment analysis for IBD-GWAS genes，其实还可以看看肠癌相关的GWAS基因是否有富集。（或者做一个基因集的打分！！！）

微精选